Merge pull request 'fix(learning): chair_name במקור — סופי-ועדה תמיד נכנס לקורפוס-הפסיקה (#134)' (#226) from worktree-chair-name-rootfix into main
All checks were successful
Build & Deploy / build-and-deploy (push) Successful in 1m30s
G12 Leak-Guard / leak-guard (push) Successful in 6s

This commit was merged in pull request #226.
This commit is contained in:
2026-06-12 07:26:32 +00:00
8 changed files with 124 additions and 25 deletions

View File

@@ -67,7 +67,7 @@
| `halacha_rule_role_backfill.py` | python | **INV-DM7** — backfill חד-פעמי: מסווג-מחדש את ההלכות הישנות (`rule_type IN ('binding','persuasive')` — ערכי-סמכות שנשמרו במסווה תפקיד לפני פיצול הצירים) לאחד מחמשת **תפקידי-הכלל** (holding/interpretive/procedural/application/obiter) דרך claude_session המקומי (אפס עלות). **לא נוגע בסמכות** (נגזרת מ-`precedent_level`). `--apply` (ברירת-מחדל dry-run) / `--limit N` / `--concurrency`. כותב backup CSV ל-`data/audit/` תחילה. fail-safe (פריט שנכשל → נשמר ערך ישן). **חובה מקומי** (claude_session). | ידני חד-פעמי אחרי deploy של פיצול-הסמכות |
| `halacha_batch_reconcile.py` | python | **#82.7** — dedup חוצה-פסקים offline (שמרני, **dry-run בלבד**). dedup-on-insert משווה רק תוך-פסק; כאן סף מחמיר (cosine ≥0.95, `--cosine`) ולא-הרסני: מאתר זוגות הלכות near-duplicate בין פסקים שונים (pgvector `<=>` exact) עם איתות לקסיקלי (Jaccard/Levenshtein) ומדווח ל-CSV ב-`data/audit/` לסקירת היו"ר. לא מדלג/ממזג/מוחק. `--include-pending`. **`--link`** רושם את הזוגות שנמצאו כ-`equivalent_halachot` (parallel authority, #84.2 — קישור-מקביל ברמת-הלכה, **לא** ציטוט; idempotent, לא-הרסני). רץ עם venv של mcp-server. אומת: 800 הלכות → 5 זוגות (קושרו). | ידני — דוח-סקירה / `--link` לקישור |
| `calibrate_halacha_dedup.py` | python | **#82.1** — כיול ספי ה-dedup הלקסיקלי (#82.3) מול gold-set הניקוי. קורא `halacha-cleanup-manifest-*.csv` (זוגות duplicate↔survivor מתויגי-אדם), טוען טקסט-survivor מה-DB, ו-sweep של (jaccard_min × levenshtein_min) עם P/R/F1, מסמן את נקודת-העבודה המוגדרת. אימת ש-(0.55, 0.70) → **precision 1.0** (אפס false-merge), recall 0.30 — מתאים לאיתות-משני שחוסם auto-approve. `--manifest <path>`. רץ עם venv של mcp-server | חד-פעמי — כיול (בוצע 2026-06-06) |
| `audit_corpus_integrity.py` | python | בדיקה תקופתית של עקביות הקורפוס — 3 בדיקות SQL read-only על `case_law` ו-`cases`: (A) `external_upload` עם prefix פנימי `ערר`/`בל"מ`; (B) `internal_committee` חסר `chair_name`/`district`; (C) `cases.practice_area` מחוץ ל-{`rishuy_uvniya`, `betterment_levy`, `compensation_197`, `''`}. כותב log מצטבר ל-`data/logs/corpus_integrity_audit.log` ובמצב הפרות שולח wakeup ל-CEO ב-Paperclip (best-effort, רק אם `PAPERCLIP_API_URL`+`PAPERCLIP_API_KEY` מוגדרים). דגל: `--no-notify`. Idempotent, יוצא 0. **Cron יומי 07:00**: `0 7 * * * /home/chaim/legal-ai/mcp-server/.venv/bin/python /home/chaim/legal-ai/scripts/audit_corpus_integrity.py` | `0 7 * * *` (cron) |
| `audit_corpus_integrity.py` | python | בדיקה תקופתית של עקביות הקורפוס — 5 בדיקות SQL read-only על `case_law` ו-`cases`: (A) `external_upload` עם prefix פנימי `ערר`/`בל"מ`; (B) `internal_committee` חסר `chair_name`/`district`; (C) `cases.practice_area` מחוץ ל-{`rishuy_uvniya`, `betterment_levy`, `compensation_197`, `''`}; (D) תיקים מוכרעים (`final`/`exported`/`reviewed`) ללא `chair_name` (chair ריק מפיל בשקט את העתק-הסופי לקורפוס-הפסיקה — INV-G1); (E) תיקי `final` חתומים שחסרים מקורפוס-הפסיקה הפנימי (`internal_committee`). כותב log מצטבר ל-`data/logs/corpus_integrity_audit.log` ובמצב הפרות שולח wakeup ל-CEO ב-Paperclip (best-effort, רק אם `PAPERCLIP_API_URL`+`PAPERCLIP_API_KEY` מוגדרים). דגל: `--no-notify`. Idempotent, יוצא 0. **Cron יומי 07:00**: `0 7 * * * /home/chaim/legal-ai/mcp-server/.venv/bin/python /home/chaim/legal-ai/scripts/audit_corpus_integrity.py` | `0 7 * * *` (cron) |
| `backfill_legal_arguments.py` | python | Backfill `legal_arguments` לתיקים עם `claims` קיימים (TaskMaster #36). מקבץ פרופוזיציות גולמיות לטיעונים משפטיים מובחנים (~6-12 לכל צד) דרך `argument_aggregator.aggregate_claims_to_arguments` (Claude CLI). תומך `--dry-run`/`--apply`/`--force`/`--case <num>...`. **חייב לרוץ מהמכונה המקומית** (לא קונטיינר) — `claude_session` דורש Claude CLI | ידני per-case (`python scripts/backfill_legal_arguments.py --apply --case 1017-03-26`) |
| `upload_blam_decisions.py` | python | חד-פעמי (2026-05-26) — העלאת 2 החלטות בל"מ ל-`case_law` (8126/24 סופר נוח, 8047/23 הרנון) דרך `ingest_internal_decision` ישיר, עוקף MCP server שטרם נטען מחדש אחרי הוספת `proceeding_type`. **לא להריץ שוב** | חד-פעמי — להעביר ל-`.archive/` בהזדמנות |
| `process_pending_blam.py` | python | חד-פעמי (2026-05-26) — הרצת metadata + halacha extraction על 2 החלטות בל"מ שעלו ב-`upload_blam_decisions.py`. עוקף MCP (אותו טעם). **לא להריץ שוב** | חד-פעמי — להעביר ל-`.archive/` בהזדמנות |

View File

@@ -82,6 +82,28 @@ CHECK_C_SQL = (
" 'compensation_197', '') "
"ORDER BY case_number"
)
# D. cases that reached a decided state but have no chair_name. An empty chair
# silently breaks the internal_committee corpus copy of the final
# (case_law_internal_chair_check) — chair must be set at source (INV-G1).
CHECK_D_SQL = (
"SELECT id, case_number, status FROM cases "
"WHERE status IN ('final', 'exported', 'reviewed') "
"AND (chair_name IS NULL OR chair_name = '') "
"ORDER BY case_number"
)
# E. SIGNED finals that never landed in the citable precedent corpus
# (case_law, source_kind='internal_committee'). Only status='final' means the
# chair's signed decision was ingested — 'exported' is merely OUR draft DOCX
# and legitimately has no precedent copy. This is the exact failure the
# chair_name fix prevents going forward; the check catches any regression.
CHECK_E_SQL = (
"SELECT c.id, c.case_number, c.status FROM cases c "
"WHERE c.status = 'final' "
"AND NOT EXISTS (SELECT 1 FROM case_law cl "
" WHERE cl.case_number = c.case_number "
" AND cl.source_kind = 'internal_committee') "
"ORDER BY c.case_number"
)
logging.basicConfig(
@@ -178,6 +200,8 @@ def _format_report(
a_hits: list[dict],
b_hits: list[dict],
c_hits: list[dict],
d_hits: list[dict],
e_hits: list[dict],
ts: datetime,
) -> str:
parts: list[str] = []
@@ -215,6 +239,29 @@ def _format_report(
if len(c_hits) > 50:
parts.append(f" ... ({len(c_hits) - 50} more truncated)")
parts.append("")
parts.append(
f"Check D (decided cases missing chair_name): {len(d_hits)} hit(s)"
)
for row in d_hits[:50]:
parts.append(
f" - id={row['id']} case_number={row['case_number']!r} "
f"status={row.get('status')!r}"
)
if len(d_hits) > 50:
parts.append(f" ... ({len(d_hits) - 50} more truncated)")
parts.append("")
parts.append(
f"Check E (signed-final cases missing from internal_committee "
f"precedent corpus): {len(e_hits)} hit(s)"
)
for row in e_hits[:50]:
parts.append(
f" - id={row['id']} case_number={row['case_number']!r} "
f"status={row.get('status')!r}"
)
if len(e_hits) > 50:
parts.append(f" ... ({len(e_hits) - 50} more truncated)")
parts.append("")
return "\n".join(parts)
@@ -225,12 +272,14 @@ async def main(args: argparse.Namespace) -> int:
a_hits = await _run_check(conn, CHECK_A_SQL)
b_hits = await _run_check(conn, CHECK_B_SQL)
c_hits = await _run_check(conn, CHECK_C_SQL)
d_hits = await _run_check(conn, CHECK_D_SQL)
e_hits = await _run_check(conn, CHECK_E_SQL)
finally:
await conn.close()
total = len(a_hits) + len(b_hits) + len(c_hits)
total = len(a_hits) + len(b_hits) + len(c_hits) + len(d_hits) + len(e_hits)
ts = datetime.now(timezone.utc)
report = _format_report(a_hits, b_hits, c_hits, ts)
report = _format_report(a_hits, b_hits, c_hits, d_hits, e_hits, ts)
# Always write to log (creates dir + file if missing).
LOG_PATH.parent.mkdir(parents=True, exist_ok=True)
@@ -246,8 +295,8 @@ async def main(args: argparse.Namespace) -> int:
return 0
logger.warning(
"found %d total violation(s) (A=%d, B=%d, C=%d)",
total, len(a_hits), len(b_hits), len(c_hits),
"found %d total violation(s) (A=%d, B=%d, C=%d, D=%d, E=%d)",
total, len(a_hits), len(b_hits), len(c_hits), len(d_hits), len(e_hits),
)
if args.notify:
@@ -256,6 +305,8 @@ async def main(args: argparse.Namespace) -> int:
f"- Check A (external_upload עם prefix פנימי): {len(a_hits)}",
f"- Check B (internal_committee חסר chair/district): {len(b_hits)}",
f"- Check C (cases.practice_area לא תקין): {len(c_hits)}",
f"- Check D (תיקים מוכרעים ללא chair_name): {len(d_hits)}",
f"- Check E (סופיים חסרים מקורפוס-הפסיקה הפנימי): {len(e_hits)}",
"",
f"פירוט מלא: {LOG_PATH}",
]

View File

@@ -112,6 +112,11 @@ async def main(args: argparse.Namespace) -> int:
ds = d.get("diff_stats", {})
print(f" ✓ change {ds.get('change_percent')}% · lessons {d.get('lessons_count')} "
f"· new_expr {d.get('new_expressions')}")
# Surface (do not swallow) a failed precedent-corpus copy so the final
# does not silently miss the citable internal_committee library.
if d.get("internal_corpus_ingested") is False:
print(f" ⚠️ קורפוס-פסיקה: ההעתק הפנימי (internal_committee) לא נוצר — "
f"{d.get('internal_corpus_error', 'סיבה לא ידועה')}", flush=True)
return {"ingest": "done"}
async def step_enroll(results: dict) -> dict: