feat(digests): קורפוס יומונים כשכבת-גילוי (radar) — X12

מאגר חדש ליומוני "כל יום" (עפר טויסטר) כשכבת-גילוי מעל קורפוסי-הפסיקה: מקור-משני המצביע על פסק הדין המקורי, נקלט לטבלה נפרדת `digests`, נחפש סמנטית, ומקושר לפסק המקורי בספריית הפסיקה — אך לעולם אינו מצוטט בהחלטה ואינו מחלץ הלכות. Phase 0 (spec): - docs/spec/X12-digests-radar.md — INV-DIG1 (מצביע לא מצוטט) / INV-DIG2 (מסלול-קליטה נפרד, לא מקביל — מקיים G2) / INV-DIG3 (קישור-לפסק הוא הגשר; חוסר-קישור = פער גלוי). עדכון אינדקס 00/03/README. Phase 1 (MVP): - SCHEMA_V30: טבלת `digests` (HNSW על embedding — לא ivfflat, להימנע מ-recall cliff בקורפוס קטן/צומח) + GIN/FTS + UNIQUE חלקי ל-idempotent. - services/digest_metadata_extractor.py — חילוץ-LLM (claude_session local-only, ייבוא lazy): תג-מושג, כותרת-הלכה, מראה-מקום, שני-תאריכים מובחנים, תגיות. - services/digest_library.py — מסלול קצר עצמאי (INV-DIG2): extract→hash→LLM→ embedding יחיד→autolink. לא משתמש ב-ingest.ingest_document. - tools/digests.py + רישום 7 כלים ב-server.py (digest_upload/list/get/link/ relink/delete + search_digests). - scripts/ingest_digests_batch.py — קליטה ידנית מ-data/digests/incoming. - legal-researcher.md: שלב 2ב.0 (סריקת-radar לפני אימות) + סעיף-דוח ט + 3 כלים ב-frontmatter. HEARTBEAT §8: ניתוב יומון→digest_upload. אומת end-to-end: 4 יומונים נקלטו (מטא-דאטה מדויק), חיפוש סמנטי מדרג נכון ("היטל השבחה"→5160, "תמא 38"→5158), link/relink/autolink/revert + מעטפת-MCP. Invariants: מוסיף INV-DIG1/2/3 (X12). מקיים G2 (bounded context נפרד, לא מסלול מקביל), G3 (idempotent upsert), G4 (אין בליעה שקטה — פער-קישור מוצף), G9 (עקיבוּת — היומון מצביע על מקור עקיב). נוגע G7 (RRF) — נדחה, חיפוש סמנטי-בלבד בשלב 1 (FTS index מוכן). Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-07 17:49:00 +00:00
parent 9eaabffba4
commit 8171572cdd
13 changed files with 1353 additions and 5 deletions
--- a/mcp-server/src/legal_mcp/services/digest_metadata_extractor.py
+++ b/mcp-server/src/legal_mcp/services/digest_metadata_extractor.py
@@ -0,0 +1,137 @@
+"""Auto-extract catalog metadata from a "כל יום" daily digest (X12).
+
+A digest is a one-page secondary summary (Ofer Toister) of a single ruling.
+This module reads its raw text and asks the local Claude CLI to extract the
+fields the radar needs: yomon number, concept tag, headline holding, a short
+summary, the UNDERLYING ruling's citation (the critical bridge field — INV-DIG3),
+its court / date / judge, practice area and subject tags.
+
+claude_session rule: this module imports ``claude_session`` (the local CLI),
+so it is **MCP-tool-only** — never import it from the FastAPI container. It is
+pulled in lazily inside ``digest_library.ingest_digest`` only.
+
+Unlike ``precedent_metadata_extractor`` (which patches a DB row), this returns
+a plain dict from raw text; ``digest_library`` decides how to merge/store it.
+"""
+
+from __future__ import annotations
+
+import logging
+from datetime import date as date_type
+
+from legal_mcp.config import parse_llm_json
+from legal_mcp.services import claude_session
+
+logger = logging.getLogger(__name__)
+
+
+_VALID_PRACTICE_AREAS = {"", "rishuy_uvniya", "betterment_levy", "compensation_197"}
+
+
+# Concatenated with f-strings at call time, NOT .format() — the JSON example
+# below contains '{' / '}' which str.format would treat as placeholders and
+# crash (same trap documented in precedent_metadata_extractor).
+DIGEST_EXTRACTION_PROMPT = """אתה מסייע משפטי בכיר. לפניך "יומון" — סיכום עמוד-אחד של משרד עפר טויסטר (עלון "כל יום")
+על פסק דין/החלטה אחת בתחום תכנון ובנייה / היטל השבחה / פיצויים (ס' 197). חלץ ממנו מטא-דאטה לקטלוג.
+
+**אל תמציא** — שדה שלא מופיע בטקסט → השאר ריק (מחרוזת ריקה / מערך ריק).
+
+## פלט נדרש
+החזר JSON אחד (object — לא array), ללא markdown וללא הסברים:
+
+{
+  "yomon_number": "מספר היומון מהכותרת ('יומון מס' 5163' → '5163'). ספרות בלבד. אם אין — ריק.",
+  "digest_date_iso": "YYYY-MM-DD — תאריך גיליון היומון (בכותרת, למשל '7 ביוני 2026' → '2026-06-07').",
+  "concept_tag": "תג-המושג שבמרכאות בראש העמוד (למשל 'שיקול הדעת המצומצם', 'Cherry-picking'). ביטוי קצר אחד.",
+  "headline_holding": "כותרת-ההלכה המודגשת מתחת לתג — משפט אחד שמסכם מה נקבע (למשל 'ביהמ\\"ש - שיקול דעת הוועדה המחוזית אינו מצומצם לטעות חמורה').",
+  "summary": "תקציר ניטרלי 2-3 משפטים בגוף שלישי: מה הייתה השאלה ומה הוכרע. בלי שיפוט.",
+  "underlying_citation": "מראה-המקום של פסק הדין/ההחלטה המקורי, כפי שמופיע בתחתית היומון, מילה במילה (למשל 'עת\\"מ 46111-12-22 יכין-אפק בע\\"מ נ' הוועדה המחוזית'). זהו השדה הקריטי — חלץ אותו במלואו ובדיוק.",
+  "underlying_court": "הערכאה שנתנה את פסק הדין המקורי (למשל 'בית המשפט לעניינים מנהליים מרכז-לוד', 'ועדת הערר מחוז ירושלים').",
+  "underlying_date_iso": "YYYY-MM-DD — תאריך מתן פסק הדין/ההחלטה המקורי (לרוב 'ניתן ביום DD.M.YY' בתחתית). שים לב: זה שונה מתאריך גיליון היומון!",
+  "underlying_judge": "שם השופט/ת או יו\\"ר ההרכב שנתן את פסק הדין המקורי (למשל 'יעל טויסטר ישראלי'). בלי תארים ('עו\\"ד', 'כב' השופט').",
+  "practice_area": "אחד מ-3: 'rishuy_uvniya' (רישוי ובנייה/הקלות/שימוש חורג) / 'betterment_levy' (היטל השבחה) / 'compensation_197' (פיצויים ס'197). אם לא ברור — ריק.",
+  "appeal_subtype": "תת-סוג קצר אם בולט (למשל 'הקלה', 'שיקול דעת הוועדה', 'מימוש במכר'). אחרת ריק.",
+  "subject_tags": ["3-7 תגיות בעברית snake_case (שיקול_דעת, הקלה, ועדה_מחוזית, היטל_השבחה, ...)"]
+}
+
+## כללי איכות
+1. **underlying_citation** — השדה החשוב ביותר; הוא הגשר לפסק הדין המקורי. חלץ מההערות/התחתית, מילה במילה.
+2. **הבחן בין שני התאריכים**: digest_date_iso = תאריך גיליון היומון (בכותרת); underlying_date_iso = מועד מתן פסק הדין (בתחתית, 'ניתן ביום...'). אל תבלבל.
+3. **summary** — ניטרלי, גוף שלישי, בלי מילות שיפוט.
+4. **subject_tags** — snake_case, תחום ועדת ערר תכנון ובנייה בלבד.
+5. אם רכיב לא מופיע בבירור — השאר את אותו שדה ריק. אל תנחש.
+"""
+
+
+def _norm_str(result: dict, key: str) -> str:
+    v = result.get(key)
+    return v.strip() if isinstance(v, str) else ""
+
+
+def _norm_date(result: dict, key: str) -> date_type | None:
+    v = result.get(key)
+    if not isinstance(v, str) or not v.strip():
+        return None
+    try:
+        return date_type.fromisoformat(v.strip()[:10])
+    except ValueError:
+        logger.debug("digest_metadata_extractor: ignoring invalid %s=%r", key, v)
+        return None
+
+
+async def extract(raw_text: str) -> dict:
+    """Extract digest metadata from raw text. Returns a dict (never raises).
+
+    Keys: yomon_number, digest_date (date|None), concept_tag, headline_holding,
+    summary, underlying_citation, underlying_court, underlying_date (date|None),
+    underlying_judge, practice_area, appeal_subtype, subject_tags (list[str]).
+    Missing/invalid fields are omitted so the caller's merge keeps user values.
+    """
+    text = (raw_text or "").strip()
+    if not text:
+        return {}
+
+    user_msg = f"--- תחילת היומון ---\n{text}\n--- סוף היומון ---"
+    try:
+        result = await claude_session.query_json(
+            user_msg, system=DIGEST_EXTRACTION_PROMPT,
+        )
+    except Exception as e:  # surfaced as warning, not swallowed silently (§6)
+        logger.warning("digest_metadata_extractor: query failed: %s", e)
+        return {}
+
+    if not isinstance(result, dict):
+        logger.warning(
+            "digest_metadata_extractor: expected dict, got %s",
+            type(result).__name__,
+        )
+        return {}
+
+    out: dict = {}
+    for key in (
+        "yomon_number", "concept_tag", "headline_holding", "summary",
+        "underlying_citation", "underlying_court", "underlying_judge",
+        "appeal_subtype",
+    ):
+        s = _norm_str(result, key)
+        if s:
+            out[key] = s
+
+    dd = _norm_date(result, "digest_date_iso")
+    if dd is not None:
+        out["digest_date"] = dd
+    ud = _norm_date(result, "underlying_date_iso")
+    if ud is not None:
+        out["underlying_date"] = ud
+
+    pa = _norm_str(result, "practice_area")
+    if pa in _VALID_PRACTICE_AREAS and pa:
+        out["practice_area"] = pa
+
+    tags = result.get("subject_tags")
+    if isinstance(tags, list):
+        clean = [str(t).strip() for t in tags if str(t).strip()]
+        if clean:
+            out["subject_tags"] = clean
+
+    return out