Files
legal-ai/docs/precedent-corpus-redesign/05-ingest-contract-and-citation-graph-gaps.md

5.3 KiB
Raw Blame History

05 — חוזה-הקליטה, ריקות-גרף-הציטוטים, ו-V41 האינרטי

קלט לסינתזה. שלושת מחוללי-הכאב הטכניים, עם מספרים חיים (2026-06-20). משלים את 01 בנתונים מדויקים ומתקן שתי קריאות.

1. חוזה-הקליטה — הכאב הוא כולו במסלול-החיצוני

source_kind         total   ללא practice_area   ללא summary   ללא full_text
external_upload      239         209 (87%)            2            0
internal_committee    93           0                  0            0
cited_only            31          31                 25           31

קריאות מתוקנות:

  • 87% מהפסיקה-החיצונית (209/239) ללא practice_area — חד ויותר ממה ש-01 דיווח (66% על-פני-הכל). סינון-לפי-תחום באחזור לא עובד על פסיקה חיצונית. הכאב כולו במסלול precedent_library_upload; המסלול-הפנימי (internal_decision_upload) שלם ב-100%.
  • ה-31 "השבורים" אינם שבורים — הם cited_only stubs (אזכור לפס"ד שאין לנו את גופו). ריקים-בכוונה. תיקון לקריאת-01: לא למחוק אותם; הם נקודות-עוגן לגרף-הציטוטים.

המשמעות: "התיקונים האינסופיים" של חיים = העדר-אכיפה ב-upload-החיצוני בלבד. תיקון-במקור (G1): או חילוץ-אוטומטי של practice_area בקליטה, או searchable=false עד שהמטא שלם — נקודה אחת, מסלול אחד.

2. גרף-הציטוטים — קיים-מחושב אך כמעט-ריק

PageRank/אשכולות מחושבים          ✅  web/graph_metrics.py · graph_api.py
ציטוטים מהחלטות דפנה (42 החלטות)   398   ← ~כל הסיגנל
ציטוטים מ-91 ועדות-אחרות           0     ← לא חולצו (extract_internal_citations לא רץ עליהן)
ציטוטים בין פס"ד-חיצוניים          0     ← אין קשתות ביניהם בכלל

המשמעות הקריטית: המחקר (02) המליץ centrality על גרף-ציטוטים — אבל אין גרף. ל-PageRank אין כמעט קשתות. הסיגנל-האוטומטי-היחיד היום = 398 ציטוטי-דפנה (שמתואמים עם הקאנון, 04 §2).

שתי דרכים (להכרעת-הסינתזה):

  • (א) לצופף את הגרף — להריץ את ה-citator (extract_internal_citations / X11) על כל 363 הפסקים (גם 91 ועדות-אחרות, גם פס"ד-חיצוניים) → גרף אמיתי → PageRank משמעותי. מאמץ בינוני, ערך גבוה ומצטבר.
  • (ב) להישען על הקאנון + ציטוטי-דפנה + יומונים — בלי לחכות לגרף. מהיר, אבל מכסה פחות.
  • לא בלעדי: (א) ו-(ב) משלימים — קאנון כזריעה מיידית, גרף-מצופף כשכבה-מצטברת.

3. V41 (canonical) — 100% תקוע, לא רק "0 published"

canonical_halachot  review_status:
   pending_synthesis   5,472   (100%)
   pending_review          0
   approved                0
   published               0

זו לא "שכבה חלשה" — זו שכבה שמעולם לא הפיקה דבר. כל 5,472 הקנוניים תקועים במצב-הראשון. מנגנון-ה-V41 (pending_synthesis → pending_review → approved → published) דורש מעבר דרך אישור-יו כדי להגיע לכותב (INV-G10).

ההתנגשות שהסינתזה חייבת להכריע: הארכיטקטורה של V41 בנויה על אישור-יו — וזה מתנגש ישירות עם אילוץ אפס-הביקורת של חיים. שלוש אפשרויות:

  1. לעקוף את V41 — דירוג-בזמן-אחזור ישירות על halachot/chunks (המחקר נוטה לכאן); V41 הופך לאופציונלי/נדחה.
  2. לשנות-ארכיטקטורה את V41 — שער-conformal אוטומטי במקום אישור-ידני (רק שבריר חסום מסלים).
  3. לקבל ש-V41 לכתיבה-בלבד-אחרי-אישור — אבל אז הוא נשאר אינרטי עד שמישהו מאשר (מצב-היום).

הקשר: הסינתזה שבניתי (PR#304) הופכת pending_synthesis→pending_review — הצעד הראשון אי-פעם — אבל גם הוא נעצר באישור-יו"ר. לכן עצם-קיומו של V41 כפוף להכרעה זו.

4. מה הסינתזה צריכה להכריע (תמצית)

# נושא אפשרויות
1 חוזה-קליטה חיצוני חילוץ-auto של practice_area · / · searchable=false עד-שלם
2 גרף-ציטוטים לצופף (citator על כל 363) · / · להישען על קאנון+דפנה+יומונים · / · שניהם
3 V41 canonical לעקוף (דרג-על-halachot) · / · conformal-gate · / · להשאיר-מגודר-יו
4 פסיקה-חסרה להטמיע תקדימי-קאנון-חסרים (חוף-השרון, הרמלין) דרך X13