Files
legal-ai/docs/precedent-corpus-redesign/05-ingest-contract-and-citation-graph-gaps.md

69 lines
5.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 05 — חוזה-הקליטה, ריקות-גרף-הציטוטים, ו-V41 האינרטי
> קלט לסינתזה. שלושת מחוללי-הכאב הטכניים, עם מספרים חיים (2026-06-20). משלים את [01](01-claude-architecture-data-audit.md)
> בנתונים מדויקים ומתקן שתי קריאות.
## 1. חוזה-הקליטה — הכאב הוא **כולו במסלול-החיצוני**
```text
source_kind total ללא practice_area ללא summary ללא full_text
external_upload 239 209 (87%) 2 0
internal_committee 93 0 0 0
cited_only 31 31 25 31
```
**קריאות מתוקנות:**
- **87% מהפסיקה-החיצונית (209/239) ללא practice_area** — חד ויותר ממה ש-01 דיווח (66% על-פני-הכל).
סינון-לפי-תחום באחזור **לא עובד על פסיקה חיצונית**. הכאב **כולו במסלול `precedent_library_upload`**;
המסלול-הפנימי (`internal_decision_upload`) **שלם ב-100%**.
- **ה-31 "השבורים" אינם שבורים — הם `cited_only` stubs** (אזכור לפס"ד שאין לנו את גופו). ריקים-בכוונה.
**תיקון לקריאת-01:** לא למחוק אותם; הם נקודות-עוגן לגרף-הציטוטים.
**המשמעות:** "התיקונים האינסופיים" של חיים = העדר-אכיפה ב-upload-החיצוני בלבד. **תיקון-במקור (G1):**
או חילוץ-אוטומטי של practice_area בקליטה, או `searchable=false` עד שהמטא שלם — נקודה אחת, מסלול אחד.
## 2. גרף-הציטוטים — **קיים-מחושב אך כמעט-ריק**
```text
PageRank/אשכולות מחושבים ✅ web/graph_metrics.py · graph_api.py
ציטוטים מהחלטות דפנה (42 החלטות) 398 ← ~כל הסיגנל
ציטוטים מ-91 ועדות-אחרות 0 ← לא חולצו (extract_internal_citations לא רץ עליהן)
ציטוטים בין פס"ד-חיצוניים 0 ← אין קשתות ביניהם בכלל
```
**המשמעות הקריטית:** המחקר ([02](02-deep-research-importance-recommendation.md)) המליץ centrality על
גרף-ציטוטים — **אבל אין גרף**. ל-PageRank אין כמעט קשתות. הסיגנל-האוטומטי-היחיד היום = 398 ציטוטי-דפנה
(שמתואמים עם הקאנון, [04](04-daphna-canon-as-importance-ground-truth.md) §2).
**שתי דרכים (להכרעת-הסינתזה):**
- **(א) לצופף את הגרף** — להריץ את ה-citator (`extract_internal_citations` / X11) על **כל 363 הפסקים**
(גם 91 ועדות-אחרות, גם פס"ד-חיצוניים) → גרף אמיתי → PageRank משמעותי. **מאמץ בינוני, ערך גבוה ומצטבר.**
- **(ב) להישען על הקאנון + ציטוטי-דפנה + יומונים** — בלי לחכות לגרף. מהיר, אבל מכסה פחות.
- **לא בלעדי:** (א) ו-(ב) משלימים — קאנון כזריעה מיידית, גרף-מצופף כשכבה-מצטברת.
## 3. V41 (canonical) — **100% תקוע, לא רק "0 published"**
```text
canonical_halachot review_status:
pending_synthesis 5,472 (100%)
pending_review 0
approved 0
published 0
```
**זו לא "שכבה חלשה" — זו שכבה שמעולם לא הפיקה דבר.** **כל** 5,472 הקנוניים תקועים במצב-הראשון.
מנגנון-ה-V41 (pending_synthesis → pending_review → approved → published) **דורש מעבר דרך אישור-יו**
כדי להגיע לכותב (INV-G10).
**ההתנגשות שהסינתזה חייבת להכריע:** הארכיטקטורה של V41 **בנויה על אישור-יו** — וזה **מתנגש ישירות
עם אילוץ אפס-הביקורת של חיים.** שלוש אפשרויות:
1. **לעקוף את V41** — דירוג-בזמן-אחזור ישירות על `halachot`/chunks (המחקר נוטה לכאן); V41 הופך
לאופציונלי/נדחה.
2. **לשנות-ארכיטקטורה את V41** — שער-conformal אוטומטי במקום אישור-ידני (רק שבריר חסום מסלים).
3. **לקבל ש-V41 לכתיבה-בלבד-אחרי-אישור** — אבל אז הוא נשאר אינרטי עד שמישהו מאשר (מצב-היום).
> הקשר: הסינתזה שבניתי (PR#304) הופכת pending_synthesis→pending_review — **הצעד הראשון אי-פעם** —
> אבל גם הוא נעצר באישור-יו"ר. לכן עצם-קיומו של V41 כפוף להכרעה זו.
## 4. מה הסינתזה צריכה להכריע (תמצית)
| # | נושא | אפשרויות |
|---|------|----------|
| 1 | חוזה-קליטה חיצוני | חילוץ-auto של practice_area · / · `searchable=false` עד-שלם |
| 2 | גרף-ציטוטים | לצופף (citator על כל 363) · / · להישען על קאנון+דפנה+יומונים · / · שניהם |
| 3 | V41 canonical | לעקוף (דרג-על-halachot) · / · conformal-gate · / · להשאיר-מגודר-יו"ר |
| 4 | פסיקה-חסרה | להטמיע תקדימי-קאנון-חסרים (חוף-השרון, הרמלין) דרך X13 |