From 7d8af836beba511bc8bd149a9814477576e05a5f Mon Sep 17 00:00:00 2001 From: Chaim Date: Sat, 20 Jun 2026 11:55:52 +0000 Subject: [PATCH] docs(principles): add inputs 04 (canon as ground-truth) + 05 (ingest/graph/V41 gaps) (#153) Co-Authored-By: Claude Opus 4.8 (1M context) --- docs/precedent-corpus-redesign/00-index.md | 7 +- ...daphna-canon-as-importance-ground-truth.md | 51 ++++++++++++++ ...ingest-contract-and-citation-graph-gaps.md | 68 +++++++++++++++++++ 3 files changed, 123 insertions(+), 3 deletions(-) create mode 100644 docs/precedent-corpus-redesign/04-daphna-canon-as-importance-ground-truth.md create mode 100644 docs/precedent-corpus-redesign/05-ingest-contract-and-citation-graph-gaps.md diff --git a/docs/precedent-corpus-redesign/00-index.md b/docs/precedent-corpus-redesign/00-index.md index 5598582..f3667e4 100644 --- a/docs/precedent-corpus-redesign/00-index.md +++ b/docs/precedent-corpus-redesign/00-index.md @@ -17,9 +17,10 @@ | 02 | [deep-research-importance-recommendation](02-deep-research-importance-recommendation.md) | **דוח-מחקר + המלצה:** אל-תחתוך הרסני; דרג-בזמן-אחזור; אפס-ביקורת דרך conformal. 7 ממצאים מאומתים. | מחקר-עומק | | 03 | [deep-research-full-output](03-deep-research-full-output.md) | המחקר המלא הגולמי (verbatim, לוגים, 4 הפרכות, 25 מקורות). | מחקר-עומק | -> **נותר להוסיף (קלטים-חסרים שזוהו):** -> - `04-daphna-canon-as-importance-ground-truth.md` — ניתוח הקאנון-הידני (ר' ב') כסיגנל-חשיבות + חיבור ל-RAG. -> - `05-ingest-contract-and-citation-graph-gaps.md` — חוזה-קליטה + ריקות-גרף-הציטוטים + V41-אינרטי, במספרים חיים. +| 04 | [daphna-canon-as-importance-ground-truth](04-daphna-canon-as-importance-ground-truth.md) | **הקאנון-הידני כ-ground-truth** — מתואם עם תדירות-הציטוט (מאמת הפרוקסי), חושף פערי-קורפוס, 4 שימושים ל-RAG. | Claude | +| 05 | [ingest-contract-and-citation-graph-gaps](05-ingest-contract-and-citation-graph-gaps.md) | **3 מחוללי-הכאב במספרים חיים** — 87% מהחיצוני בלי practice_area; גרף-ציטוטים ריק; V41 100% תקוע (מתנגש עם אפס-ביקורת). | Claude | + +> **כל הקלטים (01–05) מוכנים.** הצעד הבא: `00-final-synthesis.md` שמאחד להחלטה + תוכנית-ביצוע. --- diff --git a/docs/precedent-corpus-redesign/04-daphna-canon-as-importance-ground-truth.md b/docs/precedent-corpus-redesign/04-daphna-canon-as-importance-ground-truth.md new file mode 100644 index 0000000..c97f741 --- /dev/null +++ b/docs/precedent-corpus-redesign/04-daphna-canon-as-importance-ground-truth.md @@ -0,0 +1,51 @@ +# 04 — הקאנון-הידני של דפנה כ-Ground-Truth לחשיבות + +> קלט לסינתזה. מנתח את [`daphna-precedent-network.md`](daphna-precedent-network.md) — "הקאנון של דפנה" — +> כסיגנל-החשיבות שהאוטומציה מנסה לשחזר, ואיך לחבר אותו ל-RAG. נתונים חיים 2026-06-20. + +## 1. מה הקאנון, ולמה הוא הקלט הכי חשוב +מסמך `daphna-precedent-network.md` ממפה **לפי סוגיה משפטית** (זכות-עמידה, הלכת-שפר, טענות-קנייניות, +שימוש-חורג, תמ"א 38, תכניות-ישנות...) את **התקדים-המועדף של דפנה** לכל סוגיה — מקריאת 33 החלטות. +זהו **בדיוק ה"חשיבות" שאנחנו רוצים, ובגרנולריות הנכונה** (סוגיה/הלכה, לא פס"ד גס) — והוא **כבר עשוי +ידנית, מאומת ע"י היו"ר**. כל מנגנון-החשיבות האוטומטי הוא ניסיון **לשחזר ולהרחיב** אותו, לא להמציא. + +## 2. אימות: הקאנון מתואם עם תדירות-הציטוט (הסיגנל האוטומטי) +בדיקה חיה — תקדימי-הליבה של הקאנון מול ספירת-הציטוטים בנתונים שלנו: + +| תקדים-קאנון | בקורפוס? | מצוטט בנתונים | +|-------------|:---:|:---:| +| עע"מ 317/10 שפר | ✅ | **7×** | +| ע"א 3213/97 נקר | ✅ (2) | **6×** | +| בג"ץ 1578/90 אייזן | ✅ | 3× | +| ע"א 6291/95 בן-יקר-גת | ✅ | 2× | +| בג"ץ 910/86 רסלר | ✅ | 1× | +| עע"מ 9387/17 מרכז-למשפטים | ✅ | 1× | +| **בג"ץ 5145/00 חוף-השרון** (הרכב-7) | ❌ **חסר** | 2× | +| **עע"מ 8909/13 הרמלין** | ❌ **חסר** | 1× | + +**שתי מסקנות:** +1. **תדירות-הציטוט מתואמת עם הקאנון** — מצוטטי-הראש (317/10→7, 3213/97→6) הם בדיוק תקדימי-הקאנון. + זה **מאמת את סיגנל-תדירות-הציטוט כפרוקסי-חשיבות** (וגם נותן לנו ground-truth לכייל מולו). +2. **הקאנון חושף פערי-קורפוס:** תקדימי-יסוד (חוף-השרון הרכב-7, הרמלין) **חסרים מהקורפוס** — הכותב + לא יכול לצטטם נכון. הקאנון = **רשימת-קניות** של פסיקה-מרכזית להטמיע. + +## 3. איך מחברים את הקאנון ל-RAG (4 שימושים) +1. **זריעת-חשיבות:** תקדימי-הקאנון מקבלים `importance_score` מקסימלי **מיד** (לא מחכים שהגרף יצבור) — + ground-truth ידני גובר על כל פרוקסי. +2. **מיפוי סוגיה→תקדים (context-aware):** הקאנון מובנה כ"לסוגיה X → תקדים מועדף Y" — בדיוק הדירוג + מודע-ההקשר שהמחקר (ICAIL 2021) המליץ: בזיהוי-הסוגיה בטיוטה, לצוף את התקדים-הקאנוני. דורש לחלץ + את הקאנון לטבלה מובנית (`issue → preferred_precedents`), לא טקסט-פרוזה. +3. **כיול:** הקאנון הוא ה-gold-set לאמת **כל** סיגנל-חשיבות אוטומטי (האם הוא מדרג את הקאנון גבוה?). +4. **רשימת-פערים:** תקדימי-קאנון-חסרים (חוף-השרון, הרמלין...) → תור-הטמעה ל-court-fetch (X13). + +## 4. סיכון/מגבלה +- **נקודה-בזמן:** הקאנון נקבע מ-33 החלטות; דפנה ממשיכה. צריך **רענון** מציטוטיה החדשים (active-learning) — + המסמך עצמו אומר זאת (§6). הסיגנל-האוטומטי שומר אותו חי בין עדכונים-ידניים. +- **כיסוי-חלקי:** הקאנון מכסה ~20 סוגיות-ליבה של 1xxx; 8xxx/9xxx (היטל-השבחה/פיצויים) מכוסים פחות. +- כבר קרוא ע"י סוכני `legal-researcher`/`legal-writer` — אבל כ**טקסט-פרוזה**, לא כסיגנל-דירוג מובנה. + +## 5. מה הסינתזה צריכה להכריע +- **א.** האם להפוך את הקאנון ל**טבלה מובנית** (`canon`: issue → precedents → her-framing-phrase) שמזינה + גם את הדירוג וגם את הסוכן? (ממליץ: כן — זה ה-bridge בין ground-truth-ידני ל-RAG.) +- **ב.** איך מתחזקים אותו אוטומטית מציטוטי-דפנה החדשים בלי סקירה (active-learning)? +- **ג.** האם פערי-הקאנון (תקדימים-חסרים) מצדיקים מסע-הטמעה ממוקד דרך X13? diff --git a/docs/precedent-corpus-redesign/05-ingest-contract-and-citation-graph-gaps.md b/docs/precedent-corpus-redesign/05-ingest-contract-and-citation-graph-gaps.md new file mode 100644 index 0000000..1b23852 --- /dev/null +++ b/docs/precedent-corpus-redesign/05-ingest-contract-and-citation-graph-gaps.md @@ -0,0 +1,68 @@ +# 05 — חוזה-הקליטה, ריקות-גרף-הציטוטים, ו-V41 האינרטי + +> קלט לסינתזה. שלושת מחוללי-הכאב הטכניים, עם מספרים חיים (2026-06-20). משלים את [01](01-claude-architecture-data-audit.md) +> בנתונים מדויקים ומתקן שתי קריאות. + +## 1. חוזה-הקליטה — הכאב הוא **כולו במסלול-החיצוני** +```text +source_kind total ללא practice_area ללא summary ללא full_text +external_upload 239 209 (87%) 2 0 +internal_committee 93 0 0 0 +cited_only 31 31 25 31 +``` +**קריאות מתוקנות:** +- **87% מהפסיקה-החיצונית (209/239) ללא practice_area** — חד ויותר ממה ש-01 דיווח (66% על-פני-הכל). + סינון-לפי-תחום באחזור **לא עובד על פסיקה חיצונית**. הכאב **כולו במסלול `precedent_library_upload`**; + המסלול-הפנימי (`internal_decision_upload`) **שלם ב-100%**. +- **ה-31 "השבורים" אינם שבורים — הם `cited_only` stubs** (אזכור לפס"ד שאין לנו את גופו). ריקים-בכוונה. + **תיקון לקריאת-01:** לא למחוק אותם; הם נקודות-עוגן לגרף-הציטוטים. + +**המשמעות:** "התיקונים האינסופיים" של חיים = העדר-אכיפה ב-upload-החיצוני בלבד. **תיקון-במקור (G1):** +או חילוץ-אוטומטי של practice_area בקליטה, או `searchable=false` עד שהמטא שלם — נקודה אחת, מסלול אחד. + +## 2. גרף-הציטוטים — **קיים-מחושב אך כמעט-ריק** +```text +PageRank/אשכולות מחושבים ✅ web/graph_metrics.py · graph_api.py +ציטוטים מהחלטות דפנה (42 החלטות) 398 ← ~כל הסיגנל +ציטוטים מ-91 ועדות-אחרות 0 ← לא חולצו (extract_internal_citations לא רץ עליהן) +ציטוטים בין פס"ד-חיצוניים 0 ← אין קשתות ביניהם בכלל +``` +**המשמעות הקריטית:** המחקר ([02](02-deep-research-importance-recommendation.md)) המליץ centrality על +גרף-ציטוטים — **אבל אין גרף**. ל-PageRank אין כמעט קשתות. הסיגנל-האוטומטי-היחיד היום = 398 ציטוטי-דפנה +(שמתואמים עם הקאנון, [04](04-daphna-canon-as-importance-ground-truth.md) §2). + +**שתי דרכים (להכרעת-הסינתזה):** +- **(א) לצופף את הגרף** — להריץ את ה-citator (`extract_internal_citations` / X11) על **כל 363 הפסקים** + (גם 91 ועדות-אחרות, גם פס"ד-חיצוניים) → גרף אמיתי → PageRank משמעותי. **מאמץ בינוני, ערך גבוה ומצטבר.** +- **(ב) להישען על הקאנון + ציטוטי-דפנה + יומונים** — בלי לחכות לגרף. מהיר, אבל מכסה פחות. +- **לא בלעדי:** (א) ו-(ב) משלימים — קאנון כזריעה מיידית, גרף-מצופף כשכבה-מצטברת. + +## 3. V41 (canonical) — **100% תקוע, לא רק "0 published"** +```text +canonical_halachot review_status: + pending_synthesis 5,472 (100%) + pending_review 0 + approved 0 + published 0 +``` +**זו לא "שכבה חלשה" — זו שכבה שמעולם לא הפיקה דבר.** **כל** 5,472 הקנוניים תקועים במצב-הראשון. +מנגנון-ה-V41 (pending_synthesis → pending_review → approved → published) **דורש מעבר דרך אישור-יו"ר** +כדי להגיע לכותב (INV-G10). + +**ההתנגשות שהסינתזה חייבת להכריע:** הארכיטקטורה של V41 **בנויה על אישור-יו"ר** — וזה **מתנגש ישירות +עם אילוץ אפס-הביקורת של חיים.** שלוש אפשרויות: +1. **לעקוף את V41** — דירוג-בזמן-אחזור ישירות על `halachot`/chunks (המחקר נוטה לכאן); V41 הופך + לאופציונלי/נדחה. +2. **לשנות-ארכיטקטורה את V41** — שער-conformal אוטומטי במקום אישור-ידני (רק שבריר חסום מסלים). +3. **לקבל ש-V41 לכתיבה-בלבד-אחרי-אישור** — אבל אז הוא נשאר אינרטי עד שמישהו מאשר (מצב-היום). + +> הקשר: הסינתזה שבניתי (PR#304) הופכת pending_synthesis→pending_review — **הצעד הראשון אי-פעם** — +> אבל גם הוא נעצר באישור-יו"ר. לכן עצם-קיומו של V41 כפוף להכרעה זו. + +## 4. מה הסינתזה צריכה להכריע (תמצית) +| # | נושא | אפשרויות | +|---|------|----------| +| 1 | חוזה-קליטה חיצוני | חילוץ-auto של practice_area · / · `searchable=false` עד-שלם | +| 2 | גרף-ציטוטים | לצופף (citator על כל 363) · / · להישען על קאנון+דפנה+יומונים · / · שניהם | +| 3 | V41 canonical | לעקוף (דרג-על-halachot) · / · conformal-gate · / · להשאיר-מגודר-יו"ר | +| 4 | פסיקה-חסרה | להטמיע תקדימי-קאנון-חסרים (חוף-השרון, הרמלין) דרך X13 |