docs(principles): add inputs 04 (canon as ground-truth) + 05 (ingest/graph/V41 gaps) (#153)
Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
@@ -17,9 +17,10 @@
|
|||||||
| 02 | [deep-research-importance-recommendation](02-deep-research-importance-recommendation.md) | **דוח-מחקר + המלצה:** אל-תחתוך הרסני; דרג-בזמן-אחזור; אפס-ביקורת דרך conformal. 7 ממצאים מאומתים. | מחקר-עומק |
|
| 02 | [deep-research-importance-recommendation](02-deep-research-importance-recommendation.md) | **דוח-מחקר + המלצה:** אל-תחתוך הרסני; דרג-בזמן-אחזור; אפס-ביקורת דרך conformal. 7 ממצאים מאומתים. | מחקר-עומק |
|
||||||
| 03 | [deep-research-full-output](03-deep-research-full-output.md) | המחקר המלא הגולמי (verbatim, לוגים, 4 הפרכות, 25 מקורות). | מחקר-עומק |
|
| 03 | [deep-research-full-output](03-deep-research-full-output.md) | המחקר המלא הגולמי (verbatim, לוגים, 4 הפרכות, 25 מקורות). | מחקר-עומק |
|
||||||
|
|
||||||
> **נותר להוסיף (קלטים-חסרים שזוהו):**
|
| 04 | [daphna-canon-as-importance-ground-truth](04-daphna-canon-as-importance-ground-truth.md) | **הקאנון-הידני כ-ground-truth** — מתואם עם תדירות-הציטוט (מאמת הפרוקסי), חושף פערי-קורפוס, 4 שימושים ל-RAG. | Claude |
|
||||||
> - `04-daphna-canon-as-importance-ground-truth.md` — ניתוח הקאנון-הידני (ר' ב') כסיגנל-חשיבות + חיבור ל-RAG.
|
| 05 | [ingest-contract-and-citation-graph-gaps](05-ingest-contract-and-citation-graph-gaps.md) | **3 מחוללי-הכאב במספרים חיים** — 87% מהחיצוני בלי practice_area; גרף-ציטוטים ריק; V41 100% תקוע (מתנגש עם אפס-ביקורת). | Claude |
|
||||||
> - `05-ingest-contract-and-citation-graph-gaps.md` — חוזה-קליטה + ריקות-גרף-הציטוטים + V41-אינרטי, במספרים חיים.
|
|
||||||
|
> **כל הקלטים (01–05) מוכנים.** הצעד הבא: `00-final-synthesis.md` שמאחד להחלטה + תוכנית-ביצוע.
|
||||||
|
|
||||||
---
|
---
|
||||||
|
|
||||||
|
|||||||
@@ -0,0 +1,51 @@
|
|||||||
|
# 04 — הקאנון-הידני של דפנה כ-Ground-Truth לחשיבות
|
||||||
|
|
||||||
|
> קלט לסינתזה. מנתח את [`daphna-precedent-network.md`](daphna-precedent-network.md) — "הקאנון של דפנה" —
|
||||||
|
> כסיגנל-החשיבות שהאוטומציה מנסה לשחזר, ואיך לחבר אותו ל-RAG. נתונים חיים 2026-06-20.
|
||||||
|
|
||||||
|
## 1. מה הקאנון, ולמה הוא הקלט הכי חשוב
|
||||||
|
מסמך `daphna-precedent-network.md` ממפה **לפי סוגיה משפטית** (זכות-עמידה, הלכת-שפר, טענות-קנייניות,
|
||||||
|
שימוש-חורג, תמ"א 38, תכניות-ישנות...) את **התקדים-המועדף של דפנה** לכל סוגיה — מקריאת 33 החלטות.
|
||||||
|
זהו **בדיוק ה"חשיבות" שאנחנו רוצים, ובגרנולריות הנכונה** (סוגיה/הלכה, לא פס"ד גס) — והוא **כבר עשוי
|
||||||
|
ידנית, מאומת ע"י היו"ר**. כל מנגנון-החשיבות האוטומטי הוא ניסיון **לשחזר ולהרחיב** אותו, לא להמציא.
|
||||||
|
|
||||||
|
## 2. אימות: הקאנון מתואם עם תדירות-הציטוט (הסיגנל האוטומטי)
|
||||||
|
בדיקה חיה — תקדימי-הליבה של הקאנון מול ספירת-הציטוטים בנתונים שלנו:
|
||||||
|
|
||||||
|
| תקדים-קאנון | בקורפוס? | מצוטט בנתונים |
|
||||||
|
|-------------|:---:|:---:|
|
||||||
|
| עע"מ 317/10 שפר | ✅ | **7×** |
|
||||||
|
| ע"א 3213/97 נקר | ✅ (2) | **6×** |
|
||||||
|
| בג"ץ 1578/90 אייזן | ✅ | 3× |
|
||||||
|
| ע"א 6291/95 בן-יקר-גת | ✅ | 2× |
|
||||||
|
| בג"ץ 910/86 רסלר | ✅ | 1× |
|
||||||
|
| עע"מ 9387/17 מרכז-למשפטים | ✅ | 1× |
|
||||||
|
| **בג"ץ 5145/00 חוף-השרון** (הרכב-7) | ❌ **חסר** | 2× |
|
||||||
|
| **עע"מ 8909/13 הרמלין** | ❌ **חסר** | 1× |
|
||||||
|
|
||||||
|
**שתי מסקנות:**
|
||||||
|
1. **תדירות-הציטוט מתואמת עם הקאנון** — מצוטטי-הראש (317/10→7, 3213/97→6) הם בדיוק תקדימי-הקאנון.
|
||||||
|
זה **מאמת את סיגנל-תדירות-הציטוט כפרוקסי-חשיבות** (וגם נותן לנו ground-truth לכייל מולו).
|
||||||
|
2. **הקאנון חושף פערי-קורפוס:** תקדימי-יסוד (חוף-השרון הרכב-7, הרמלין) **חסרים מהקורפוס** — הכותב
|
||||||
|
לא יכול לצטטם נכון. הקאנון = **רשימת-קניות** של פסיקה-מרכזית להטמיע.
|
||||||
|
|
||||||
|
## 3. איך מחברים את הקאנון ל-RAG (4 שימושים)
|
||||||
|
1. **זריעת-חשיבות:** תקדימי-הקאנון מקבלים `importance_score` מקסימלי **מיד** (לא מחכים שהגרף יצבור) —
|
||||||
|
ground-truth ידני גובר על כל פרוקסי.
|
||||||
|
2. **מיפוי סוגיה→תקדים (context-aware):** הקאנון מובנה כ"לסוגיה X → תקדים מועדף Y" — בדיוק הדירוג
|
||||||
|
מודע-ההקשר שהמחקר (ICAIL 2021) המליץ: בזיהוי-הסוגיה בטיוטה, לצוף את התקדים-הקאנוני. דורש לחלץ
|
||||||
|
את הקאנון לטבלה מובנית (`issue → preferred_precedents`), לא טקסט-פרוזה.
|
||||||
|
3. **כיול:** הקאנון הוא ה-gold-set לאמת **כל** סיגנל-חשיבות אוטומטי (האם הוא מדרג את הקאנון גבוה?).
|
||||||
|
4. **רשימת-פערים:** תקדימי-קאנון-חסרים (חוף-השרון, הרמלין...) → תור-הטמעה ל-court-fetch (X13).
|
||||||
|
|
||||||
|
## 4. סיכון/מגבלה
|
||||||
|
- **נקודה-בזמן:** הקאנון נקבע מ-33 החלטות; דפנה ממשיכה. צריך **רענון** מציטוטיה החדשים (active-learning) —
|
||||||
|
המסמך עצמו אומר זאת (§6). הסיגנל-האוטומטי שומר אותו חי בין עדכונים-ידניים.
|
||||||
|
- **כיסוי-חלקי:** הקאנון מכסה ~20 סוגיות-ליבה של 1xxx; 8xxx/9xxx (היטל-השבחה/פיצויים) מכוסים פחות.
|
||||||
|
- כבר קרוא ע"י סוכני `legal-researcher`/`legal-writer` — אבל כ**טקסט-פרוזה**, לא כסיגנל-דירוג מובנה.
|
||||||
|
|
||||||
|
## 5. מה הסינתזה צריכה להכריע
|
||||||
|
- **א.** האם להפוך את הקאנון ל**טבלה מובנית** (`canon`: issue → precedents → her-framing-phrase) שמזינה
|
||||||
|
גם את הדירוג וגם את הסוכן? (ממליץ: כן — זה ה-bridge בין ground-truth-ידני ל-RAG.)
|
||||||
|
- **ב.** איך מתחזקים אותו אוטומטית מציטוטי-דפנה החדשים בלי סקירה (active-learning)?
|
||||||
|
- **ג.** האם פערי-הקאנון (תקדימים-חסרים) מצדיקים מסע-הטמעה ממוקד דרך X13?
|
||||||
@@ -0,0 +1,68 @@
|
|||||||
|
# 05 — חוזה-הקליטה, ריקות-גרף-הציטוטים, ו-V41 האינרטי
|
||||||
|
|
||||||
|
> קלט לסינתזה. שלושת מחוללי-הכאב הטכניים, עם מספרים חיים (2026-06-20). משלים את [01](01-claude-architecture-data-audit.md)
|
||||||
|
> בנתונים מדויקים ומתקן שתי קריאות.
|
||||||
|
|
||||||
|
## 1. חוזה-הקליטה — הכאב הוא **כולו במסלול-החיצוני**
|
||||||
|
```text
|
||||||
|
source_kind total ללא practice_area ללא summary ללא full_text
|
||||||
|
external_upload 239 209 (87%) 2 0
|
||||||
|
internal_committee 93 0 0 0
|
||||||
|
cited_only 31 31 25 31
|
||||||
|
```
|
||||||
|
**קריאות מתוקנות:**
|
||||||
|
- **87% מהפסיקה-החיצונית (209/239) ללא practice_area** — חד ויותר ממה ש-01 דיווח (66% על-פני-הכל).
|
||||||
|
סינון-לפי-תחום באחזור **לא עובד על פסיקה חיצונית**. הכאב **כולו במסלול `precedent_library_upload`**;
|
||||||
|
המסלול-הפנימי (`internal_decision_upload`) **שלם ב-100%**.
|
||||||
|
- **ה-31 "השבורים" אינם שבורים — הם `cited_only` stubs** (אזכור לפס"ד שאין לנו את גופו). ריקים-בכוונה.
|
||||||
|
**תיקון לקריאת-01:** לא למחוק אותם; הם נקודות-עוגן לגרף-הציטוטים.
|
||||||
|
|
||||||
|
**המשמעות:** "התיקונים האינסופיים" של חיים = העדר-אכיפה ב-upload-החיצוני בלבד. **תיקון-במקור (G1):**
|
||||||
|
או חילוץ-אוטומטי של practice_area בקליטה, או `searchable=false` עד שהמטא שלם — נקודה אחת, מסלול אחד.
|
||||||
|
|
||||||
|
## 2. גרף-הציטוטים — **קיים-מחושב אך כמעט-ריק**
|
||||||
|
```text
|
||||||
|
PageRank/אשכולות מחושבים ✅ web/graph_metrics.py · graph_api.py
|
||||||
|
ציטוטים מהחלטות דפנה (42 החלטות) 398 ← ~כל הסיגנל
|
||||||
|
ציטוטים מ-91 ועדות-אחרות 0 ← לא חולצו (extract_internal_citations לא רץ עליהן)
|
||||||
|
ציטוטים בין פס"ד-חיצוניים 0 ← אין קשתות ביניהם בכלל
|
||||||
|
```
|
||||||
|
**המשמעות הקריטית:** המחקר ([02](02-deep-research-importance-recommendation.md)) המליץ centrality על
|
||||||
|
גרף-ציטוטים — **אבל אין גרף**. ל-PageRank אין כמעט קשתות. הסיגנל-האוטומטי-היחיד היום = 398 ציטוטי-דפנה
|
||||||
|
(שמתואמים עם הקאנון, [04](04-daphna-canon-as-importance-ground-truth.md) §2).
|
||||||
|
|
||||||
|
**שתי דרכים (להכרעת-הסינתזה):**
|
||||||
|
- **(א) לצופף את הגרף** — להריץ את ה-citator (`extract_internal_citations` / X11) על **כל 363 הפסקים**
|
||||||
|
(גם 91 ועדות-אחרות, גם פס"ד-חיצוניים) → גרף אמיתי → PageRank משמעותי. **מאמץ בינוני, ערך גבוה ומצטבר.**
|
||||||
|
- **(ב) להישען על הקאנון + ציטוטי-דפנה + יומונים** — בלי לחכות לגרף. מהיר, אבל מכסה פחות.
|
||||||
|
- **לא בלעדי:** (א) ו-(ב) משלימים — קאנון כזריעה מיידית, גרף-מצופף כשכבה-מצטברת.
|
||||||
|
|
||||||
|
## 3. V41 (canonical) — **100% תקוע, לא רק "0 published"**
|
||||||
|
```text
|
||||||
|
canonical_halachot review_status:
|
||||||
|
pending_synthesis 5,472 (100%)
|
||||||
|
pending_review 0
|
||||||
|
approved 0
|
||||||
|
published 0
|
||||||
|
```
|
||||||
|
**זו לא "שכבה חלשה" — זו שכבה שמעולם לא הפיקה דבר.** **כל** 5,472 הקנוניים תקועים במצב-הראשון.
|
||||||
|
מנגנון-ה-V41 (pending_synthesis → pending_review → approved → published) **דורש מעבר דרך אישור-יו"ר**
|
||||||
|
כדי להגיע לכותב (INV-G10).
|
||||||
|
|
||||||
|
**ההתנגשות שהסינתזה חייבת להכריע:** הארכיטקטורה של V41 **בנויה על אישור-יו"ר** — וזה **מתנגש ישירות
|
||||||
|
עם אילוץ אפס-הביקורת של חיים.** שלוש אפשרויות:
|
||||||
|
1. **לעקוף את V41** — דירוג-בזמן-אחזור ישירות על `halachot`/chunks (המחקר נוטה לכאן); V41 הופך
|
||||||
|
לאופציונלי/נדחה.
|
||||||
|
2. **לשנות-ארכיטקטורה את V41** — שער-conformal אוטומטי במקום אישור-ידני (רק שבריר חסום מסלים).
|
||||||
|
3. **לקבל ש-V41 לכתיבה-בלבד-אחרי-אישור** — אבל אז הוא נשאר אינרטי עד שמישהו מאשר (מצב-היום).
|
||||||
|
|
||||||
|
> הקשר: הסינתזה שבניתי (PR#304) הופכת pending_synthesis→pending_review — **הצעד הראשון אי-פעם** —
|
||||||
|
> אבל גם הוא נעצר באישור-יו"ר. לכן עצם-קיומו של V41 כפוף להכרעה זו.
|
||||||
|
|
||||||
|
## 4. מה הסינתזה צריכה להכריע (תמצית)
|
||||||
|
| # | נושא | אפשרויות |
|
||||||
|
|---|------|----------|
|
||||||
|
| 1 | חוזה-קליטה חיצוני | חילוץ-auto של practice_area · / · `searchable=false` עד-שלם |
|
||||||
|
| 2 | גרף-ציטוטים | לצופף (citator על כל 363) · / · להישען על קאנון+דפנה+יומונים · / · שניהם |
|
||||||
|
| 3 | V41 canonical | לעקוף (דרג-על-halachot) · / · conformal-gate · / · להשאיר-מגודר-יו"ר |
|
||||||
|
| 4 | פסיקה-חסרה | להטמיע תקדימי-קאנון-חסרים (חוף-השרון, הרמלין) דרך X13 |
|
||||||
Reference in New Issue
Block a user