Files
legal-ai/docs/precedent-corpus-redesign/04-daphna-canon-as-importance-ground-truth.md

52 lines
4.6 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 04 — הקאנון-הידני של דפנה כ-Ground-Truth לחשיבות
> קלט לסינתזה. מנתח את [`daphna-precedent-network.md`](daphna-precedent-network.md) — "הקאנון של דפנה" —
> כסיגנל-החשיבות שהאוטומציה מנסה לשחזר, ואיך לחבר אותו ל-RAG. נתונים חיים 2026-06-20.
## 1. מה הקאנון, ולמה הוא הקלט הכי חשוב
מסמך `daphna-precedent-network.md` ממפה **לפי סוגיה משפטית** (זכות-עמידה, הלכת-שפר, טענות-קנייניות,
שימוש-חורג, תמ"א 38, תכניות-ישנות...) את **התקדים-המועדף של דפנה** לכל סוגיה — מקריאת 33 החלטות.
זהו **בדיוק ה"חשיבות" שאנחנו רוצים, ובגרנולריות הנכונה** (סוגיה/הלכה, לא פס"ד גס) — והוא **כבר עשוי
ידנית, מאומת ע"י היו"ר**. כל מנגנון-החשיבות האוטומטי הוא ניסיון **לשחזר ולהרחיב** אותו, לא להמציא.
## 2. אימות: הקאנון מתואם עם תדירות-הציטוט (הסיגנל האוטומטי)
בדיקה חיה — תקדימי-הליבה של הקאנון מול ספירת-הציטוטים בנתונים שלנו:
| תקדים-קאנון | בקורפוס? | מצוטט בנתונים |
|-------------|:---:|:---:|
| עע"מ 317/10 שפר | ✅ | **7×** |
| ע"א 3213/97 נקר | ✅ (2) | **6×** |
| בג"ץ 1578/90 אייזן | ✅ | 3× |
| ע"א 6291/95 בן-יקר-גת | ✅ | 2× |
| בג"ץ 910/86 רסלר | ✅ | 1× |
| עע"מ 9387/17 מרכז-למשפטים | ✅ | 1× |
| **בג"ץ 5145/00 חוף-השרון** (הרכב-7) | ❌ **חסר** | 2× |
| **עע"מ 8909/13 הרמלין** | ❌ **חסר** | 1× |
**שתי מסקנות:**
1. **תדירות-הציטוט מתואמת עם הקאנון** — מצוטטי-הראש (317/10→7, 3213/97→6) הם בדיוק תקדימי-הקאנון.
זה **מאמת את סיגנל-תדירות-הציטוט כפרוקסי-חשיבות** (וגם נותן לנו ground-truth לכייל מולו).
2. **הקאנון חושף פערי-קורפוס:** תקדימי-יסוד (חוף-השרון הרכב-7, הרמלין) **חסרים מהקורפוס** — הכותב
לא יכול לצטטם נכון. הקאנון = **רשימת-קניות** של פסיקה-מרכזית להטמיע.
## 3. איך מחברים את הקאנון ל-RAG (4 שימושים)
1. **זריעת-חשיבות:** תקדימי-הקאנון מקבלים `importance_score` מקסימלי **מיד** (לא מחכים שהגרף יצבור) —
ground-truth ידני גובר על כל פרוקסי.
2. **מיפוי סוגיה→תקדים (context-aware):** הקאנון מובנה כ"לסוגיה X → תקדים מועדף Y" — בדיוק הדירוג
מודע-ההקשר שהמחקר (ICAIL 2021) המליץ: בזיהוי-הסוגיה בטיוטה, לצוף את התקדים-הקאנוני. דורש לחלץ
את הקאנון לטבלה מובנית (`issue → preferred_precedents`), לא טקסט-פרוזה.
3. **כיול:** הקאנון הוא ה-gold-set לאמת **כל** סיגנל-חשיבות אוטומטי (האם הוא מדרג את הקאנון גבוה?).
4. **רשימת-פערים:** תקדימי-קאנון-חסרים (חוף-השרון, הרמלין...) → תור-הטמעה ל-court-fetch (X13).
## 4. סיכון/מגבלה
- **נקודה-בזמן:** הקאנון נקבע מ-33 החלטות; דפנה ממשיכה. צריך **רענון** מציטוטיה החדשים (active-learning) —
המסמך עצמו אומר זאת (§6). הסיגנל-האוטומטי שומר אותו חי בין עדכונים-ידניים.
- **כיסוי-חלקי:** הקאנון מכסה ~20 סוגיות-ליבה של 1xxx; 8xxx/9xxx (היטל-השבחה/פיצויים) מכוסים פחות.
- כבר קרוא ע"י סוכני `legal-researcher`/`legal-writer` — אבל כ**טקסט-פרוזה**, לא כסיגנל-דירוג מובנה.
## 5. מה הסינתזה צריכה להכריע
- **א.** האם להפוך את הקאנון ל**טבלה מובנית** (`canon`: issue → precedents → her-framing-phrase) שמזינה
גם את הדירוג וגם את הסוכן? (ממליץ: כן — זה ה-bridge בין ground-truth-ידני ל-RAG.)
- **ב.** איך מתחזקים אותו אוטומטית מציטוטי-דפנה החדשים בלי סקירה (active-learning)?
- **ג.** האם פערי-הקאנון (תקדימים-חסרים) מצדיקים מסע-הטמעה ממוקד דרך X13?