4.6 KiB
4.6 KiB
04 — הקאנון-הידני של דפנה כ-Ground-Truth לחשיבות
קלט לסינתזה. מנתח את
daphna-precedent-network.md— "הקאנון של דפנה" — כסיגנל-החשיבות שהאוטומציה מנסה לשחזר, ואיך לחבר אותו ל-RAG. נתונים חיים 2026-06-20.
1. מה הקאנון, ולמה הוא הקלט הכי חשוב
מסמך daphna-precedent-network.md ממפה לפי סוגיה משפטית (זכות-עמידה, הלכת-שפר, טענות-קנייניות,
שימוש-חורג, תמ"א 38, תכניות-ישנות...) את התקדים-המועדף של דפנה לכל סוגיה — מקריאת 33 החלטות.
זהו בדיוק ה"חשיבות" שאנחנו רוצים, ובגרנולריות הנכונה (סוגיה/הלכה, לא פס"ד גס) — והוא כבר עשוי
ידנית, מאומת ע"י היו"ר. כל מנגנון-החשיבות האוטומטי הוא ניסיון לשחזר ולהרחיב אותו, לא להמציא.
2. אימות: הקאנון מתואם עם תדירות-הציטוט (הסיגנל האוטומטי)
בדיקה חיה — תקדימי-הליבה של הקאנון מול ספירת-הציטוטים בנתונים שלנו:
| תקדים-קאנון | בקורפוס? | מצוטט בנתונים |
|---|---|---|
| עע"מ 317/10 שפר | ✅ | 7× |
| ע"א 3213/97 נקר | ✅ (2) | 6× |
| בג"ץ 1578/90 אייזן | ✅ | 3× |
| ע"א 6291/95 בן-יקר-גת | ✅ | 2× |
| בג"ץ 910/86 רסלר | ✅ | 1× |
| עע"מ 9387/17 מרכז-למשפטים | ✅ | 1× |
| בג"ץ 5145/00 חוף-השרון (הרכב-7) | ❌ חסר | 2× |
| עע"מ 8909/13 הרמלין | ❌ חסר | 1× |
שתי מסקנות:
- תדירות-הציטוט מתואמת עם הקאנון — מצוטטי-הראש (317/10→7, 3213/97→6) הם בדיוק תקדימי-הקאנון. זה מאמת את סיגנל-תדירות-הציטוט כפרוקסי-חשיבות (וגם נותן לנו ground-truth לכייל מולו).
- הקאנון חושף פערי-קורפוס: תקדימי-יסוד (חוף-השרון הרכב-7, הרמלין) חסרים מהקורפוס — הכותב לא יכול לצטטם נכון. הקאנון = רשימת-קניות של פסיקה-מרכזית להטמיע.
3. איך מחברים את הקאנון ל-RAG (4 שימושים)
- זריעת-חשיבות: תקדימי-הקאנון מקבלים
importance_scoreמקסימלי מיד (לא מחכים שהגרף יצבור) — ground-truth ידני גובר על כל פרוקסי. - מיפוי סוגיה→תקדים (context-aware): הקאנון מובנה כ"לסוגיה X → תקדים מועדף Y" — בדיוק הדירוג
מודע-ההקשר שהמחקר (ICAIL 2021) המליץ: בזיהוי-הסוגיה בטיוטה, לצוף את התקדים-הקאנוני. דורש לחלץ
את הקאנון לטבלה מובנית (
issue → preferred_precedents), לא טקסט-פרוזה. - כיול: הקאנון הוא ה-gold-set לאמת כל סיגנל-חשיבות אוטומטי (האם הוא מדרג את הקאנון גבוה?).
- רשימת-פערים: תקדימי-קאנון-חסרים (חוף-השרון, הרמלין...) → תור-הטמעה ל-court-fetch (X13).
4. סיכון/מגבלה
- נקודה-בזמן: הקאנון נקבע מ-33 החלטות; דפנה ממשיכה. צריך רענון מציטוטיה החדשים (active-learning) — המסמך עצמו אומר זאת (§6). הסיגנל-האוטומטי שומר אותו חי בין עדכונים-ידניים.
- כיסוי-חלקי: הקאנון מכסה ~20 סוגיות-ליבה של 1xxx; 8xxx/9xxx (היטל-השבחה/פיצויים) מכוסים פחות.
- כבר קרוא ע"י סוכני
legal-researcher/legal-writer— אבל כטקסט-פרוזה, לא כסיגנל-דירוג מובנה.
5. מה הסינתזה צריכה להכריע
- א. האם להפוך את הקאנון לטבלה מובנית (
canon: issue → precedents → her-framing-phrase) שמזינה גם את הדירוג וגם את הסוכן? (ממליץ: כן — זה ה-bridge בין ground-truth-ידני ל-RAG.) - ב. איך מתחזקים אותו אוטומטית מציטוטי-דפנה החדשים בלי סקירה (active-learning)?
- ג. האם פערי-הקאנון (תקדימים-חסרים) מצדיקים מסע-הטמעה ממוקד דרך X13?