Files
legal-ai/docs/precedent-corpus-redesign/04-daphna-canon-as-importance-ground-truth.md

4.6 KiB
Raw Blame History

04 — הקאנון-הידני של דפנה כ-Ground-Truth לחשיבות

קלט לסינתזה. מנתח את daphna-precedent-network.md — "הקאנון של דפנה" — כסיגנל-החשיבות שהאוטומציה מנסה לשחזר, ואיך לחבר אותו ל-RAG. נתונים חיים 2026-06-20.

1. מה הקאנון, ולמה הוא הקלט הכי חשוב

מסמך daphna-precedent-network.md ממפה לפי סוגיה משפטית (זכות-עמידה, הלכת-שפר, טענות-קנייניות, שימוש-חורג, תמ"א 38, תכניות-ישנות...) את התקדים-המועדף של דפנה לכל סוגיה — מקריאת 33 החלטות. זהו בדיוק ה"חשיבות" שאנחנו רוצים, ובגרנולריות הנכונה (סוגיה/הלכה, לא פס"ד גס) — והוא כבר עשוי ידנית, מאומת ע"י היו"ר. כל מנגנון-החשיבות האוטומטי הוא ניסיון לשחזר ולהרחיב אותו, לא להמציא.

2. אימות: הקאנון מתואם עם תדירות-הציטוט (הסיגנל האוטומטי)

בדיקה חיה — תקדימי-הליבה של הקאנון מול ספירת-הציטוטים בנתונים שלנו:

תקדים-קאנון בקורפוס? מצוטט בנתונים
עע"מ 317/10 שפר 7×
ע"א 3213/97 נקר (2) 6×
בג"ץ 1578/90 אייזן 3×
ע"א 6291/95 בן-יקר-גת 2×
בג"ץ 910/86 רסלר 1×
עע"מ 9387/17 מרכז-למשפטים 1×
בג"ץ 5145/00 חוף-השרון (הרכב-7) חסר 2×
עע"מ 8909/13 הרמלין חסר 1×

שתי מסקנות:

  1. תדירות-הציטוט מתואמת עם הקאנון — מצוטטי-הראש (317/10→7, 3213/97→6) הם בדיוק תקדימי-הקאנון. זה מאמת את סיגנל-תדירות-הציטוט כפרוקסי-חשיבות (וגם נותן לנו ground-truth לכייל מולו).
  2. הקאנון חושף פערי-קורפוס: תקדימי-יסוד (חוף-השרון הרכב-7, הרמלין) חסרים מהקורפוס — הכותב לא יכול לצטטם נכון. הקאנון = רשימת-קניות של פסיקה-מרכזית להטמיע.

3. איך מחברים את הקאנון ל-RAG (4 שימושים)

  1. זריעת-חשיבות: תקדימי-הקאנון מקבלים importance_score מקסימלי מיד (לא מחכים שהגרף יצבור) — ground-truth ידני גובר על כל פרוקסי.
  2. מיפוי סוגיה→תקדים (context-aware): הקאנון מובנה כ"לסוגיה X → תקדים מועדף Y" — בדיוק הדירוג מודע-ההקשר שהמחקר (ICAIL 2021) המליץ: בזיהוי-הסוגיה בטיוטה, לצוף את התקדים-הקאנוני. דורש לחלץ את הקאנון לטבלה מובנית (issue → preferred_precedents), לא טקסט-פרוזה.
  3. כיול: הקאנון הוא ה-gold-set לאמת כל סיגנל-חשיבות אוטומטי (האם הוא מדרג את הקאנון גבוה?).
  4. רשימת-פערים: תקדימי-קאנון-חסרים (חוף-השרון, הרמלין...) → תור-הטמעה ל-court-fetch (X13).

4. סיכון/מגבלה

  • נקודה-בזמן: הקאנון נקבע מ-33 החלטות; דפנה ממשיכה. צריך רענון מציטוטיה החדשים (active-learning) — המסמך עצמו אומר זאת (§6). הסיגנל-האוטומטי שומר אותו חי בין עדכונים-ידניים.
  • כיסוי-חלקי: הקאנון מכסה ~20 סוגיות-ליבה של 1xxx; 8xxx/9xxx (היטל-השבחה/פיצויים) מכוסים פחות.
  • כבר קרוא ע"י סוכני legal-researcher/legal-writer — אבל כטקסט-פרוזה, לא כסיגנל-דירוג מובנה.

5. מה הסינתזה צריכה להכריע

  • א. האם להפוך את הקאנון לטבלה מובנית (canon: issue → precedents → her-framing-phrase) שמזינה גם את הדירוג וגם את הסוכן? (ממליץ: כן — זה ה-bridge בין ground-truth-ידני ל-RAG.)
  • ב. איך מתחזקים אותו אוטומטית מציטוטי-דפנה החדשים בלי סקירה (active-learning)?
  • ג. האם פערי-הקאנון (תקדימים-חסרים) מצדיקים מסע-הטמעה ממוקד דרך X13?