Files

Chaim 7d8af836be docs(principles): add inputs 04 (canon as ground-truth) + 05 (ingest/graph/V41 gaps) (#153 )

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>

2026-06-20 11:55:52 +00:00

4.6 KiB

Raw Blame History

04 — הקאנון-הידני של דפנה כ-Ground-Truth לחשיבות

קלט לסינתזה. מנתח את daphna-precedent-network.md — "הקאנון של דפנה" — כסיגנל-החשיבות שהאוטומציה מנסה לשחזר, ואיך לחבר אותו ל-RAG. נתונים חיים 2026-06-20.

1. מה הקאנון, ולמה הוא הקלט הכי חשוב

מסמך daphna-precedent-network.md ממפה לפי סוגיה משפטית (זכות-עמידה, הלכת-שפר, טענות-קנייניות, שימוש-חורג, תמ"א 38, תכניות-ישנות...) את התקדים-המועדף של דפנה לכל סוגיה — מקריאת 33 החלטות. זהו בדיוק ה"חשיבות" שאנחנו רוצים, ובגרנולריות הנכונה (סוגיה/הלכה, לא פס"ד גס) — והוא כבר עשוי ידנית, מאומת ע"י היו"ר. כל מנגנון-החשיבות האוטומטי הוא ניסיון לשחזר ולהרחיב אותו, לא להמציא.

2. אימות: הקאנון מתואם עם תדירות-הציטוט (הסיגנל האוטומטי)

בדיקה חיה — תקדימי-הליבה של הקאנון מול ספירת-הציטוטים בנתונים שלנו:

תקדים-קאנון	בקורפוס?	מצוטט בנתונים
עע"מ 317/10 שפר	✅	7×
ע"א 3213/97 נקר	✅ (2)	6×
בג"ץ 1578/90 אייזן	✅	3×
ע"א 6291/95 בן-יקר-גת	✅	2×
בג"ץ 910/86 רסלר	✅	1×
עע"מ 9387/17 מרכז-למשפטים	✅	1×
בג"ץ 5145/00 חוף-השרון (הרכב-7)	❌ חסר	2×
עע"מ 8909/13 הרמלין	❌ חסר	1×

שתי מסקנות:

תדירות-הציטוט מתואמת עם הקאנון — מצוטטי-הראש (317/10→7, 3213/97→6) הם בדיוק תקדימי-הקאנון. זה מאמת את סיגנל-תדירות-הציטוט כפרוקסי-חשיבות (וגם נותן לנו ground-truth לכייל מולו).
הקאנון חושף פערי-קורפוס: תקדימי-יסוד (חוף-השרון הרכב-7, הרמלין) חסרים מהקורפוס — הכותב לא יכול לצטטם נכון. הקאנון = רשימת-קניות של פסיקה-מרכזית להטמיע.

3. איך מחברים את הקאנון ל-RAG (4 שימושים)

זריעת-חשיבות: תקדימי-הקאנון מקבלים importance_score מקסימלי מיד (לא מחכים שהגרף יצבור) — ground-truth ידני גובר על כל פרוקסי.
מיפוי סוגיה→תקדים (context-aware): הקאנון מובנה כ"לסוגיה X → תקדים מועדף Y" — בדיוק הדירוג מודע-ההקשר שהמחקר (ICAIL 2021) המליץ: בזיהוי-הסוגיה בטיוטה, לצוף את התקדים-הקאנוני. דורש לחלץ את הקאנון לטבלה מובנית (issue → preferred_precedents), לא טקסט-פרוזה.
כיול: הקאנון הוא ה-gold-set לאמת כל סיגנל-חשיבות אוטומטי (האם הוא מדרג את הקאנון גבוה?).
רשימת-פערים: תקדימי-קאנון-חסרים (חוף-השרון, הרמלין...) → תור-הטמעה ל-court-fetch (X13).

4. סיכון/מגבלה

נקודה-בזמן: הקאנון נקבע מ-33 החלטות; דפנה ממשיכה. צריך רענון מציטוטיה החדשים (active-learning) — המסמך עצמו אומר זאת (§6). הסיגנל-האוטומטי שומר אותו חי בין עדכונים-ידניים.
כיסוי-חלקי: הקאנון מכסה ~20 סוגיות-ליבה של 1xxx; 8xxx/9xxx (היטל-השבחה/פיצויים) מכוסים פחות.
כבר קרוא ע"י סוכני legal-researcher/legal-writer — אבל כטקסט-פרוזה, לא כסיגנל-דירוג מובנה.

5. מה הסינתזה צריכה להכריע

א. האם להפוך את הקאנון לטבלה מובנית (canon: issue → precedents → her-framing-phrase) שמזינה גם את הדירוג וגם את הסוכן? (ממליץ: כן — זה ה-bridge בין ground-truth-ידני ל-RAG.)
ב. איך מתחזקים אותו אוטומטית מציטוטי-דפנה החדשים בלי סקירה (active-learning)?
ג. האם פערי-הקאנון (תקדימים-חסרים) מצדיקים מסע-הטמעה ממוקד דרך X13?

4.6 KiB Raw Blame History Unescape Escape