diff --git a/docs/precedent-corpus-redesign.md b/docs/precedent-corpus-redesign.md new file mode 100644 index 0000000..b6fa8d8 --- /dev/null +++ b/docs/precedent-corpus-redesign.md @@ -0,0 +1,142 @@ +# עיצוב-מחדש: קורפוס-הפסיקה — חשיבות, אחזור וסינון (מחקר + החלטה) + +> **מקור:** מחקר-עומק רב-סוכני (deep-research, 2026-06-20) — 6 זוויות, 25 מקורות ראשוניים, +> 114 טענות חולצו, 25 אומתו באימות-יריב 3-קולות (**21 אושרו · 4 הופרכו**). שאלת-המחקר: +> איך לדרג/לנקות קורפוס של ~3,562 עקרונות-משפטיים מחולצים, **באוטומציה גבוהה וכמעט ללא +> ביקורת-אנושית** (אילוץ-יסוד של chaim). מסמך-אחות: [`legal-principles-redesign.md`](legal-principles-redesign.md) §8. + +--- + +## ההמלצה החד-משמעית + +**לא לחתוך (cull הרסני). לשמור הכל, לדרג-לפי-חשיבות בזמן-אחזור, ולגדר במנגנון selective-prediction +מכויל כך שרק שבריר זעיר וחסום-סטטיסטית מגיע ליו"ר.** (אופציה B/C, לא A.) + +הסיבה במשפט: **הסיגנל המכני אמין (האם פס"ד מצוטט, ע"י מי) — אבל ההכרעה הפרשנית "האם העיקרון +הזה חשוב" היא בדיוק המקום שבו האוטומציה נכשלת**, ולכן אסור להשמיד עקרונות על-בסיס ציון-חשיבות +רועש; עדיף לשמור הכל ולתת ל-ranking בזמן-שאילתה (שמכיר את הקשר-הטיוטה) להציף את הרלוונטי. + +--- + +## הממצאים (מאומתים) + +### 1. מרכזיות-רשת-ציטוטים = סיגנל-חשיבות בר-קנה-מידה, אך **ברמת-הפס"ד בלבד**, ובינוני בעוצמתו +`confidence: high · 3-0` +- ניתן לגזור תוויות-חשיבות אלגוריתמית מדפוסי-ציטוט, בלי תיוג-ידני (Swiss Criticality, ACL 2025 — + 138,531 פסקים דרך LD-Label + Citation-Label משוקלל-טריות). +- שיטות-מרכזיות (Derlén & Lindholm: PageRank/HITS/betweenness על 9,125 פסקי-CJEU; Fowler/Jeon + ב-SCOTUS) מבססות מרכזיות-ברמת-תיק כפרוקסי-חשיבות כמותי. **HITS/eigenvector עדיפים על degree-גולמי** + כי degree מתייחס לכל מצטט כשווה. +- **גבול קריטי:** העוצמה הניבויית **בינונית בלבד** — JURIX 2023, ordinal regression על Importance-Score + של בית-המשפט הגיע ל-**F1≈0.655**; התפלגות-הציטוטים כבדת-זנב (preferential attachment). כל הראיות + ברמת-פס"ד; **אף אחת לא מאמתת חשיבות ברמת-עיקרון/holding.** +- **משמעות לנו:** מרכזיות-פס"ד = prior חזק על תיק-האב של עיקרון, **לא** ציון per-עיקרון. +- מקורות: arxiv 2410.13460v2 · ssrn 2910926 · polisci.umn s6.pdf · ResearchGate 376422421 · Nature s41598-021-82430-x + +### 2. חילוץ ברמת-holding ישים מסחרית — אך **תיוג-החשיבות/treatment ברמת-holding הוא השלב שגיא-מועד** +`confidence: high · 3-0` (ותת-טענה הופרכה) +- מערכת KeyNumber הפטנטית של West מסווגת headnotes בודדים (~6/פסק, לעיתים 50+) לטקסונומיה של + 90,000+ מחלקות דרך cosine — מוכיח ש**חילוץ-holding ישים**. +- **אבל** Hellyer (2018, Law Library Journal): Shepard's ו-KeyCite פספסו/תייגו-שגוי **~שליש**, ו-BCite + **מעל שני-שליש**, מיחסי-הטיפול-השליליים (מדגם 357); שלושת ה-citators הסכימו רק 53/357. **השגיאות + נמצאות בניתוח-העריכתי הפרשני, לא בזיהוי-המכני** — "the significant problems occur in the editorial + analysis process, after the initial process of identifying the citing cases". +- **הופרך (0-3):** הטענה ש-West שומר רק 1-3 holdings לפסק — **הפרקטיקה המסחרית אינה תומכת בגיזום-holding + אגרסיבי.** +- **משמעות לנו:** הסיגנל-המכני (מצוטט? ע"י מי?) אמין; "האם העיקרון חשוב" — שם גם מערכות-מסחריות-עם-עורכים + טועות קשות. **טיעון נגד cull-הרסני מונע-ציון-פרשני.** +- מקורות: USPTO US7580939 · aallnet LLJ 110n4 + +### 3. אחזור מודע-הקשר בזמן-שאילתה **עדיף** על דירוג-חשיבות חסר-הקשר +`confidence: high · 3-0` +- ICAIL 2021 "Context-Aware Legal Citation Recommendation" (Stanford RegLab + CMU): ניצול ההקשר-הטקסטואלי + המקומי של הטיוטה משפר את איכות-ההמלצה על-פני baselines חסרי-הקשר. **הרלוונטיות תלוית-הקשר — לא ידועה + בזמן-cull, זמינה בזמן-שאילתה.** ציון-חשיבות סטטי (offline) לא יכול לתפוס רלוונטיות-ספציפית-לפסקה → + השמדת עקרונות נמוכי-ציון-סטטי מסכנת פריטים רלוונטיים-מאוד בהקשר שה-cull לא ראה. +- מקור: arxiv 2106.10776 + +### 4. תכונות-רשת נעשות **חזקות יותר עם הזמן**; תכונות-דמיון-תוכן דועכות +`confidence: medium · 2-1` +- Mones et al. (Scientific Reports 2021, CJEU 1955-2014): תכונות-מבניות (common-neighbor/Adamic-Adar) + מראות עלייה-מובהקת בעוצמה-ניבויית עם התבגרות-הרשת, בעוד TF-IDF דועך. → **גרף-ציטוטים מתחזק-מעצמו** הוא + נכס עמיד יותר מ-cull חד-פעמי מבוסס-תוכן. (אזהרה: התיקון העריכתי — preferential-attachment הוא תכונה + *נודלית-דועכת*; המבנית-עולה היא common-neighbor.) +- מקור: Nature s41598-021-82430-x + +### 5. Selective evaluation מכויל → **רק שבריר זעיר מגיע לאדם** +`confidence: high · 3-0` +- Cascaded Selective Evaluation (ICLR 2025): מנתב כל פריט למודל-החלש-ביותר-שעדיין-בטוח-מספיק; השאר + מסלים. השיג **מעל 80% הסכמה-אנושית** ב-ChatArena עם אחוז-הסלמה נמוך. → ניתן לכייל סף-ביטחון כך + שרק חלק קטן ומדוד עובר לסקירה. +- מקור: ICLR 2025 (proceedings.iclr.cc 08dabd5...) + +### 6. Selective Conformal Risk Control (SCRC) → **ערבון-סיכון מותנה ברמה 1−α** +`confidence: high · 3-0` +- SCRC מספק ערבון-בקרת-סיכון מותנה: ניתן להבטיח **חסם-טעות מוכח** על הפריטים ש"נסגרים אוטומטית", + כך שאחוז-ההסלמה-לאדם חסום-סטטיסטית ולא תלוי-מזל. → המנגנון להמרת "אפס-ביקורת" ליעד **מובטח-מתמטית**. +- מקורות: arxiv 2407.18370 · 2511.07396 + +### 7. **התנהגות-ציטוט טבעית = פיקוח-משתמע** (במקום ביקורת-בכמות) +`confidence: high · 3-0` +- Joachims et al. (קליקים כ-implicit relevance; Radlinski/Joachims) — אותות-משתמשים טבעיים הם סיגנל-רלוונטיות + אמין כשמטפלים בהטיות-מיקום. **מקבילה אצלנו:** אילו פסקי-דין/הלכות דפנה *מצטטת בפועל* בהחלטותיה = הפיקוח, + במקום סקירה-מראש של מאות. self-correcting, מתחזק עם השימוש. +- מקורות: Cornell joachims_etal_17a · radlinski_joachims_05a · arxiv 2403.18962 + +--- + +## טענות שהופרכו (לא לבנות עליהן) +| טענה | קול | מקור | +|------|-----|------| +| degree-גולמי הוא המנבא היציב ביותר, עדיף על PageRank | 1-2 | ResearchGate 376422421 | +| HITS (hubs/authorities) עדיף-באופן-מובהק על ספירת-ציטוטים | 1-2 | polisci.umn s6 | +| link-prediction על גרף-הציטוטים מדרג תקדימים בדיוק חזק | 0-3 | Nature s41598 | +| West שומר רק 1-3 holdings/פסק (תמיכה בגיזום-holding) | 0-3 | USPTO US7580939 | +> מסקנה מההפרכות: **ספירת-ציטוטים היא סיגנל לגיטימי אך לא-מכריע, והמטרי-המדויק (degree/PageRank/HITS) +> אינו מוכרע — אל תּתַכַּנֵּת-יתר אותו; ואל תצטט פרקטיקה-מסחרית כתומכת בגיזום-holding.** + +--- + +## סינתזה לנתוני-המערכת שלנו + +| ממצא-מחקר | המצב אצלנו (אומת ב-DB) | +|-----------|------------------------| +| חשיבות אמינה רק ברמת-פס"ד | התאמת-זהב ברמת-עיקרון **נכשלה**: match_context=רשימת-הפניות; 62/112 פס"ד-מצוטטים חסרי-עקרונות; חציון-cosine 0.52 | +| ספירת-ציטוטים = סיגנל עם זנב | יש פיזור אמיתי: 7×(1), 6×(1), 4×(4), 3×(8), 2×(38), 1×(269) — ראש-"הלכות-קבע" ברור | +| אל תחתוך על ציון-פרשני רועש | ה-cull הבלינדי היה חותך ~66%, כולל הלכות-זהב (49% מהעקרונות מפס"ד-זהב) | +| דרג-בזמן-שאילתה (מודע-הקשר) | יש לנו RAG (`search_precedent_library`/halacha) — נקודת-ההזרקה הטבעית ל-boost | +| פיקוח-משתמע מציטוטי-היו"ר | יש לנו `precedent_internal_citations` (ציטוטי-דפנה) — מתעדכן עם כל החלטה חדשה | +| אפס-ביקורת מובטח (SCRC/cascade) | מחליף את תורי-ה-pending_review בשער-conformal מכויל | + +**ההכרעה הנגזרת:** +1. **לבטל את ה-cull ההרסני** כברירת-מחדל. הקורפוס נשאר שלם (הפיך — וכבר שוחזר לפריסטין). +2. **שכבת-חשיבות = prior-לדירוג, לא מסנן-השמדה.** `importance_score(עיקרון) ∝ מרכזיות-פס"ד-המקור + (ספירת-ציטוטים בדרגות: דפנה ≫ יו"ר-אחר ≫ כללי) × סמכות × טריות` — מוזרק כ-boost ב-RRF בזמן-אחזור. +3. **רעש מטופל ב-ranking, לא במחיקה** — עקרון נמוך-חשיבות פשוט שוקע ולא צץ; שום הלכה לא אובדת. +4. **ביקורת-אנושית → אפס-מעשי:** רק ה"זבל-הוודאי" (≤1 קול בפאנל / quality-flags) מודח-אוטומטית (הפיך); + השאר נשאר; אין תור-אישור. אם בעתיד נרצה שער-החלטה — conformal (SCRC) חוסם את אחוז-ההסלמה מתמטית. +5. **Active-learning:** ציטוטי-דפנה העתידיים מזינים את ה-prior אוטומטית (job רענון), בלי סקירה. + +> **מה שנשאר תקף מהעבודה שכבר נבנתה (PR #304/#305):** משטר-החילוץ התלת-מודלי + תקרת-5 **לחילוץ-להבא** +> (מונע צמיחת-רעש חדש במקור — quality-at-source) נשאר; מה שמשתנה הוא ה**יחס לקורפוס-הקיים**: דירוג ולא +> השמדה. הטרמינולוגיה (הלכה/כלל-פרשני/עיקרון) והסינתזה — נשארים. + +## שאלות-פתוחות (לאימות-פנימי, מהמחקר) +1. האם ניתן לאמת ציון-חשיבות per-עיקרון (לא רק per-פס"ד) דרך מתאם בין retrieval-then-citation של היו"ר + לסיגנל-אלגוריתמי? (הליבה הלא-מוכחת — דורש מחקר-פנימי על הקורפוס שלנו.) +2. גודל-מינימלי ותדירות-רענון לכיול מהתנהגות-הציטוט של היו"ר בקורפוס חד-מחבר קטן? (Trust-or-Escalate + השתמש ב-500 דוגמאות i.i.d.) +3. שקלול ציטוטים-פנימיים (החלטה→החלטה של היו"ר) מול חיצוניים (מרכזיות-בית-משפט) — פנימי נדיר אך מיושר-יותר לסגנונה. +4. האם דירוג-אגרסיבי-בזמן-שאילתה פוגע ב-precision/latency בקנה-המידה שלנו (~3,562), או שה-set קטן מספיק + שאין חיסרון מעשי — כלומר **האם ה-cull בכלל פותר בעיה שיש לנו?** + +--- + +## מקורות (25 ראשוניים) +מרכזיות/legal-IR: arxiv 2410.13460v2 · ssrn 2910926 · polisci.umn s6.pdf · ResearchGate 376422421 · +arxiv 2106.10776 · Nature s41598-021-82430-x · USPTO US7580939 · aallnet LLJ 110n4 · +law.northwestern updating · guides.law.stanford keynumbersystem. +Selective-prediction/conformal: ICLR 2025 08dabd5 · arxiv 2512.12844 · arxiv 2407.18370 · vlm-uncertainty · +openreview JJPAy8mvrQ · arxiv 2511.07396 · arxiv 2605.18796. +Implicit-feedback/active-learning: Cornell joachims_etal_17a · radlinski_joachims_05a · dl.acm 1229181 · arxiv 2403.18962. +RAG pruning vs rank: arxiv 2407.12170 · 2511.00505 · 2409.13694v2.