Files
legal-ai/docs/precedent-corpus-redesign/02-deep-research-importance-recommendation.md
Chaim 1cf1f30dcd docs(principles): number+rename research files for final-synthesis assembly (#153)
02-deep-research-importance-recommendation.md (was README) + 03-deep-research-full-output.md

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-20 11:38:49 +00:00

143 lines
13 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# עיצוב-מחדש: קורפוס-הפסיקה — חשיבות, אחזור וסינון (מחקר + החלטה)
> **מקור:** מחקר-עומק רב-סוכני (deep-research, 2026-06-20) — 6 זוויות, 25 מקורות ראשוניים,
> 114 טענות חולצו, 25 אומתו באימות-יריב 3-קולות (**21 אושרו · 4 הופרכו**). שאלת-המחקר:
> איך לדרג/לנקות קורפוס של ~3,562 עקרונות-משפטיים מחולצים, **באוטומציה גבוהה וכמעט ללא
> ביקורת-אנושית** (אילוץ-יסוד של chaim). מסמך-אחות: [`legal-principles-redesign.md`](../legal-principles-redesign.md) §8.
---
## ההמלצה החד-משמעית
**לא לחתוך (cull הרסני). לשמור הכל, לדרג-לפי-חשיבות בזמן-אחזור, ולגדר במנגנון selective-prediction
מכויל כך שרק שבריר זעיר וחסום-סטטיסטית מגיע ליו"ר.** (אופציה B/C, לא A.)
הסיבה במשפט: **הסיגנל המכני אמין (האם פס"ד מצוטט, ע"י מי) — אבל ההכרעה הפרשנית "האם העיקרון
הזה חשוב" היא בדיוק המקום שבו האוטומציה נכשלת**, ולכן אסור להשמיד עקרונות על-בסיס ציון-חשיבות
רועש; עדיף לשמור הכל ולתת ל-ranking בזמן-שאילתה (שמכיר את הקשר-הטיוטה) להציף את הרלוונטי.
---
## הממצאים (מאומתים)
### 1. מרכזיות-רשת-ציטוטים = סיגנל-חשיבות בר-קנה-מידה, אך **ברמת-הפס"ד בלבד**, ובינוני בעוצמתו
`confidence: high · 3-0`
- ניתן לגזור תוויות-חשיבות אלגוריתמית מדפוסי-ציטוט, בלי תיוג-ידני (Swiss Criticality, ACL 2025 —
138,531 פסקים דרך LD-Label + Citation-Label משוקלל-טריות).
- שיטות-מרכזיות (Derlén & Lindholm: PageRank/HITS/betweenness על 9,125 פסקי-CJEU; Fowler/Jeon
ב-SCOTUS) מבססות מרכזיות-ברמת-תיק כפרוקסי-חשיבות כמותי. **HITS/eigenvector עדיפים על degree-גולמי**
כי degree מתייחס לכל מצטט כשווה.
- **גבול קריטי:** העוצמה הניבויית **בינונית בלבד** — JURIX 2023, ordinal regression על Importance-Score
של בית-המשפט הגיע ל-**F1≈0.655**; התפלגות-הציטוטים כבדת-זנב (preferential attachment). כל הראיות
ברמת-פס"ד; **אף אחת לא מאמתת חשיבות ברמת-עיקרון/holding.**
- **משמעות לנו:** מרכזיות-פס"ד = prior חזק על תיק-האב של עיקרון, **לא** ציון per-עיקרון.
- מקורות: arxiv 2410.13460v2 · ssrn 2910926 · polisci.umn s6.pdf · ResearchGate 376422421 · Nature s41598-021-82430-x
### 2. חילוץ ברמת-holding ישים מסחרית — אך **תיוג-החשיבות/treatment ברמת-holding הוא השלב שגיא-מועד**
`confidence: high · 3-0` (ותת-טענה הופרכה)
- מערכת KeyNumber הפטנטית של West מסווגת headnotes בודדים (~6/פסק, לעיתים 50+) לטקסונומיה של
90,000+ מחלקות דרך cosine — מוכיח ש**חילוץ-holding ישים**.
- **אבל** Hellyer (2018, Law Library Journal): Shepard's ו-KeyCite פספסו/תייגו-שגוי **~שליש**, ו-BCite
**מעל שני-שליש**, מיחסי-הטיפול-השליליים (מדגם 357); שלושת ה-citators הסכימו רק 53/357. **השגיאות
נמצאות בניתוח-העריכתי הפרשני, לא בזיהוי-המכני** — "the significant problems occur in the editorial
analysis process, after the initial process of identifying the citing cases".
- **הופרך (0-3):** הטענה ש-West שומר רק 1-3 holdings לפסק — **הפרקטיקה המסחרית אינה תומכת בגיזום-holding
אגרסיבי.**
- **משמעות לנו:** הסיגנל-המכני (מצוטט? ע"י מי?) אמין; "האם העיקרון חשוב" — שם גם מערכות-מסחריות-עם-עורכים
טועות קשות. **טיעון נגד cull-הרסני מונע-ציון-פרשני.**
- מקורות: USPTO US7580939 · aallnet LLJ 110n4
### 3. אחזור מודע-הקשר בזמן-שאילתה **עדיף** על דירוג-חשיבות חסר-הקשר
`confidence: high · 3-0`
- ICAIL 2021 "Context-Aware Legal Citation Recommendation" (Stanford RegLab + CMU): ניצול ההקשר-הטקסטואלי
המקומי של הטיוטה משפר את איכות-ההמלצה על-פני baselines חסרי-הקשר. **הרלוונטיות תלוית-הקשר — לא ידועה
בזמן-cull, זמינה בזמן-שאילתה.** ציון-חשיבות סטטי (offline) לא יכול לתפוס רלוונטיות-ספציפית-לפסקה →
השמדת עקרונות נמוכי-ציון-סטטי מסכנת פריטים רלוונטיים-מאוד בהקשר שה-cull לא ראה.
- מקור: arxiv 2106.10776
### 4. תכונות-רשת נעשות **חזקות יותר עם הזמן**; תכונות-דמיון-תוכן דועכות
`confidence: medium · 2-1`
- Mones et al. (Scientific Reports 2021, CJEU 1955-2014): תכונות-מבניות (common-neighbor/Adamic-Adar)
מראות עלייה-מובהקת בעוצמה-ניבויית עם התבגרות-הרשת, בעוד TF-IDF דועך. → **גרף-ציטוטים מתחזק-מעצמו** הוא
נכס עמיד יותר מ-cull חד-פעמי מבוסס-תוכן. (אזהרה: התיקון העריכתי — preferential-attachment הוא תכונה
*נודלית-דועכת*; המבנית-עולה היא common-neighbor.)
- מקור: Nature s41598-021-82430-x
### 5. Selective evaluation מכויל → **רק שבריר זעיר מגיע לאדם**
`confidence: high · 3-0`
- Cascaded Selective Evaluation (ICLR 2025): מנתב כל פריט למודל-החלש-ביותר-שעדיין-בטוח-מספיק; השאר
מסלים. השיג **מעל 80% הסכמה-אנושית** ב-ChatArena עם אחוז-הסלמה נמוך. → ניתן לכייל סף-ביטחון כך
שרק חלק קטן ומדוד עובר לסקירה.
- מקור: ICLR 2025 (proceedings.iclr.cc 08dabd5...)
### 6. Selective Conformal Risk Control (SCRC) → **ערבון-סיכון מותנה ברמה 1α**
`confidence: high · 3-0`
- SCRC מספק ערבון-בקרת-סיכון מותנה: ניתן להבטיח **חסם-טעות מוכח** על הפריטים ש"נסגרים אוטומטית",
כך שאחוז-ההסלמה-לאדם חסום-סטטיסטית ולא תלוי-מזל. → המנגנון להמרת "אפס-ביקורת" ליעד **מובטח-מתמטית**.
- מקורות: arxiv 2407.18370 · 2511.07396
### 7. **התנהגות-ציטוט טבעית = פיקוח-משתמע** (במקום ביקורת-בכמות)
`confidence: high · 3-0`
- Joachims et al. (קליקים כ-implicit relevance; Radlinski/Joachims) — אותות-משתמשים טבעיים הם סיגנל-רלוונטיות
אמין כשמטפלים בהטיות-מיקום. **מקבילה אצלנו:** אילו פסקי-דין/הלכות דפנה *מצטטת בפועל* בהחלטותיה = הפיקוח,
במקום סקירה-מראש של מאות. self-correcting, מתחזק עם השימוש.
- מקורות: Cornell joachims_etal_17a · radlinski_joachims_05a · arxiv 2403.18962
---
## טענות שהופרכו (לא לבנות עליהן)
| טענה | קול | מקור |
|------|-----|------|
| degree-גולמי הוא המנבא היציב ביותר, עדיף על PageRank | 1-2 | ResearchGate 376422421 |
| HITS (hubs/authorities) עדיף-באופן-מובהק על ספירת-ציטוטים | 1-2 | polisci.umn s6 |
| link-prediction על גרף-הציטוטים מדרג תקדימים בדיוק חזק | 0-3 | Nature s41598 |
| West שומר רק 1-3 holdings/פסק (תמיכה בגיזום-holding) | 0-3 | USPTO US7580939 |
> מסקנה מההפרכות: **ספירת-ציטוטים היא סיגנל לגיטימי אך לא-מכריע, והמטרי-המדויק (degree/PageRank/HITS)
> אינו מוכרע — אל תּתַכַּנֵּת-יתר אותו; ואל תצטט פרקטיקה-מסחרית כתומכת בגיזום-holding.**
---
## סינתזה לנתוני-המערכת שלנו
| ממצא-מחקר | המצב אצלנו (אומת ב-DB) |
|-----------|------------------------|
| חשיבות אמינה רק ברמת-פס"ד | התאמת-זהב ברמת-עיקרון **נכשלה**: match_context=רשימת-הפניות; 62/112 פס"ד-מצוטטים חסרי-עקרונות; חציון-cosine 0.52 |
| ספירת-ציטוטים = סיגנל עם זנב | יש פיזור אמיתי: 7×(1), 6×(1), 4×(4), 3×(8), 2×(38), 1×(269) — ראש-"הלכות-קבע" ברור |
| אל תחתוך על ציון-פרשני רועש | ה-cull הבלינדי היה חותך ~66%, כולל הלכות-זהב (49% מהעקרונות מפס"ד-זהב) |
| דרג-בזמן-שאילתה (מודע-הקשר) | יש לנו RAG (`search_precedent_library`/halacha) — נקודת-ההזרקה הטבעית ל-boost |
| פיקוח-משתמע מציטוטי-היו"ר | יש לנו `precedent_internal_citations` (ציטוטי-דפנה) — מתעדכן עם כל החלטה חדשה |
| אפס-ביקורת מובטח (SCRC/cascade) | מחליף את תורי-ה-pending_review בשער-conformal מכויל |
**ההכרעה הנגזרת:**
1. **לבטל את ה-cull ההרסני** כברירת-מחדל. הקורפוס נשאר שלם (הפיך — וכבר שוחזר לפריסטין).
2. **שכבת-חשיבות = prior-לדירוג, לא מסנן-השמדה.** `importance_score(עיקרון) ∝ מרכזיות-פס"ד-המקור
(ספירת-ציטוטים בדרגות: דפנה ≫ יו"ר-אחר ≫ כללי) × סמכות × טריות` — מוזרק כ-boost ב-RRF בזמן-אחזור.
3. **רעש מטופל ב-ranking, לא במחיקה** — עקרון נמוך-חשיבות פשוט שוקע ולא צץ; שום הלכה לא אובדת.
4. **ביקורת-אנושית → אפס-מעשי:** רק ה"זבל-הוודאי" (≤1 קול בפאנל / quality-flags) מודח-אוטומטית (הפיך);
השאר נשאר; אין תור-אישור. אם בעתיד נרצה שער-החלטה — conformal (SCRC) חוסם את אחוז-ההסלמה מתמטית.
5. **Active-learning:** ציטוטי-דפנה העתידיים מזינים את ה-prior אוטומטית (job רענון), בלי סקירה.
> **מה שנשאר תקף מהעבודה שכבר נבנתה (PR #304/#305):** משטר-החילוץ התלת-מודלי + תקרת-5 **לחילוץ-להבא**
> (מונע צמיחת-רעש חדש במקור — quality-at-source) נשאר; מה שמשתנה הוא ה**יחס לקורפוס-הקיים**: דירוג ולא
> השמדה. הטרמינולוגיה (הלכה/כלל-פרשני/עיקרון) והסינתזה — נשארים.
## שאלות-פתוחות (לאימות-פנימי, מהמחקר)
1. האם ניתן לאמת ציון-חשיבות per-עיקרון (לא רק per-פס"ד) דרך מתאם בין retrieval-then-citation של היו"ר
לסיגנל-אלגוריתמי? (הליבה הלא-מוכחת — דורש מחקר-פנימי על הקורפוס שלנו.)
2. גודל-מינימלי ותדירות-רענון לכיול מהתנהגות-הציטוט של היו"ר בקורפוס חד-מחבר קטן? (Trust-or-Escalate
השתמש ב-500 דוגמאות i.i.d.)
3. שקלול ציטוטים-פנימיים (החלטה→החלטה של היו"ר) מול חיצוניים (מרכזיות-בית-משפט) — פנימי נדיר אך מיושר-יותר לסגנונה.
4. האם דירוג-אגרסיבי-בזמן-שאילתה פוגע ב-precision/latency בקנה-המידה שלנו (~3,562), או שה-set קטן מספיק
שאין חיסרון מעשי — כלומר **האם ה-cull בכלל פותר בעיה שיש לנו?**
---
## מקורות (25 ראשוניים)
מרכזיות/legal-IR: arxiv 2410.13460v2 · ssrn 2910926 · polisci.umn s6.pdf · ResearchGate 376422421 ·
arxiv 2106.10776 · Nature s41598-021-82430-x · USPTO US7580939 · aallnet LLJ 110n4 ·
law.northwestern updating · guides.law.stanford keynumbersystem.
Selective-prediction/conformal: ICLR 2025 08dabd5 · arxiv 2512.12844 · arxiv 2407.18370 · vlm-uncertainty ·
openreview JJPAy8mvrQ · arxiv 2511.07396 · arxiv 2605.18796.
Implicit-feedback/active-learning: Cornell joachims_etal_17a · radlinski_joachims_05a · dl.acm 1229181 · arxiv 2403.18962.
RAG pruning vs rank: arxiv 2407.12170 · 2511.00505 · 2409.13694v2.