Files
legal-ai/docs/precedent-corpus-redesign/02-deep-research-importance-recommendation.md
Chaim 1cf1f30dcd docs(principles): number+rename research files for final-synthesis assembly (#153)
02-deep-research-importance-recommendation.md (was README) + 03-deep-research-full-output.md

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-20 11:38:49 +00:00

13 KiB
Raw Blame History

עיצוב-מחדש: קורפוס-הפסיקה — חשיבות, אחזור וסינון (מחקר + החלטה)

מקור: מחקר-עומק רב-סוכני (deep-research, 2026-06-20) — 6 זוויות, 25 מקורות ראשוניים, 114 טענות חולצו, 25 אומתו באימות-יריב 3-קולות (21 אושרו · 4 הופרכו). שאלת-המחקר: איך לדרג/לנקות קורפוס של ~3,562 עקרונות-משפטיים מחולצים, באוטומציה גבוהה וכמעט ללא ביקורת-אנושית (אילוץ-יסוד של chaim). מסמך-אחות: legal-principles-redesign.md §8.


ההמלצה החד-משמעית

לא לחתוך (cull הרסני). לשמור הכל, לדרג-לפי-חשיבות בזמן-אחזור, ולגדר במנגנון selective-prediction מכויל כך שרק שבריר זעיר וחסום-סטטיסטית מגיע ליו"ר. (אופציה B/C, לא A.)

הסיבה במשפט: הסיגנל המכני אמין (האם פס"ד מצוטט, ע"י מי) — אבל ההכרעה הפרשנית "האם העיקרון הזה חשוב" היא בדיוק המקום שבו האוטומציה נכשלת, ולכן אסור להשמיד עקרונות על-בסיס ציון-חשיבות רועש; עדיף לשמור הכל ולתת ל-ranking בזמן-שאילתה (שמכיר את הקשר-הטיוטה) להציף את הרלוונטי.


הממצאים (מאומתים)

1. מרכזיות-רשת-ציטוטים = סיגנל-חשיבות בר-קנה-מידה, אך ברמת-הפס"ד בלבד, ובינוני בעוצמתו

confidence: high · 3-0

  • ניתן לגזור תוויות-חשיבות אלגוריתמית מדפוסי-ציטוט, בלי תיוג-ידני (Swiss Criticality, ACL 2025 — 138,531 פסקים דרך LD-Label + Citation-Label משוקלל-טריות).
  • שיטות-מרכזיות (Derlén & Lindholm: PageRank/HITS/betweenness על 9,125 פסקי-CJEU; Fowler/Jeon ב-SCOTUS) מבססות מרכזיות-ברמת-תיק כפרוקסי-חשיבות כמותי. HITS/eigenvector עדיפים על degree-גולמי כי degree מתייחס לכל מצטט כשווה.
  • גבול קריטי: העוצמה הניבויית בינונית בלבד — JURIX 2023, ordinal regression על Importance-Score של בית-המשפט הגיע ל-F1≈0.655; התפלגות-הציטוטים כבדת-זנב (preferential attachment). כל הראיות ברמת-פס"ד; אף אחת לא מאמתת חשיבות ברמת-עיקרון/holding.
  • משמעות לנו: מרכזיות-פס"ד = prior חזק על תיק-האב של עיקרון, לא ציון per-עיקרון.
  • מקורות: arxiv 2410.13460v2 · ssrn 2910926 · polisci.umn s6.pdf · ResearchGate 376422421 · Nature s41598-021-82430-x

2. חילוץ ברמת-holding ישים מסחרית — אך תיוג-החשיבות/treatment ברמת-holding הוא השלב שגיא-מועד

confidence: high · 3-0 (ותת-טענה הופרכה)

  • מערכת KeyNumber הפטנטית של West מסווגת headnotes בודדים (~6/פסק, לעיתים 50+) לטקסונומיה של 90,000+ מחלקות דרך cosine — מוכיח שחילוץ-holding ישים.
  • אבל Hellyer (2018, Law Library Journal): Shepard's ו-KeyCite פספסו/תייגו-שגוי ~שליש, ו-BCite מעל שני-שליש, מיחסי-הטיפול-השליליים (מדגם 357); שלושת ה-citators הסכימו רק 53/357. השגיאות נמצאות בניתוח-העריכתי הפרשני, לא בזיהוי-המכני — "the significant problems occur in the editorial analysis process, after the initial process of identifying the citing cases".
  • הופרך (0-3): הטענה ש-West שומר רק 1-3 holdings לפסק — הפרקטיקה המסחרית אינה תומכת בגיזום-holding אגרסיבי.
  • משמעות לנו: הסיגנל-המכני (מצוטט? ע"י מי?) אמין; "האם העיקרון חשוב" — שם גם מערכות-מסחריות-עם-עורכים טועות קשות. טיעון נגד cull-הרסני מונע-ציון-פרשני.
  • מקורות: USPTO US7580939 · aallnet LLJ 110n4

3. אחזור מודע-הקשר בזמן-שאילתה עדיף על דירוג-חשיבות חסר-הקשר

confidence: high · 3-0

  • ICAIL 2021 "Context-Aware Legal Citation Recommendation" (Stanford RegLab + CMU): ניצול ההקשר-הטקסטואלי המקומי של הטיוטה משפר את איכות-ההמלצה על-פני baselines חסרי-הקשר. הרלוונטיות תלוית-הקשר — לא ידועה בזמן-cull, זמינה בזמן-שאילתה. ציון-חשיבות סטטי (offline) לא יכול לתפוס רלוונטיות-ספציפית-לפסקה → השמדת עקרונות נמוכי-ציון-סטטי מסכנת פריטים רלוונטיים-מאוד בהקשר שה-cull לא ראה.
  • מקור: arxiv 2106.10776

4. תכונות-רשת נעשות חזקות יותר עם הזמן; תכונות-דמיון-תוכן דועכות

confidence: medium · 2-1

  • Mones et al. (Scientific Reports 2021, CJEU 1955-2014): תכונות-מבניות (common-neighbor/Adamic-Adar) מראות עלייה-מובהקת בעוצמה-ניבויית עם התבגרות-הרשת, בעוד TF-IDF דועך. → גרף-ציטוטים מתחזק-מעצמו הוא נכס עמיד יותר מ-cull חד-פעמי מבוסס-תוכן. (אזהרה: התיקון העריכתי — preferential-attachment הוא תכונה נודלית-דועכת; המבנית-עולה היא common-neighbor.)
  • מקור: Nature s41598-021-82430-x

5. Selective evaluation מכויל → רק שבריר זעיר מגיע לאדם

confidence: high · 3-0

  • Cascaded Selective Evaluation (ICLR 2025): מנתב כל פריט למודל-החלש-ביותר-שעדיין-בטוח-מספיק; השאר מסלים. השיג מעל 80% הסכמה-אנושית ב-ChatArena עם אחוז-הסלמה נמוך. → ניתן לכייל סף-ביטחון כך שרק חלק קטן ומדוד עובר לסקירה.
  • מקור: ICLR 2025 (proceedings.iclr.cc 08dabd5...)

6. Selective Conformal Risk Control (SCRC) → ערבון-סיכון מותנה ברמה 1α

confidence: high · 3-0

  • SCRC מספק ערבון-בקרת-סיכון מותנה: ניתן להבטיח חסם-טעות מוכח על הפריטים ש"נסגרים אוטומטית", כך שאחוז-ההסלמה-לאדם חסום-סטטיסטית ולא תלוי-מזל. → המנגנון להמרת "אפס-ביקורת" ליעד מובטח-מתמטית.
  • מקורות: arxiv 2407.18370 · 2511.07396

7. התנהגות-ציטוט טבעית = פיקוח-משתמע (במקום ביקורת-בכמות)

confidence: high · 3-0

  • Joachims et al. (קליקים כ-implicit relevance; Radlinski/Joachims) — אותות-משתמשים טבעיים הם סיגנל-רלוונטיות אמין כשמטפלים בהטיות-מיקום. מקבילה אצלנו: אילו פסקי-דין/הלכות דפנה מצטטת בפועל בהחלטותיה = הפיקוח, במקום סקירה-מראש של מאות. self-correcting, מתחזק עם השימוש.
  • מקורות: Cornell joachims_etal_17a · radlinski_joachims_05a · arxiv 2403.18962

טענות שהופרכו (לא לבנות עליהן)

טענה קול מקור
degree-גולמי הוא המנבא היציב ביותר, עדיף על PageRank 1-2 ResearchGate 376422421
HITS (hubs/authorities) עדיף-באופן-מובהק על ספירת-ציטוטים 1-2 polisci.umn s6
link-prediction על גרף-הציטוטים מדרג תקדימים בדיוק חזק 0-3 Nature s41598
West שומר רק 1-3 holdings/פסק (תמיכה בגיזום-holding) 0-3 USPTO US7580939

מסקנה מההפרכות: ספירת-ציטוטים היא סיגנל לגיטימי אך לא-מכריע, והמטרי-המדויק (degree/PageRank/HITS) אינו מוכרע — אל תּתַכַּנֵּת-יתר אותו; ואל תצטט פרקטיקה-מסחרית כתומכת בגיזום-holding.


סינתזה לנתוני-המערכת שלנו

ממצא-מחקר המצב אצלנו (אומת ב-DB)
חשיבות אמינה רק ברמת-פס"ד התאמת-זהב ברמת-עיקרון נכשלה: match_context=רשימת-הפניות; 62/112 פס"ד-מצוטטים חסרי-עקרונות; חציון-cosine 0.52
ספירת-ציטוטים = סיגנל עם זנב יש פיזור אמיתי: 7×(1), 6×(1), 4×(4), 3×(8), 2×(38), 1×(269) — ראש-"הלכות-קבע" ברור
אל תחתוך על ציון-פרשני רועש ה-cull הבלינדי היה חותך ~66%, כולל הלכות-זהב (49% מהעקרונות מפס"ד-זהב)
דרג-בזמן-שאילתה (מודע-הקשר) יש לנו RAG (search_precedent_library/halacha) — נקודת-ההזרקה הטבעית ל-boost
פיקוח-משתמע מציטוטי-היו"ר יש לנו precedent_internal_citations (ציטוטי-דפנה) — מתעדכן עם כל החלטה חדשה
אפס-ביקורת מובטח (SCRC/cascade) מחליף את תורי-ה-pending_review בשער-conformal מכויל

ההכרעה הנגזרת:

  1. לבטל את ה-cull ההרסני כברירת-מחדל. הקורפוס נשאר שלם (הפיך — וכבר שוחזר לפריסטין).
  2. שכבת-חשיבות = prior-לדירוג, לא מסנן-השמדה. importance_score(עיקרון) ∝ מרכזיות-פס"ד-המקור (ספירת-ציטוטים בדרגות: דפנה ≫ יו"ר-אחר ≫ כללי) × סמכות × טריות — מוזרק כ-boost ב-RRF בזמן-אחזור.
  3. רעש מטופל ב-ranking, לא במחיקה — עקרון נמוך-חשיבות פשוט שוקע ולא צץ; שום הלכה לא אובדת.
  4. ביקורת-אנושית → אפס-מעשי: רק ה"זבל-הוודאי" (≤1 קול בפאנל / quality-flags) מודח-אוטומטית (הפיך); השאר נשאר; אין תור-אישור. אם בעתיד נרצה שער-החלטה — conformal (SCRC) חוסם את אחוז-ההסלמה מתמטית.
  5. Active-learning: ציטוטי-דפנה העתידיים מזינים את ה-prior אוטומטית (job רענון), בלי סקירה.

מה שנשאר תקף מהעבודה שכבר נבנתה (PR #304/#305): משטר-החילוץ התלת-מודלי + תקרת-5 לחילוץ-להבא (מונע צמיחת-רעש חדש במקור — quality-at-source) נשאר; מה שמשתנה הוא היחס לקורפוס-הקיים: דירוג ולא השמדה. הטרמינולוגיה (הלכה/כלל-פרשני/עיקרון) והסינתזה — נשארים.

שאלות-פתוחות (לאימות-פנימי, מהמחקר)

  1. האם ניתן לאמת ציון-חשיבות per-עיקרון (לא רק per-פס"ד) דרך מתאם בין retrieval-then-citation של היו"ר לסיגנל-אלגוריתמי? (הליבה הלא-מוכחת — דורש מחקר-פנימי על הקורפוס שלנו.)
  2. גודל-מינימלי ותדירות-רענון לכיול מהתנהגות-הציטוט של היו"ר בקורפוס חד-מחבר קטן? (Trust-or-Escalate השתמש ב-500 דוגמאות i.i.d.)
  3. שקלול ציטוטים-פנימיים (החלטה→החלטה של היו"ר) מול חיצוניים (מרכזיות-בית-משפט) — פנימי נדיר אך מיושר-יותר לסגנונה.
  4. האם דירוג-אגרסיבי-בזמן-שאילתה פוגע ב-precision/latency בקנה-המידה שלנו (~3,562), או שה-set קטן מספיק שאין חיסרון מעשי — כלומר האם ה-cull בכלל פותר בעיה שיש לנו?

מקורות (25 ראשוניים)

מרכזיות/legal-IR: arxiv 2410.13460v2 · ssrn 2910926 · polisci.umn s6.pdf · ResearchGate 376422421 · arxiv 2106.10776 · Nature s41598-021-82430-x · USPTO US7580939 · aallnet LLJ 110n4 · law.northwestern updating · guides.law.stanford keynumbersystem. Selective-prediction/conformal: ICLR 2025 08dabd5 · arxiv 2512.12844 · arxiv 2407.18370 · vlm-uncertainty · openreview JJPAy8mvrQ · arxiv 2511.07396 · arxiv 2605.18796. Implicit-feedback/active-learning: Cornell joachims_etal_17a · radlinski_joachims_05a · dl.acm 1229181 · arxiv 2403.18962. RAG pruning vs rank: arxiv 2407.12170 · 2511.00505 · 2409.13694v2.