Files
legal-ai/docs/precedent-corpus-redesign/00-final-synthesis.md
Chaim afe6894441 docs(principles): FINAL synthesis — eliminate queue; verified=chair-cited-in-context; nli 97% FP (#153)
chaim directive 2026-06-20: no halacha queue ever; trusted = only what a chair
actually cited, in context; corpus grows by citations; few-verified-now is fine.
nli-audit: nli_unsupported flag is 97% false-positive (29/30) — the 'noise' was
imaginary. Two layers: raw background (auto, no gate) vs verified (auto-canon from
citations). +06 indexed.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-20 13:33:13 +00:00

7.3 KiB
Raw Blame History

00 — סינתזה סופית — קורפוס-הפסיקה

מאחדת 0106 + מבחן-אמת על 3 תיקים + nli-audit + הכרעת-חיים הסופית (§3): אפס-תור, אמינות=אזכור. אילוץ-העל: אפס-ביקורת-אנושית — מוחלט.

1. שתי שכבות — לא לבלבל

שכבת-רקע   = כל החילוץ הגולמי. אוטומטי, אין תור/שער/cap. נותן recall, מדורג-נמוך.
שכבת-מאומת = רק מה שיו"ר ציטף בפועל בהקשר. הסיגנל היחיד לאמינות. גדל לפי אזכורים.

(ההבחנה הישנה "רמה A=מה-לשמור / רמה B=מה-לצוף" התמזגה לכאן: לא שומרים/חותכים — שומרים-הכל כרקע, והאזכור מקדם ל-trusted.)

2. ⚠️ מבחן-האמת ששינה את ההחלטה (8508-03-24) — שתי הרצות

תיק היטל-השבחה (יו"ר אחר) שמפיק 70 עקרונות. הרצנו שני משטרים על אותם 70:

אגרסיבי (פאנל + cap/novelty):   70 → 3    ✗ אודיט-אובדן: ~22 עקרונות אמיתיים אבדו,
                                              כולל הלכת לוסטרניק (ליבת חישוב היטל-השבחה!),
                                              קשר-סיבתי, סף-פוטנציאל, כל המסד הפרוצדורלי (14/נטלים/ריבית)
מזוקק ("שמור-בספק", רעש בלבד):  70 → 70   ✓ "כולם בני-ציטוט; אין רעש-אמיתי; זוגות-קרובים
                                              מוסיפים נדבך". כל עקרוני-הליבה נשמרו.
  • השורש לקריסת-האגרסיבי: החילוץ שאל "איזה דין חדש יצרה הוועדה" (~3) — אבל RAG-לכתיבה צריך "אילו עקרונות בני-ציטוט שימושיים" (~כל ה-70), כולל יישומי-דוקטרינה-מוכרת. מסנן "רק-חדש/בלי-יישומים" סינן בדיוק את מה שהכותב צריך.

האסימטריה המכריעה:

לחתוך → סיכון לאבד את הליבה (לוסטרניק), בלתי-הפיך בפועל   ← עלות עצומה
לשמור → עולה כמעט-כלום; הרעש/הכפילויות שוקעים בדירוג        ← עלות אפסית

אישוש על 3 תיקים (אגרסיבי מול מזוקק):

תיק          יו"ר          קיים   אגרסיבי   אבדו-אמיתיים   רעש   מזוקק
8508-03-24   ברק שוורץ      70    → 3       ~22            16    → 70
1049-06-21   יריב אבן חיים  43    → 1       ~27            15    → 43
1200-12-25   דפנה תמיר      35    → 3       ~30             2    → 35

מסקנה (מחקר + 3 תיקים = 4 ראיות בלתי-תלויות): לא לחתוך בכלל. האגרסיבי הרסני בעקביות (גם על החלטת-דפנה-עצמה). הרעש קטן (16→15→2) — "יותר מדי הלכות" היתה אבחנה-שגויה; הבעיה = תור-אישור + היעדר-דירוג, לא עודף-זבל. מתקנים את שניהם, והעקרונות בלתי-מזיקים (שוקעים בדירוג, נשמרים לאחזור).

3. ההחלטה (סופית — הכרעת-חיים 2026-06-20: "אמינות=אזכור, אפס-תור")

עמוד 1 — שתי שכבות מובחנות

שכבת-רקע (לא-מאומת)   = כל החילוץ הגולמי (5,489). אוטומטי לחלוטין. אין תור, אין שער, אין cap.
שכבת-מאומת (trusted)  = רק עיקרון שיו"ר ציטט בפועל, בהקשר שבו הביא אותו. גדל לפי אזכורים בלבד.

עמוד 2 — ביטול-מוחלט של תור-ההלכות

אין pending_review. אין קריאת-רשומות. אין אישור-ידני. אף פעם. החילוץ פשוט קורה (אוטומטי), והפלט יושב כשכבת-רקע. ה-2,402 הממתינות → מבוטלות. מאומת אף פעם לא בא מאישור — רק מאזכור.

דגלי-האיכות לא משמשים כשער — אומת ש-nli_unsupported=97% false-positive (29/30); ה"רעש" שהתור כביכול תפס היה מדומה. הדגלים, אם בכלל, סיגנל-דירוג-משני בלבד.

עמוד 3 — שכבת-המאומת = קאנון-אוטומטי מאזכורים

"מאומת" = precedent_internal_citations + match_context (ההקשר שבו היו"ר הביא את העיקרון). נבנית אוטומטית מכל החלטה שיו"ר כותב — כל אזכור מוסיף עיקרון-מאומת-בהקשר. זהו בדיוק הקאנון-הידני (daphna-precedent-network), אך נבנה-מעצמו. בינתיים מעט מאומתים — וזה בסדר (8508 = 0 אזכורים → 0 מאומתים). גדל עם השימוש (active-learning, INV-LRN).

עמוד 4 — אחזור: מאומת ≫ רקע

דירוג ב-RRF: מאומת (אזכור-יו"ר-בהקשר) צף ראשון; שכבת-הרקע נותנת recall ומדורגת-מתחת לפי importance (דפנה≫יו"ר-אחר≫סמכות). שום עיקרון לא נמחק; הרקע פשוט שוקע. (לוסטרניק נשמר ברקע, וצף ל-trusted ברגע שדפנה תצטט אותו.)

עמוד 5 — V41 canonical: לעקוף

100% תקוע + בנוי-על-אישור (סותר אפס-תור) → האחזור מדרג ישירות על halachot. V41 נדחה (הפיך).

4. תיקוני-תשתית (תנאי-מקדים)

  • חוזה-קליטה חיצוני: 87% בלי practice_area → חילוץ-אוטומטי/searchable=false (G1).
  • לצופף גרף-ציטוטים: citator על כל 363 (לא רק 42 של דפנה).
  • להטמיע פסיקת-קאנון-חסרה (חוף-השרון, הרמלין) דרך X13.

5. אבולוציית-ההחלטה

שלב עמדה
זמנית פאנל + cap-5 במקור
אחרי 8508/1049/1200 לא-לחתוך; cap הרסני (איבד לוסטרניק ב-3 תיקים, גם של דפנה)
אחרי nli-audit דגלי-איכות לא-אמינים (97% FP) — לא שער ולא מסנן
הכרעת-חיים (סופי) ביטול-תור מוחלט; "מאומת"=אזכור-יו"ר-בהקשר בלבד; גדל לפי אזכורים; מעט-מאומתים-בינתיים תקין

6. תוכנית-ביצוע (סדר)

  1. לבטל את תור-ההלכות — להסיר pending_review כשער; חילוץ→שכבת-רקע אוטומטית (אפס-אדם).
  2. שכבת-מאומת מאזכורים — לבנות מ-precedent_internal_citations+match_context; job שמעדכן בכל החלטה חדשה (גם להריץ citator על 91 הוועדות שטרם חולצו → להעשיר מאומתים).
  3. אחזור: מאומת ≫ רקע — boost ב-RRF (האחזור).
  4. תיקון-חוזה-קליטה (practice_area) — היגיינת-מקור.
  5. רוויזיית-PR#304 — לבטל cap+novelty (הרסניים). הפאנל/דגלים לכל-היותר סיגנל-דירוג.
  6. (נדחה) V41/conformal/הטמעת-קאנון-חסר.