Files
legal-ai/docs/precedent-corpus-redesign/00-final-synthesis.md
Chaim afe6894441 docs(principles): FINAL synthesis — eliminate queue; verified=chair-cited-in-context; nli 97% FP (#153)
chaim directive 2026-06-20: no halacha queue ever; trusted = only what a chair
actually cited, in context; corpus grows by citations; few-verified-now is fine.
nli-audit: nli_unsupported flag is 97% false-positive (29/30) — the 'noise' was
imaginary. Two layers: raw background (auto, no gate) vs verified (auto-canon from
citations). +06 indexed.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-20 13:33:13 +00:00

92 lines
7.3 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 00 — סינתזה סופית — קורפוס-הפסיקה
> מאחדת 0106 + מבחן-אמת על 3 תיקים + nli-audit + **הכרעת-חיים הסופית** (§3): אפס-תור, אמינות=אזכור.
> אילוץ-העל: **אפס-ביקורת-אנושית — מוחלט.**
## 1. שתי שכבות — לא לבלבל
```text
שכבת-רקע = כל החילוץ הגולמי. אוטומטי, אין תור/שער/cap. נותן recall, מדורג-נמוך.
שכבת-מאומת = רק מה שיו"ר ציטף בפועל בהקשר. הסיגנל היחיד לאמינות. גדל לפי אזכורים.
```
(ההבחנה הישנה "רמה A=מה-לשמור / רמה B=מה-לצוף" התמזגה לכאן: לא שומרים/חותכים — **שומרים-הכל** כרקע,
והאזכור מקדם ל-trusted.)
## 2. ⚠️ מבחן-האמת ששינה את ההחלטה (8508-03-24) — שתי הרצות
תיק היטל-השבחה (יו"ר אחר) שמפיק 70 עקרונות. הרצנו **שני משטרים** על אותם 70:
```text
אגרסיבי (פאנל + cap/novelty): 70 → 3 ✗ אודיט-אובדן: ~22 עקרונות אמיתיים אבדו,
כולל הלכת לוסטרניק (ליבת חישוב היטל-השבחה!),
קשר-סיבתי, סף-פוטנציאל, כל המסד הפרוצדורלי (14/נטלים/ריבית)
מזוקק ("שמור-בספק", רעש בלבד): 70 → 70 ✓ "כולם בני-ציטוט; אין רעש-אמיתי; זוגות-קרובים
מוסיפים נדבך". כל עקרוני-הליבה נשמרו.
```
- **השורש לקריסת-האגרסיבי:** החילוץ שאל "איזה דין *חדש* יצרה הוועדה" (~3) — אבל RAG-לכתיבה צריך
"אילו עקרונות *בני-ציטוט שימושיים*" (~כל ה-70), **כולל יישומי-דוקטרינה-מוכרת**. מסנן "רק-חדש/בלי-יישומים"
סינן בדיוק את מה שהכותב צריך.
**האסימטריה המכריעה:**
```text
לחתוך → סיכון לאבד את הליבה (לוסטרניק), בלתי-הפיך בפועל ← עלות עצומה
לשמור → עולה כמעט-כלום; הרעש/הכפילויות שוקעים בדירוג ← עלות אפסית
```
**אישוש על 3 תיקים (אגרסיבי מול מזוקק):**
```text
תיק יו"ר קיים אגרסיבי אבדו-אמיתיים רעש מזוקק
8508-03-24 ברק שוורץ 70 → 3 ~22 16 → 70
1049-06-21 יריב אבן חיים 43 → 1 ~27 15 → 43
1200-12-25 דפנה תמיר 35 → 3 ~30 2 → 35
```
**מסקנה (מחקר + 3 תיקים = 4 ראיות בלתי-תלויות):** **לא לחתוך בכלל.** האגרסיבי הרסני בעקביות (גם על
החלטת-דפנה-עצמה). הרעש קטן (16→15→2) — "יותר מדי הלכות" היתה אבחנה-שגויה; הבעיה = **תור-אישור +
היעדר-דירוג**, לא עודף-זבל. מתקנים את שניהם, והעקרונות בלתי-מזיקים (שוקעים בדירוג, נשמרים לאחזור).
## 3. ההחלטה (סופית — הכרעת-חיים 2026-06-20: "אמינות=אזכור, אפס-תור")
### עמוד 1 — שתי שכבות מובחנות
```text
שכבת-רקע (לא-מאומת) = כל החילוץ הגולמי (5,489). אוטומטי לחלוטין. אין תור, אין שער, אין cap.
שכבת-מאומת (trusted) = רק עיקרון שיו"ר ציטט בפועל, בהקשר שבו הביא אותו. גדל לפי אזכורים בלבד.
```
### עמוד 2 — ⛔ ביטול-מוחלט של תור-ההלכות
**אין `pending_review`. אין קריאת-רשומות. אין אישור-ידני. אף פעם.** החילוץ פשוט קורה (אוטומטי),
והפלט יושב כשכבת-רקע. ה-2,402 הממתינות → מבוטלות. **מאומת אף פעם לא בא מאישור — רק מאזכור.**
> דגלי-האיכות **לא משמשים כשער** — אומת ש-`nli_unsupported`=**97% false-positive** (29/30); ה"רעש"
> שהתור כביכול תפס היה מדומה. הדגלים, אם בכלל, סיגנל-דירוג-משני בלבד.
### עמוד 3 — שכבת-המאומת = קאנון-אוטומטי מאזכורים
"מאומת" = `precedent_internal_citations` + **`match_context`** (ההקשר שבו היו"ר הביא את העיקרון).
נבנית **אוטומטית** מכל החלטה שיו"ר כותב — כל אזכור מוסיף עיקרון-מאומת-בהקשר. זהו **בדיוק** הקאנון-הידני
([daphna-precedent-network](daphna-precedent-network.md)), אך נבנה-מעצמו. **בינתיים מעט מאומתים — וזה בסדר**
(8508 = 0 אזכורים → 0 מאומתים). גדל עם השימוש (active-learning, INV-LRN).
### עמוד 4 — אחזור: מאומת ≫ רקע
דירוג ב-RRF: **מאומת (אזכור-יו"ר-בהקשר) צף ראשון**; שכבת-הרקע נותנת recall ומדורגת-מתחת לפי
importance (דפנה≫יו"ר-אחר≫סמכות). שום עיקרון לא נמחק; הרקע פשוט שוקע. (לוסטרניק נשמר ברקע, וצף
ל-trusted ברגע שדפנה תצטט אותו.)
### עמוד 5 — V41 canonical: לעקוף
100% תקוע + בנוי-על-אישור (סותר אפס-תור) → האחזור מדרג ישירות על `halachot`. V41 נדחה (הפיך).
## 4. תיקוני-תשתית (תנאי-מקדים)
- חוזה-קליטה חיצוני: 87% בלי practice_area → חילוץ-אוטומטי/`searchable=false` (G1).
- לצופף גרף-ציטוטים: citator על כל 363 (לא רק 42 של דפנה).
- להטמיע פסיקת-קאנון-חסרה (חוף-השרון, הרמלין) דרך X13.
## 5. אבולוציית-ההחלטה
| שלב | עמדה |
|---|---|
| זמנית | פאנל + cap-5 במקור |
| אחרי 8508/1049/1200 | לא-לחתוך; cap הרסני (איבד לוסטרניק ב-3 תיקים, גם של דפנה) |
| אחרי nli-audit | דגלי-איכות לא-אמינים (97% FP) — לא שער ולא מסנן |
| **הכרעת-חיים (סופי)** | **ביטול-תור מוחלט; "מאומת"=אזכור-יו"ר-בהקשר בלבד; גדל לפי אזכורים; מעט-מאומתים-בינתיים תקין** |
## 6. תוכנית-ביצוע (סדר)
1. **לבטל את תור-ההלכות** — להסיר `pending_review` כשער; חילוץ→שכבת-רקע אוטומטית (אפס-אדם).
2. **שכבת-מאומת מאזכורים** — לבנות מ-`precedent_internal_citations`+`match_context`; job שמעדכן בכל החלטה חדשה (גם להריץ citator על 91 הוועדות שטרם חולצו → להעשיר מאומתים).
3. **אחזור: מאומת ≫ רקע** — boost ב-RRF (האחזור).
4. **תיקון-חוזה-קליטה** (practice_area) — היגיינת-מקור.
5. **רוויזיית-PR#304** — לבטל cap+novelty (הרסניים). הפאנל/דגלים לכל-היותר סיגנל-דירוג.
6. (נדחה) V41/conformal/הטמעת-קאנון-חסר.