Files
legal-ai/docs/precedent-corpus-redesign/00-final-synthesis.md
Chaim 0f7549a137 docs(principles): final synthesis — keep-all+rank-at-retrieval; 8508 test killed cap/novelty (lost Lustrenik) (#153)
8508-03-24 test: panel+cap cut 70→3, losing ~22 genuine principles incl. the
core Lustrenik betterment rule. Lesson: cap + novelty-filter is destructive for
RAG (which needs applied doctrine). Quality-at-source = dedup+noise-only, no cap.
PR#304 regime flagged for revision.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-20 12:36:42 +00:00

65 lines
4.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 00 — סינתזה סופית — קורפוס-הפסיקה
> מאחדת 0105 + **מבחן-האמת על 8508-03-24** להחלטת-ארכיטקטורה. אילוץ-העל: **אפס-ביקורת-אנושית**.
> גרסה זו מזוקקת אחרי שהמבחן הפריך הנחה מרכזית (ראה §2).
## 1. שתי רמות — לא לבלבל
```text
רמה A — אילו עקרונות לשמור מהחלטה נתונה → ניקוי-רעש + dedup (לא cap, לא "רק-חדש")
רמה B — אילו עקרונות לצוף באחזור לכתיבה → importance ranking (קאנון/ציטוט)
```
## 2. ⚠️ מבחן-האמת ששינה את ההחלטה (8508-03-24)
תיק היטל-השבחה (יו"ר אחר) שמפיק 70 עקרונות. הרצנו עליו את משטר-החילוץ-החדש (פאנל + cap):
- **70 → 3.** ואז **אודיט-אובדן יריב:** **~22 עקרונות אמיתיים ונבדלים אבדו** (רק 16 מה-70 היו רעש).
- האבודים כללו את **הלכת לוסטרניק** (עיקרון-הליבה של חישוב היטל-השבחה!), קשר-סיבתי, סף-פוטנציאל,
וכל המסד הפרוצדורלי (מסלולי 14, נטלים, השתק, ריבית).
- **השורש:** החילוץ שאל "איזה דין *חדש* יצרה הוועדה" (~3) — אבל RAG-לכתיבה צריך "אילו עקרונות
*בני-ציטוט שימושיים*" (~22), **כולל יישומי-דוקטרינה-מוכרת**. המסנן "רק-חדש/בלי-יישומים" סינן בדיוק
את מה שהכותב צריך.
**מסקנה אמפירית:** cap + סינון-novelty = **הרסני**. מאשש את אזהרת-המחקר: חיתוך-מבוסס-ציון מאבד הלכות.
## 3. ההחלטה (מזוקקת)
### עמוד 1 — לא לבנות-מחדש, לא לחתוך הרסני, **לא לתחום**
שומרים את הקורפוס שלם. **אין cap. אין סינון-"רק-חדש".** החלטה עשירה = ~22 עקרונות לגיטימית.
### עמוד 2 — רמה A: "איכות-במקור" = ניקוי-רעש + dedup בלבד
המשטר היחיד שמותר במקור: **להסיר רעש-אמיתי** (כפילות, ציטוט-קטוע, אמרת-אגב מפורשת, תיאור-עובדות-ללא-כלל)
**ולמזג כפילויות**. **לשמור כל עיקרון בר-ציטוט מובחן — כולל יישומי-דוקטרינה.** הפאנל התלת-מודלי
משמש ל-dedup/זיהוי-רעש, **לא** לחיתוך-לכמות.
> **תיקון ל-PR#304:** לבטל את `HALACHA_PANEL_MAX_NEW` (cap) ואת מסנן-ה-novelty בפרומפט-הוועדה.
> משטר-הפאנל נשאר ל-dedup + ולידציית-עיגון (INV-AH), לא לתקרה.
### עמוד 3 — רמה B: דירוג-בזמן-אחזור (הלב)
`importance` כ-boost ב-RRF: קאנון-ידני[max, מיידי] · תדירות-ציטוט-מדורגת (דפנה≫יו"ר-אחר≫כללי) ·
יומון · סמכות · overruled. **רעש/החלטות-שוליות שוקעים; שום עיקרון לא נמחק.** (8508 importance=0 →
70 עקרונותיו שוקעים ממילא — אבל לוסטרניק *נשמר* אם כותב יחפש סיבתיות-בהיטל.)
### עמוד 4 — אפס-ביקורת
אין תור-`pending_review`. עקרונות לא-מאושרים מדורגים-לפי-איכות ולא צצים. active-learning מציטוטי-דפנה.
שער-conformal זמין אם יידרש ערבון; ברירת-מחדל אוטו-מלא.
### עמוד 5 — V41 canonical: לעקוף
100% תקוע + בנוי-על-אישור → האחזור מדרג ישירות על `halachot`. V41 נדחה (הפיך).
## 4. תיקוני-תשתית (תנאי-מקדים)
- חוזה-קליטה חיצוני: 87% בלי practice_area → חילוץ-אוטומטי/`searchable=false` (G1).
- לצופף גרף-ציטוטים: citator על כל 363 (לא רק 42 של דפנה).
- להטמיע פסיקת-קאנון-חסרה (חוף-השרון, הרמלין) דרך X13.
## 5. מה השתנה מהזמנית (בעקבות 8508)
| היה (זמנית) | עכשיו (מזוקק) |
|---|---|
| רמה A = פאנל + **cap-5** | רמה A = **ניקוי-רעש + dedup בלבד, ללא cap/novelty** |
| "8508 עתידי → ≤5" | "8508 עתידי → ~22 עקרונות אמיתיים, פחות 16 רעש" |
| PR#304 regime נשאר כמו-שהוא | **PR#304 regime זקוק לרוויזיה** (לבטל cap+novelty) |
## 6. תוכנית-ביצוע (סדר)
1. תיקון-חוזה-קליטה (practice_area) — עוצר דימום.
2. רוויזיית-רמה-A: dedup+noise-only (ביטול cap/novelty ב-extractor).
3. רמה-B: importance מ-קאנון+ציטוט → boost ב-RRF (האחזור).
4. צפיפות-גרף (citator על כל 363) + הטמעת-קאנון-חסר.
5. (נדחה) V41/conformal אם יידרש.