docs(principles): final synthesis — keep-all+rank-at-retrieval; 8508 test killed cap/novelty (lost Lustrenik) (#153)
8508-03-24 test: panel+cap cut 70→3, losing ~22 genuine principles incl. the core Lustrenik betterment rule. Lesson: cap + novelty-filter is destructive for RAG (which needs applied doctrine). Quality-at-source = dedup+noise-only, no cap. PR#304 regime flagged for revision. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
64
docs/precedent-corpus-redesign/00-final-synthesis.md
Normal file
64
docs/precedent-corpus-redesign/00-final-synthesis.md
Normal file
@@ -0,0 +1,64 @@
|
||||
# 00 — סינתזה סופית — קורפוס-הפסיקה
|
||||
|
||||
> מאחדת 01–05 + **מבחן-האמת על 8508-03-24** להחלטת-ארכיטקטורה. אילוץ-העל: **אפס-ביקורת-אנושית**.
|
||||
> גרסה זו מזוקקת אחרי שהמבחן הפריך הנחה מרכזית (ראה §2).
|
||||
|
||||
## 1. שתי רמות — לא לבלבל
|
||||
```text
|
||||
רמה A — אילו עקרונות לשמור מהחלטה נתונה → ניקוי-רעש + dedup (לא cap, לא "רק-חדש")
|
||||
רמה B — אילו עקרונות לצוף באחזור לכתיבה → importance ranking (קאנון/ציטוט)
|
||||
```
|
||||
|
||||
## 2. ⚠️ מבחן-האמת ששינה את ההחלטה (8508-03-24)
|
||||
תיק היטל-השבחה (יו"ר אחר) שמפיק 70 עקרונות. הרצנו עליו את משטר-החילוץ-החדש (פאנל + cap):
|
||||
- **70 → 3.** ואז **אודיט-אובדן יריב:** **~22 עקרונות אמיתיים ונבדלים אבדו** (רק 16 מה-70 היו רעש).
|
||||
- האבודים כללו את **הלכת לוסטרניק** (עיקרון-הליבה של חישוב היטל-השבחה!), קשר-סיבתי, סף-פוטנציאל,
|
||||
וכל המסד הפרוצדורלי (מסלולי 14, נטלים, השתק, ריבית).
|
||||
- **השורש:** החילוץ שאל "איזה דין *חדש* יצרה הוועדה" (~3) — אבל RAG-לכתיבה צריך "אילו עקרונות
|
||||
*בני-ציטוט שימושיים*" (~22), **כולל יישומי-דוקטרינה-מוכרת**. המסנן "רק-חדש/בלי-יישומים" סינן בדיוק
|
||||
את מה שהכותב צריך.
|
||||
|
||||
**מסקנה אמפירית:** cap + סינון-novelty = **הרסני**. מאשש את אזהרת-המחקר: חיתוך-מבוסס-ציון מאבד הלכות.
|
||||
|
||||
## 3. ההחלטה (מזוקקת)
|
||||
|
||||
### עמוד 1 — לא לבנות-מחדש, לא לחתוך הרסני, **לא לתחום**
|
||||
שומרים את הקורפוס שלם. **אין cap. אין סינון-"רק-חדש".** החלטה עשירה = ~22 עקרונות לגיטימית.
|
||||
|
||||
### עמוד 2 — רמה A: "איכות-במקור" = ניקוי-רעש + dedup בלבד
|
||||
המשטר היחיד שמותר במקור: **להסיר רעש-אמיתי** (כפילות, ציטוט-קטוע, אמרת-אגב מפורשת, תיאור-עובדות-ללא-כלל)
|
||||
**ולמזג כפילויות**. **לשמור כל עיקרון בר-ציטוט מובחן — כולל יישומי-דוקטרינה.** הפאנל התלת-מודלי
|
||||
משמש ל-dedup/זיהוי-רעש, **לא** לחיתוך-לכמות.
|
||||
> **תיקון ל-PR#304:** לבטל את `HALACHA_PANEL_MAX_NEW` (cap) ואת מסנן-ה-novelty בפרומפט-הוועדה.
|
||||
> משטר-הפאנל נשאר ל-dedup + ולידציית-עיגון (INV-AH), לא לתקרה.
|
||||
|
||||
### עמוד 3 — רמה B: דירוג-בזמן-אחזור (הלב)
|
||||
`importance` כ-boost ב-RRF: קאנון-ידני[max, מיידי] · תדירות-ציטוט-מדורגת (דפנה≫יו"ר-אחר≫כללי) ·
|
||||
יומון · סמכות · −overruled. **רעש/החלטות-שוליות שוקעים; שום עיקרון לא נמחק.** (8508 importance=0 →
|
||||
70 עקרונותיו שוקעים ממילא — אבל לוסטרניק *נשמר* אם כותב יחפש סיבתיות-בהיטל.)
|
||||
|
||||
### עמוד 4 — אפס-ביקורת
|
||||
אין תור-`pending_review`. עקרונות לא-מאושרים מדורגים-לפי-איכות ולא צצים. active-learning מציטוטי-דפנה.
|
||||
שער-conformal זמין אם יידרש ערבון; ברירת-מחדל אוטו-מלא.
|
||||
|
||||
### עמוד 5 — V41 canonical: לעקוף
|
||||
100% תקוע + בנוי-על-אישור → האחזור מדרג ישירות על `halachot`. V41 נדחה (הפיך).
|
||||
|
||||
## 4. תיקוני-תשתית (תנאי-מקדים)
|
||||
- חוזה-קליטה חיצוני: 87% בלי practice_area → חילוץ-אוטומטי/`searchable=false` (G1).
|
||||
- לצופף גרף-ציטוטים: citator על כל 363 (לא רק 42 של דפנה).
|
||||
- להטמיע פסיקת-קאנון-חסרה (חוף-השרון, הרמלין) דרך X13.
|
||||
|
||||
## 5. מה השתנה מהזמנית (בעקבות 8508)
|
||||
| היה (זמנית) | עכשיו (מזוקק) |
|
||||
|---|---|
|
||||
| רמה A = פאנל + **cap-5** | רמה A = **ניקוי-רעש + dedup בלבד, ללא cap/novelty** |
|
||||
| "8508 עתידי → ≤5" | "8508 עתידי → ~22 עקרונות אמיתיים, פחות 16 רעש" |
|
||||
| PR#304 regime נשאר כמו-שהוא | **PR#304 regime זקוק לרוויזיה** (לבטל cap+novelty) |
|
||||
|
||||
## 6. תוכנית-ביצוע (סדר)
|
||||
1. תיקון-חוזה-קליטה (practice_area) — עוצר דימום.
|
||||
2. רוויזיית-רמה-A: dedup+noise-only (ביטול cap/novelty ב-extractor).
|
||||
3. רמה-B: importance מ-קאנון+ציטוט → boost ב-RRF (האחזור).
|
||||
4. צפיפות-גרף (citator על כל 363) + הטמעת-קאנון-חסר.
|
||||
5. (נדחה) V41/conformal אם יידרש.
|
||||
Reference in New Issue
Block a user