docs(principles): final synthesis — keep-all+rank-at-retrieval; 8508 test killed cap/novelty (lost Lustrenik) (#153)

8508-03-24 test: panel+cap cut 70→3, losing ~22 genuine principles incl. the
core Lustrenik betterment rule. Lesson: cap + novelty-filter is destructive for
RAG (which needs applied doctrine). Quality-at-source = dedup+noise-only, no cap.
PR#304 regime flagged for revision.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-06-20 12:36:42 +00:00
parent ee5e5b5613
commit 0f7549a137
3 changed files with 65 additions and 66 deletions

View File

@@ -1,65 +0,0 @@
# 00 — סינתזה (זמנית / INTERIM) — קורפוס-הפסיקה
> **זמנית.** מאחדת את קלטי 0105 להחלטת-ארכיטקטורה ראשונה, לבדיקה על תיק-אמת לפני נעילה.
> אילוץ-העל: **אפס-ביקורת-אנושית**. שאלת-העל: לבנות-מחדש או לתקן.
## העיקרון המכריע — שתי רמות נפרדות
מקור-הבלבול הוא ערבוב של שתי שאלות שונות:
```text
רמה A — "אילו עקרונות לשמור מתוך החלטה נתונה" → quality-at-source (פאנל) + cap
רמה B — "אילו עקרונות לצוף באחזור לכתיבה" → importance ranking (ציטוט/קאנון)
```
8508-03-24 מפיק 70 עקרונות = בעיית **רמה A** (חילוץ-יתר). איזה תקדים לצטט בבלוק-דיון = **רמה B**.
**שתי הרמות נפתרות בכלים שונים — וזה לב הסינתזה.**
## ההחלטה (5 עמודים)
### 1. אל תבנה-מחדש את הסכמה · אל תחתוך הרסני
01 מוכיח שהסכמה תקינה; 02/03 (מחקר) מוכיח שגיזום-holding מבוסס-ציון-פרשני הוא **בדיוק** המקום
שהאוטומציה נכשלת (citators מסחריים טועים 1/32/3). → **שומרים את הקורפוס שלם והפיך.**
### 2. רמה A — תיקון-במקור (going-forward), לא ניקוי-רטרואקטיבי הרסני
משטר-החילוץ התלת-מודלי + cap (PR#304, [legal-principles-redesign §3](legal-principles-redesign.md))
**מונע** חילוץ-יתר חדש: החלטת-ועדה → ≤5 כללים-פרשניים חדשים; פס"ד → ≤5 הלכות. **8508 עתידי = ≤5, לא 70.**
לקורפוס-הקיים: **לא מוחקים** — מסמנים `quality_tier` (ציון-פאנל לא-הרסני) שמשמש לרמה B.
### 3. רמה B — דירוג-בזמן-אחזור (הלב החדש)
`importance` מוזרק כ-boost ב-RRF ([03-retrieval](spec-X11-citation-corroboration.md) → RRF):
```text
importance(עיקרון) = f( קאנון-ידני[max, מיידי] ← 04, ground-truth
, תדירות-ציטוט-מדורגת ← דפנה≫יו"ר-אחר≫כללי
, יומון ← X12
, סמכות(עליון/מחוזי/ועדה)
, penalty(overruled) )
× quality_tier(פאנל) ← רמה A, לא-הרסני
```
**רעש שוקע ולא צץ; שום הלכה לא אובדת.** הרלוונטיות-להקשר נקבעת בזמן-שאילתה (ICAIL 2021), לא ב-cull.
### 4. אפס-ביקורת
אין תור-`pending_review`. עקרונות לא-מאושרים פשוט **מדורגים-לפי-איכות** ולא צצים — לא צריך לאשר אותם.
שער-conformal (SCRC) זמין אם אי-פעם נרצה ערבון-חסם, אבל **ברירת-המחדל = אוטו-מלא**.
**Active-learning:** ציטוטי-דפנה החדשים מעדכנים את ה-importance אוטומטית (job רענון).
### 5. V41 canonical — לעקוף (לא לתקן עכשיו)
05 מראה ש-V41 **100% תקוע** (כל 5,472 ב-pending_synthesis) ובנוי-על-אישור-יו"ר → מתנגש עם אפס-ביקורת.
**האחזור מדרג ישירות על `halachot`** (לא תלוי בקנוני). V41 נשאר אופציונלי/נדחה; הסינתזה-שלו (PR#304)
לא מופעלת במסה. (החלטה הפיכה — אפשר להחיות מאוחר עם שער-conformal.)
## תיקוני-תשתית (תנאי-מקדים, רמה A במקור)
- **חוזה-קליטה חיצוני:** 87% בלי practice_area → אכיפה/חילוץ-אוטומטי ב-`precedent_library_upload`
(תיקון-במקור, G1). cited_only stubs נשארים (לא שבורים).
- **לצופף את גרף-הציטוטים:** להריץ citator (X11) על כל 363 (לא רק 42 של דפנה) → PageRank משמעותי.
- **להטמיע פסיקת-קאנון-חסרה** (חוף-השרון, הרמלין) דרך X13.
## איך 8508-03-24 נראה אחרי הסינתזה (הצפי, לבדיקה למטה)
- **רמה A (going-forward):** ריצה-מחדש דרך הפאנל → 70 → ≤5 כללים-פרשניים.
- **רמה B (קיים):** 8508 = החלטת-ועדה של יו"ר-אחר, **0 ציטוטים נכנסים, לא בקאנון** → importance≈רצפה →
70 העקרונות **שוקעים** באחזור ולא מזהמים את הכתיבה, **בלי למחוק ובלי לאשר**.
- **הלקח הצפוי:** הבעיה נפתרת בשני הכלים — cap-במקור (להבא) + שקיעה-בדירוג (קיים) — ו**אין צורך לגעת
ב-70 ידנית**.
## פתוח לנעילה (אחרי הבדיקה)
- משקלי-ה-importance (קאנון מול ציטוט מול סמכות) — כיול מול הקאנון.
- האם לצופף-גרף עכשיו או להישען על קאנון+דפנה בשלב-ראשון.
- האם להפוך את הקאנון לטבלה מובנית (04 §5א).

View File

@@ -0,0 +1,64 @@
# 00 — סינתזה סופית — קורפוס-הפסיקה
> מאחדת 0105 + **מבחן-האמת על 8508-03-24** להחלטת-ארכיטקטורה. אילוץ-העל: **אפס-ביקורת-אנושית**.
> גרסה זו מזוקקת אחרי שהמבחן הפריך הנחה מרכזית (ראה §2).
## 1. שתי רמות — לא לבלבל
```text
רמה A — אילו עקרונות לשמור מהחלטה נתונה → ניקוי-רעש + dedup (לא cap, לא "רק-חדש")
רמה B — אילו עקרונות לצוף באחזור לכתיבה → importance ranking (קאנון/ציטוט)
```
## 2. ⚠️ מבחן-האמת ששינה את ההחלטה (8508-03-24)
תיק היטל-השבחה (יו"ר אחר) שמפיק 70 עקרונות. הרצנו עליו את משטר-החילוץ-החדש (פאנל + cap):
- **70 → 3.** ואז **אודיט-אובדן יריב:** **~22 עקרונות אמיתיים ונבדלים אבדו** (רק 16 מה-70 היו רעש).
- האבודים כללו את **הלכת לוסטרניק** (עיקרון-הליבה של חישוב היטל-השבחה!), קשר-סיבתי, סף-פוטנציאל,
וכל המסד הפרוצדורלי (מסלולי 14, נטלים, השתק, ריבית).
- **השורש:** החילוץ שאל "איזה דין *חדש* יצרה הוועדה" (~3) — אבל RAG-לכתיבה צריך "אילו עקרונות
*בני-ציטוט שימושיים*" (~22), **כולל יישומי-דוקטרינה-מוכרת**. המסנן "רק-חדש/בלי-יישומים" סינן בדיוק
את מה שהכותב צריך.
**מסקנה אמפירית:** cap + סינון-novelty = **הרסני**. מאשש את אזהרת-המחקר: חיתוך-מבוסס-ציון מאבד הלכות.
## 3. ההחלטה (מזוקקת)
### עמוד 1 — לא לבנות-מחדש, לא לחתוך הרסני, **לא לתחום**
שומרים את הקורפוס שלם. **אין cap. אין סינון-"רק-חדש".** החלטה עשירה = ~22 עקרונות לגיטימית.
### עמוד 2 — רמה A: "איכות-במקור" = ניקוי-רעש + dedup בלבד
המשטר היחיד שמותר במקור: **להסיר רעש-אמיתי** (כפילות, ציטוט-קטוע, אמרת-אגב מפורשת, תיאור-עובדות-ללא-כלל)
**ולמזג כפילויות**. **לשמור כל עיקרון בר-ציטוט מובחן — כולל יישומי-דוקטרינה.** הפאנל התלת-מודלי
משמש ל-dedup/זיהוי-רעש, **לא** לחיתוך-לכמות.
> **תיקון ל-PR#304:** לבטל את `HALACHA_PANEL_MAX_NEW` (cap) ואת מסנן-ה-novelty בפרומפט-הוועדה.
> משטר-הפאנל נשאר ל-dedup + ולידציית-עיגון (INV-AH), לא לתקרה.
### עמוד 3 — רמה B: דירוג-בזמן-אחזור (הלב)
`importance` כ-boost ב-RRF: קאנון-ידני[max, מיידי] · תדירות-ציטוט-מדורגת (דפנה≫יו"ר-אחר≫כללי) ·
יומון · סמכות · overruled. **רעש/החלטות-שוליות שוקעים; שום עיקרון לא נמחק.** (8508 importance=0 →
70 עקרונותיו שוקעים ממילא — אבל לוסטרניק *נשמר* אם כותב יחפש סיבתיות-בהיטל.)
### עמוד 4 — אפס-ביקורת
אין תור-`pending_review`. עקרונות לא-מאושרים מדורגים-לפי-איכות ולא צצים. active-learning מציטוטי-דפנה.
שער-conformal זמין אם יידרש ערבון; ברירת-מחדל אוטו-מלא.
### עמוד 5 — V41 canonical: לעקוף
100% תקוע + בנוי-על-אישור → האחזור מדרג ישירות על `halachot`. V41 נדחה (הפיך).
## 4. תיקוני-תשתית (תנאי-מקדים)
- חוזה-קליטה חיצוני: 87% בלי practice_area → חילוץ-אוטומטי/`searchable=false` (G1).
- לצופף גרף-ציטוטים: citator על כל 363 (לא רק 42 של דפנה).
- להטמיע פסיקת-קאנון-חסרה (חוף-השרון, הרמלין) דרך X13.
## 5. מה השתנה מהזמנית (בעקבות 8508)
| היה (זמנית) | עכשיו (מזוקק) |
|---|---|
| רמה A = פאנל + **cap-5** | רמה A = **ניקוי-רעש + dedup בלבד, ללא cap/novelty** |
| "8508 עתידי → ≤5" | "8508 עתידי → ~22 עקרונות אמיתיים, פחות 16 רעש" |
| PR#304 regime נשאר כמו-שהוא | **PR#304 regime זקוק לרוויזיה** (לבטל cap+novelty) |
## 6. תוכנית-ביצוע (סדר)
1. תיקון-חוזה-קליטה (practice_area) — עוצר דימום.
2. רוויזיית-רמה-A: dedup+noise-only (ביטול cap/novelty ב-extractor).
3. רמה-B: importance מ-קאנון+ציטוט → boost ב-RRF (האחזור).
4. צפיפות-גרף (citator על כל 363) + הטמעת-קאנון-חסר.
5. (נדחה) V41/conformal אם יידרש.

View File

@@ -20,7 +20,7 @@
| 04 | [daphna-canon-as-importance-ground-truth](04-daphna-canon-as-importance-ground-truth.md) | **הקאנון-הידני כ-ground-truth** — מתואם עם תדירות-הציטוט (מאמת הפרוקסי), חושף פערי-קורפוס, 4 שימושים ל-RAG. | Claude |
| 05 | [ingest-contract-and-citation-graph-gaps](05-ingest-contract-and-citation-graph-gaps.md) | **3 מחוללי-הכאב במספרים חיים** — 87% מהחיצוני בלי practice_area; גרף-ציטוטים ריק; V41 100% תקוע (מתנגש עם אפס-ביקורת). | Claude |
> **כל הקלטים (0105) מוכנים.** הצעד הבא: `00-final-synthesis.md` שמאחד להחלטה + תוכנית-ביצוע.
> **הסינתזה הסופית:** [`00-final-synthesis.md`](00-final-synthesis.md) — מאחדת 0105 + מבחן-8508. החלטה: שמור-הכל + דרג-בזמן-אחזור; רמה-A=ניקוי-רעש+dedup בלבד (ללא cap/novelty).
---