From 0f7549a137025d957434c3cb3bfab80ebfc17472 Mon Sep 17 00:00:00 2001 From: Chaim Date: Sat, 20 Jun 2026 12:36:42 +0000 Subject: [PATCH] =?UTF-8?q?docs(principles):=20final=20synthesis=20?= =?UTF-8?q?=E2=80=94=20keep-all+rank-at-retrieval;=208508=20test=20killed?= =?UTF-8?q?=20cap/novelty=20(lost=20Lustrenik)=20(#153)?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit 8508-03-24 test: panel+cap cut 70→3, losing ~22 genuine principles incl. the core Lustrenik betterment rule. Lesson: cap + novelty-filter is destructive for RAG (which needs applied doctrine). Quality-at-source = dedup+noise-only, no cap. PR#304 regime flagged for revision. Co-Authored-By: Claude Opus 4.8 (1M context) --- .../00-final-synthesis-INTERIM.md | 65 ------------------- .../00-final-synthesis.md | 64 ++++++++++++++++++ docs/precedent-corpus-redesign/00-index.md | 2 +- 3 files changed, 65 insertions(+), 66 deletions(-) delete mode 100644 docs/precedent-corpus-redesign/00-final-synthesis-INTERIM.md create mode 100644 docs/precedent-corpus-redesign/00-final-synthesis.md diff --git a/docs/precedent-corpus-redesign/00-final-synthesis-INTERIM.md b/docs/precedent-corpus-redesign/00-final-synthesis-INTERIM.md deleted file mode 100644 index 0572e37..0000000 --- a/docs/precedent-corpus-redesign/00-final-synthesis-INTERIM.md +++ /dev/null @@ -1,65 +0,0 @@ -# 00 — סינתזה (זמנית / INTERIM) — קורפוס-הפסיקה - -> **זמנית.** מאחדת את קלטי 01–05 להחלטת-ארכיטקטורה ראשונה, לבדיקה על תיק-אמת לפני נעילה. -> אילוץ-העל: **אפס-ביקורת-אנושית**. שאלת-העל: לבנות-מחדש או לתקן. - -## העיקרון המכריע — שתי רמות נפרדות -מקור-הבלבול הוא ערבוב של שתי שאלות שונות: - -```text -רמה A — "אילו עקרונות לשמור מתוך החלטה נתונה" → quality-at-source (פאנל) + cap -רמה B — "אילו עקרונות לצוף באחזור לכתיבה" → importance ranking (ציטוט/קאנון) -``` -8508-03-24 מפיק 70 עקרונות = בעיית **רמה A** (חילוץ-יתר). איזה תקדים לצטט בבלוק-דיון = **רמה B**. -**שתי הרמות נפתרות בכלים שונים — וזה לב הסינתזה.** - -## ההחלטה (5 עמודים) - -### 1. אל תבנה-מחדש את הסכמה · אל תחתוך הרסני -01 מוכיח שהסכמה תקינה; 02/03 (מחקר) מוכיח שגיזום-holding מבוסס-ציון-פרשני הוא **בדיוק** המקום -שהאוטומציה נכשלת (citators מסחריים טועים 1/3–2/3). → **שומרים את הקורפוס שלם והפיך.** - -### 2. רמה A — תיקון-במקור (going-forward), לא ניקוי-רטרואקטיבי הרסני -משטר-החילוץ התלת-מודלי + cap (PR#304, [legal-principles-redesign §3](legal-principles-redesign.md)) -**מונע** חילוץ-יתר חדש: החלטת-ועדה → ≤5 כללים-פרשניים חדשים; פס"ד → ≤5 הלכות. **8508 עתידי = ≤5, לא 70.** -לקורפוס-הקיים: **לא מוחקים** — מסמנים `quality_tier` (ציון-פאנל לא-הרסני) שמשמש לרמה B. - -### 3. רמה B — דירוג-בזמן-אחזור (הלב החדש) -`importance` מוזרק כ-boost ב-RRF ([03-retrieval](spec-X11-citation-corroboration.md) → RRF): -```text -importance(עיקרון) = f( קאנון-ידני[max, מיידי] ← 04, ground-truth - , תדירות-ציטוט-מדורגת ← דפנה≫יו"ר-אחר≫כללי - , יומון ← X12 - , סמכות(עליון/מחוזי/ועדה) - , −penalty(overruled) ) - × quality_tier(פאנל) ← רמה A, לא-הרסני -``` -**רעש שוקע ולא צץ; שום הלכה לא אובדת.** הרלוונטיות-להקשר נקבעת בזמן-שאילתה (ICAIL 2021), לא ב-cull. - -### 4. אפס-ביקורת -אין תור-`pending_review`. עקרונות לא-מאושרים פשוט **מדורגים-לפי-איכות** ולא צצים — לא צריך לאשר אותם. -שער-conformal (SCRC) זמין אם אי-פעם נרצה ערבון-חסם, אבל **ברירת-המחדל = אוטו-מלא**. -**Active-learning:** ציטוטי-דפנה החדשים מעדכנים את ה-importance אוטומטית (job רענון). - -### 5. V41 canonical — לעקוף (לא לתקן עכשיו) -05 מראה ש-V41 **100% תקוע** (כל 5,472 ב-pending_synthesis) ובנוי-על-אישור-יו"ר → מתנגש עם אפס-ביקורת. -→ **האחזור מדרג ישירות על `halachot`** (לא תלוי בקנוני). V41 נשאר אופציונלי/נדחה; הסינתזה-שלו (PR#304) -לא מופעלת במסה. (החלטה הפיכה — אפשר להחיות מאוחר עם שער-conformal.) - -## תיקוני-תשתית (תנאי-מקדים, רמה A במקור) -- **חוזה-קליטה חיצוני:** 87% בלי practice_area → אכיפה/חילוץ-אוטומטי ב-`precedent_library_upload` - (תיקון-במקור, G1). cited_only stubs נשארים (לא שבורים). -- **לצופף את גרף-הציטוטים:** להריץ citator (X11) על כל 363 (לא רק 42 של דפנה) → PageRank משמעותי. -- **להטמיע פסיקת-קאנון-חסרה** (חוף-השרון, הרמלין) דרך X13. - -## איך 8508-03-24 נראה אחרי הסינתזה (הצפי, לבדיקה למטה) -- **רמה A (going-forward):** ריצה-מחדש דרך הפאנל → 70 → ≤5 כללים-פרשניים. -- **רמה B (קיים):** 8508 = החלטת-ועדה של יו"ר-אחר, **0 ציטוטים נכנסים, לא בקאנון** → importance≈רצפה → - 70 העקרונות **שוקעים** באחזור ולא מזהמים את הכתיבה, **בלי למחוק ובלי לאשר**. -- **הלקח הצפוי:** הבעיה נפתרת בשני הכלים — cap-במקור (להבא) + שקיעה-בדירוג (קיים) — ו**אין צורך לגעת - ב-70 ידנית**. - -## פתוח לנעילה (אחרי הבדיקה) -- משקלי-ה-importance (קאנון מול ציטוט מול סמכות) — כיול מול הקאנון. -- האם לצופף-גרף עכשיו או להישען על קאנון+דפנה בשלב-ראשון. -- האם להפוך את הקאנון לטבלה מובנית (04 §5א). diff --git a/docs/precedent-corpus-redesign/00-final-synthesis.md b/docs/precedent-corpus-redesign/00-final-synthesis.md new file mode 100644 index 0000000..5727c17 --- /dev/null +++ b/docs/precedent-corpus-redesign/00-final-synthesis.md @@ -0,0 +1,64 @@ +# 00 — סינתזה סופית — קורפוס-הפסיקה + +> מאחדת 01–05 + **מבחן-האמת על 8508-03-24** להחלטת-ארכיטקטורה. אילוץ-העל: **אפס-ביקורת-אנושית**. +> גרסה זו מזוקקת אחרי שהמבחן הפריך הנחה מרכזית (ראה §2). + +## 1. שתי רמות — לא לבלבל +```text +רמה A — אילו עקרונות לשמור מהחלטה נתונה → ניקוי-רעש + dedup (לא cap, לא "רק-חדש") +רמה B — אילו עקרונות לצוף באחזור לכתיבה → importance ranking (קאנון/ציטוט) +``` + +## 2. ⚠️ מבחן-האמת ששינה את ההחלטה (8508-03-24) +תיק היטל-השבחה (יו"ר אחר) שמפיק 70 עקרונות. הרצנו עליו את משטר-החילוץ-החדש (פאנל + cap): +- **70 → 3.** ואז **אודיט-אובדן יריב:** **~22 עקרונות אמיתיים ונבדלים אבדו** (רק 16 מה-70 היו רעש). +- האבודים כללו את **הלכת לוסטרניק** (עיקרון-הליבה של חישוב היטל-השבחה!), קשר-סיבתי, סף-פוטנציאל, + וכל המסד הפרוצדורלי (מסלולי 14, נטלים, השתק, ריבית). +- **השורש:** החילוץ שאל "איזה דין *חדש* יצרה הוועדה" (~3) — אבל RAG-לכתיבה צריך "אילו עקרונות + *בני-ציטוט שימושיים*" (~22), **כולל יישומי-דוקטרינה-מוכרת**. המסנן "רק-חדש/בלי-יישומים" סינן בדיוק + את מה שהכותב צריך. + +**מסקנה אמפירית:** cap + סינון-novelty = **הרסני**. מאשש את אזהרת-המחקר: חיתוך-מבוסס-ציון מאבד הלכות. + +## 3. ההחלטה (מזוקקת) + +### עמוד 1 — לא לבנות-מחדש, לא לחתוך הרסני, **לא לתחום** +שומרים את הקורפוס שלם. **אין cap. אין סינון-"רק-חדש".** החלטה עשירה = ~22 עקרונות לגיטימית. + +### עמוד 2 — רמה A: "איכות-במקור" = ניקוי-רעש + dedup בלבד +המשטר היחיד שמותר במקור: **להסיר רעש-אמיתי** (כפילות, ציטוט-קטוע, אמרת-אגב מפורשת, תיאור-עובדות-ללא-כלל) +**ולמזג כפילויות**. **לשמור כל עיקרון בר-ציטוט מובחן — כולל יישומי-דוקטרינה.** הפאנל התלת-מודלי +משמש ל-dedup/זיהוי-רעש, **לא** לחיתוך-לכמות. +> **תיקון ל-PR#304:** לבטל את `HALACHA_PANEL_MAX_NEW` (cap) ואת מסנן-ה-novelty בפרומפט-הוועדה. +> משטר-הפאנל נשאר ל-dedup + ולידציית-עיגון (INV-AH), לא לתקרה. + +### עמוד 3 — רמה B: דירוג-בזמן-אחזור (הלב) +`importance` כ-boost ב-RRF: קאנון-ידני[max, מיידי] · תדירות-ציטוט-מדורגת (דפנה≫יו"ר-אחר≫כללי) · +יומון · סמכות · −overruled. **רעש/החלטות-שוליות שוקעים; שום עיקרון לא נמחק.** (8508 importance=0 → +70 עקרונותיו שוקעים ממילא — אבל לוסטרניק *נשמר* אם כותב יחפש סיבתיות-בהיטל.) + +### עמוד 4 — אפס-ביקורת +אין תור-`pending_review`. עקרונות לא-מאושרים מדורגים-לפי-איכות ולא צצים. active-learning מציטוטי-דפנה. +שער-conformal זמין אם יידרש ערבון; ברירת-מחדל אוטו-מלא. + +### עמוד 5 — V41 canonical: לעקוף +100% תקוע + בנוי-על-אישור → האחזור מדרג ישירות על `halachot`. V41 נדחה (הפיך). + +## 4. תיקוני-תשתית (תנאי-מקדים) +- חוזה-קליטה חיצוני: 87% בלי practice_area → חילוץ-אוטומטי/`searchable=false` (G1). +- לצופף גרף-ציטוטים: citator על כל 363 (לא רק 42 של דפנה). +- להטמיע פסיקת-קאנון-חסרה (חוף-השרון, הרמלין) דרך X13. + +## 5. מה השתנה מהזמנית (בעקבות 8508) +| היה (זמנית) | עכשיו (מזוקק) | +|---|---| +| רמה A = פאנל + **cap-5** | רמה A = **ניקוי-רעש + dedup בלבד, ללא cap/novelty** | +| "8508 עתידי → ≤5" | "8508 עתידי → ~22 עקרונות אמיתיים, פחות 16 רעש" | +| PR#304 regime נשאר כמו-שהוא | **PR#304 regime זקוק לרוויזיה** (לבטל cap+novelty) | + +## 6. תוכנית-ביצוע (סדר) +1. תיקון-חוזה-קליטה (practice_area) — עוצר דימום. +2. רוויזיית-רמה-A: dedup+noise-only (ביטול cap/novelty ב-extractor). +3. רמה-B: importance מ-קאנון+ציטוט → boost ב-RRF (האחזור). +4. צפיפות-גרף (citator על כל 363) + הטמעת-קאנון-חסר. +5. (נדחה) V41/conformal אם יידרש. diff --git a/docs/precedent-corpus-redesign/00-index.md b/docs/precedent-corpus-redesign/00-index.md index f3667e4..7d8d210 100644 --- a/docs/precedent-corpus-redesign/00-index.md +++ b/docs/precedent-corpus-redesign/00-index.md @@ -20,7 +20,7 @@ | 04 | [daphna-canon-as-importance-ground-truth](04-daphna-canon-as-importance-ground-truth.md) | **הקאנון-הידני כ-ground-truth** — מתואם עם תדירות-הציטוט (מאמת הפרוקסי), חושף פערי-קורפוס, 4 שימושים ל-RAG. | Claude | | 05 | [ingest-contract-and-citation-graph-gaps](05-ingest-contract-and-citation-graph-gaps.md) | **3 מחוללי-הכאב במספרים חיים** — 87% מהחיצוני בלי practice_area; גרף-ציטוטים ריק; V41 100% תקוע (מתנגש עם אפס-ביקורת). | Claude | -> **כל הקלטים (01–05) מוכנים.** הצעד הבא: `00-final-synthesis.md` שמאחד להחלטה + תוכנית-ביצוע. +> **הסינתזה הסופית:** [`00-final-synthesis.md`](00-final-synthesis.md) — מאחדת 01–05 + מבחן-8508. החלטה: שמור-הכל + דרג-בזמן-אחזור; רמה-A=ניקוי-רעש+dedup בלבד (ללא cap/novelty). ---