Files
legal-ai/docs/precedent-corpus-redesign/00-final-synthesis.md

5.7 KiB
Raw Blame History

00 — סינתזה סופית — קורפוס-הפסיקה

מאחדת 0105 + מבחן-האמת על 8508-03-24 להחלטת-ארכיטקטורה. אילוץ-העל: אפס-ביקורת-אנושית. גרסה זו מזוקקת אחרי שהמבחן הפריך הנחה מרכזית (ראה §2).

1. שתי רמות — לא לבלבל

רמה A — אילו עקרונות לשמור מהחלטה נתונה   → ניקוי-רעש + dedup (לא cap, לא "רק-חדש")
רמה B — אילו עקרונות לצוף באחזור לכתיבה    → importance ranking (קאנון/ציטוט)

2. ⚠️ מבחן-האמת ששינה את ההחלטה (8508-03-24) — שתי הרצות

תיק היטל-השבחה (יו"ר אחר) שמפיק 70 עקרונות. הרצנו שני משטרים על אותם 70:

אגרסיבי (פאנל + cap/novelty):   70 → 3    ✗ אודיט-אובדן: ~22 עקרונות אמיתיים אבדו,
                                              כולל הלכת לוסטרניק (ליבת חישוב היטל-השבחה!),
                                              קשר-סיבתי, סף-פוטנציאל, כל המסד הפרוצדורלי (14/נטלים/ריבית)
מזוקק ("שמור-בספק", רעש בלבד):  70 → 70   ✓ "כולם בני-ציטוט; אין רעש-אמיתי; זוגות-קרובים
                                              מוסיפים נדבך". כל עקרוני-הליבה נשמרו.
  • השורש לקריסת-האגרסיבי: החילוץ שאל "איזה דין חדש יצרה הוועדה" (~3) — אבל RAG-לכתיבה צריך "אילו עקרונות בני-ציטוט שימושיים" (~כל ה-70), כולל יישומי-דוקטרינה-מוכרת. מסנן "רק-חדש/בלי-יישומים" סינן בדיוק את מה שהכותב צריך.

האסימטריה המכריעה:

לחתוך → סיכון לאבד את הליבה (לוסטרניק), בלתי-הפיך בפועל   ← עלות עצומה
לשמור → עולה כמעט-כלום; הרעש/הכפילויות שוקעים בדירוג        ← עלות אפסית

מסקנה (מחקר + 2 הרצות = משולש-אישוש): לא לחתוך בכלל. "בעיית ה-70" לא היתה בעיית-RAG — אלא בעיית תור-אישור + היעדר-דירוג. מתקנים את שניהם, ו-70 בלתי-מזיקים.

3. ההחלטה (מזוקקת)

עמוד 1 — לא לבנות-מחדש, לא לחתוך הרסני, לא לתחום

שומרים את הקורפוס שלם. אין cap. אין סינון-"רק-חדש". החלטה עשירה = ~22 עקרונות לגיטימית.

עמוד 2 — רמה A: כמעט-כלום במקור (dedup אופציונלי בלבד)

המבחן הראה ש-curator זהיר שומר ~כל ה-70 (כולם בני-ציטוט). לכן במקור: לא מסננים תוכן. הפעולה היחידה המותרת = dedup של כפילויות-קרובות (מיזוג לקנוני אחד, לא מחיקת-עיקרון-מובחן) — ואפילו זה לא קריטי (כפילויות מדורגות-יחד וצורכות אחסון בלבד). הפאנל התלת-מודלי, אם בכלל, ל-dedup

  • ולידציית-עיגון (INV-AH) — לא לחיתוך/תקרה/novelty.

תיקון ל-PR#304: לבטל את HALACHA_PANEL_MAX_NEW (cap) ואת מסנן-ה-novelty בפרומפט-הוועדה — הוכח אמפירית שהם משמידים עקרוני-ליבה (לוסטרניק).

עמוד 3 — רמה B: דירוג-בזמן-אחזור (הלב)

importance כ-boost ב-RRF: קאנון-ידני[max, מיידי] · תדירות-ציטוט-מדורגת (דפנה≫יו"ר-אחר≫כללי) · יומון · סמכות · overruled. רעש/החלטות-שוליות שוקעים; שום עיקרון לא נמחק. (8508 importance=0 → 70 עקרונותיו שוקעים ממילא — אבל לוסטרניק נשמר אם כותב יחפש סיבתיות-בהיטל.)

עמוד 4 — אפס-ביקורת

אין תור-pending_review. עקרונות לא-מאושרים מדורגים-לפי-איכות ולא צצים. active-learning מציטוטי-דפנה. שער-conformal זמין אם יידרש ערבון; ברירת-מחדל אוטו-מלא.

עמוד 5 — V41 canonical: לעקוף

100% תקוע + בנוי-על-אישור → האחזור מדרג ישירות על halachot. V41 נדחה (הפיך).

4. תיקוני-תשתית (תנאי-מקדים)

  • חוזה-קליטה חיצוני: 87% בלי practice_area → חילוץ-אוטומטי/searchable=false (G1).
  • לצופף גרף-ציטוטים: citator על כל 363 (לא רק 42 של דפנה).
  • להטמיע פסיקת-קאנון-חסרה (חוף-השרון, הרמלין) דרך X13.

5. מה השתנה מהזמנית (בעקבות 8508)

היה (זמנית) עכשיו (מזוקק)
רמה A = פאנל + cap-5 רמה A = ניקוי-רעש + dedup בלבד, ללא cap/novelty
"8508 עתידי → ≤5" "8508 עתידי → ~22 עקרונות אמיתיים, פחות 16 רעש"
PR#304 regime נשאר כמו-שהוא PR#304 regime זקוק לרוויזיה (לבטל cap+novelty)

6. תוכנית-ביצוע (סדר)

  1. תיקון-חוזה-קליטה (practice_area) — עוצר דימום.
  2. רוויזיית-רמה-A: dedup+noise-only (ביטול cap/novelty ב-extractor).
  3. רמה-B: importance מ-קאנון+ציטוט → boost ב-RRF (האחזור).
  4. צפיפות-גרף (citator על כל 363) + הטמעת-קאנון-חסר.
  5. (נדחה) V41/conformal אם יידרש.