Files
legal-ai/docs/precedent-corpus-redesign/00-index.md
Chaim b8471277f8 docs(principles): consolidate corpus-redesign — index + symlinks to all related docs/specs (#153)
00-index.md hub + symlinks (no move, no copy — zero drift, references intact):
daphna-precedent-network, legal-principles-redesign, corpus-graph, corpus-analysis,
halacha-strict-rubric, specs X11/X12/X13.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-20 11:50:13 +00:00

7.2 KiB
Raw Blame History

אינדקס: עיצוב-מחדש קורפוס-הפסיקה — כל החומר במקום אחד

שער-הכניסה היחיד ליוזמת עיצוב-מחדש קורפוס-הפסיקה. מרכז את כל הקלטים — אלה שבתיקייה ואלה החיצוניים (לא הוזזו כדי לא לשבור 10+ קישורים מסוכנים/ספים/קוד; מקושרים מכאן). היעד: מ-0005 → סינתזה סופית אחת (00-final-synthesis כשנגיע) → תוכנית-ביצוע.

שאלת-העל של חיים: "הקורפוס נבנה לא נכון, אני כל הזמן מתעסק בתיקונים — לבנות מחדש או לתקן?" אילוץ-יסוד: הפתרון אסור שידרוש סקירה/אישור ידני של עשרות-מאות הלכות.


א. קלטי-היוזמה (בתיקייה זו)

# מסמך מה תורם מחבר/מקור
01 architecture-data-audit אבחון-מצב חי: הסכמה תקינה, הכשל בשכבת-הביצוע — חוזה-קליטה רופף (66% בלי practice_area), V41 אינרטי (0 published), כפילות style_corpus. ממליץ "תקן-חוזה ואז re-derive". Claude (סשן אחר)
02 deep-research-importance-recommendation דוח-מחקר + המלצה: אל-תחתוך הרסני; דרג-בזמן-אחזור; אפס-ביקורת דרך conformal. 7 ממצאים מאומתים. מחקר-עומק
03 deep-research-full-output המחקר המלא הגולמי (verbatim, לוגים, 4 הפרכות, 25 מקורות). מחקר-עומק

נותר להוסיף (קלטים-חסרים שזוהו):

  • 04-daphna-canon-as-importance-ground-truth.md — ניתוח הקאנון-הידני (ר' ב') כסיגנל-חשיבות + חיבור ל-RAG.
  • 05-ingest-contract-and-citation-graph-gaps.md — חוזה-קליטה + ריקות-גרף-הציטוטים + V41-אינרטי, במספרים חיים.

ב. הקלט הקריטי החיצוני — מפת-החשיבות הידנית

מסמך מה תורם למה לא הוזז
../daphna-precedent-network.md "הקאנון של דפנה" — מיפוי-ידני (מ-33 החלטות) של התקדים-המועדף שלה לכל סוגיה משפטית. זה בדיוק ה-ground-truth של "חשיבות" שהאוטומציה מנסה לשחזר — וברמת-הסוגיה (הגרנולריות שהמחקר אמר שחסרה). קרוא ע"י סוכני legal-researcher/legal-writer + 8 מסמכים

ג. תשתית-קורפוס קיימת (חיצוני, מקושר)

מסמך / ספ מה תורם
../corpus-graph.md גרף-הציטוטים /graph — PageRank/אשכולות כבר מחושבים (web/graph_metrics.py). אבל הגרף כמעט ריק (ר' ד').
../corpus-analysis.md ניתוח שיטתי של 24 ההחלטות — דפוסי-דיון, פערים.
../legal-principles-redesign.md תכנון משטר-החילוץ התלת-מודלי + תקרת-5 + טרמינולוגיה + סינתזה (PR #304/#305). §8 = שכבת-החשיבות. נשאר תקף ל"חילוץ-להבא"; מה שמשתנה הוא היחס לקורפוס-הקיים.
../halacha-strict-rubric.md 6 עילות-החיתוך של ניקוי-ההלכות (referenced מהקוד).
ספ ../spec/X11-citation-corroboration.md citator פנימי — תיקוף הלכות; ישירות קשור לסיגנל-הציטוט.
ספ ../spec/X12-digests-radar.md יומונים — סיגנל-זהב #2 (headline_holding).
ספ ../spec/X13-court-fetch.md אחזור-פסיקה-אוטומטי — מקור-גידול הקורפוס.
ספ ../spec/02-data-model.md · ../spec/03-retrieval.md INV-DM (חוזה-שלמות) + INV-RET/RRF (נקודת-הזרקת-הדירוג).

case_law (פסקי-דין/החלטות)        363   (240 external · 92 committee · 31 שבורים)
  • 66% (240) בלי practice_area    ← חוזה-קליטה רופף = "התיקונים האינסופיים"
halachot                          5,489 → 25% approved · 44% pending (צוואר ידני)
canonical_halachot (V41)          5,472 → 5,456 singletons · 0 published ⚠️ (אינרטי)

גרף-הציטוטים (קריטי):
  PageRank מחושב                   ✅  web/graph_metrics.py
  ציטוטי-דפנה                       398 (מ-42 החלטות)   ← כמעט כל הסיגנל
  ציטוטי 91 ועדות-אחרות             0   (לא חולצו)
  ציטוטים בין פס"ד-חיצוניים         0   ← אין גרף ביניהם
פיזור תדירות-ציטוט (זנב אמיתי):    7×1 · 6×1 · 4×4 · 3×8 · 2×38 · 1×269

שתי מסקנות שמעצבות את הסינתזה:

  1. "החשיבות" כבר קיימת ידנית (ב') — אסור להמציא מאפס; לחבר את הקאנון-הידני + ציטוטי-דפנה.
  2. אין גרף-ציטוטים — centrality אוטומטי לא יעבוד עד שנצופף (לחלץ ציטוטים מכל 363) או נישען על הקאנון.

ה. החלטות-מוצר שכבר ננעלו (chaim)

  • אפס-ביקורת > אובדן-מקרי — לא שייך לאשר מאות הלכות.
  • אם cull בכלל — כל-הזהב + עד-5-לא-זהב; אבל המחקר מטה לאל-תחתוך / דרג-בזמן-אחזור.
  • טרמינולוגיה: הלכה (מחוזי/עליון) · כלל-פרשני (ועדה) · עקרונות (מטרייה). bookmarks=עוגני-DOCX (לא רלוונטי).

ו. הפערים הפתוחים לסינתזה הסופית

  1. לשלב את הקאנון-הידני כסיגנל-חשיבות-ראשי (קלט 04).
  2. להכריע גרף-ציטוטים: לצופף (לחלץ מכל הפסקים) או להישען על קאנון+דפנה+יומונים (קלט 05).
  3. חוזה-הקליטה (practice_area, 31 שבורים) — מקור-הכאב; תוכנית-תיקון-במקור.
  4. V41 האינרטי (0 published) — לתקן או לעקוף בדירוג-בזמן-אחזור?
  5. לאחד 01 ↔ 02/03 לתוכנית-ביצוע אחת + בסיס-מדידה לאיכות-האחזור הנוכחי.

ז. זיכרונות-פרויקט קשורים (להקשר)

project_precedent_library · project_corpus_graph · project_x11_citation_corroboration · project_digests_radar · project_canonical_halachot · project_principles_redesign · project_halacha_quality_initiative · project_precedent_auto_extraction. TaskMaster: #152, #153.