Files
legal-ai/docs/precedent-corpus-redesign/00-index.md
Chaim afe6894441 docs(principles): FINAL synthesis — eliminate queue; verified=chair-cited-in-context; nli 97% FP (#153)
chaim directive 2026-06-20: no halacha queue ever; trusted = only what a chair
actually cited, in context; corpus grows by citations; few-verified-now is fine.
nli-audit: nli_unsupported flag is 97% false-positive (29/30) — the 'noise' was
imaginary. Two layers: raw background (auto, no gate) vs verified (auto-canon from
citations). +06 indexed.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-20 13:33:13 +00:00

93 lines
8.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# אינדקס: עיצוב-מחדש קורפוס-הפסיקה — כל החומר במקום אחד
> **שער-הכניסה היחיד** ליוזמת עיצוב-מחדש קורפוס-הפסיקה. מרכז את כל הקלטים — אלה שבתיקייה
> ואלה החיצוניים (לא הוזזו כדי לא לשבור 10+ קישורים מסוכנים/ספים/קוד; מקושרים מכאן).
> **היעד:** מ-`00``05` → סינתזה סופית אחת (`00-final-synthesis` כשנגיע) → תוכנית-ביצוע.
>
> **שאלת-העל של חיים:** "הקורפוס נבנה לא נכון, אני כל הזמן מתעסק בתיקונים — לבנות מחדש או לתקן?"
> **אילוץ-יסוד:** הפתרון **אסור** שידרוש סקירה/אישור ידני של עשרות-מאות הלכות.
---
## א. קלטי-היוזמה (בתיקייה זו)
| # | מסמך | מה תורם | מחבר/מקור |
|---|------|---------|-----------|
| 01 | [architecture-data-audit](01-claude-architecture-data-audit.md) | **אבחון-מצב חי:** הסכמה תקינה, הכשל בשכבת-הביצוע — חוזה-קליטה רופף (66% בלי practice_area), V41 אינרטי (0 published), כפילות style_corpus. ממליץ "תקן-חוזה ואז re-derive". | Claude (סשן אחר) |
| 02 | [deep-research-importance-recommendation](02-deep-research-importance-recommendation.md) | **דוח-מחקר + המלצה:** אל-תחתוך הרסני; דרג-בזמן-אחזור; אפס-ביקורת דרך conformal. 7 ממצאים מאומתים. | מחקר-עומק |
| 03 | [deep-research-full-output](03-deep-research-full-output.md) | המחקר המלא הגולמי (verbatim, לוגים, 4 הפרכות, 25 מקורות). | מחקר-עומק |
| 04 | [daphna-canon-as-importance-ground-truth](04-daphna-canon-as-importance-ground-truth.md) | **הקאנון-הידני כ-ground-truth** — מתואם עם תדירות-הציטוט (מאמת הפרוקסי), חושף פערי-קורפוס, 4 שימושים ל-RAG. | Claude |
| 05 | [ingest-contract-and-citation-graph-gaps](05-ingest-contract-and-citation-graph-gaps.md) | **3 מחוללי-הכאב במספרים חיים** — 87% מהחיצוני בלי practice_area; גרף-ציטוטים ריק; V41 100% תקוע (מתנגש עם אפס-ביקורת). | Claude |
| 06 | [extractor-generosity-committee-application](06-extractor-generosity-committee-application.md) | **כימות חוצה-קורפוס:** `application`=13.7% בוועדות (תכונת-מקור, לא באג) → לא לסנן. ⭐ ממצא: `nli_unsupported`=40% בפסיקה החיצונית — סוגיית-רמה-A הפתוחה. | Claude (סשן אחר) |
> **הסינתזה הסופית:** [`00-final-synthesis.md`](00-final-synthesis.md) — מאחדת 0105 + מבחן-8508. החלטה: שמור-הכל + דרג-בזמן-אחזור; רמה-A=ניקוי-רעש+dedup בלבד (ללא cap/novelty).
---
## ב. ⭐ הקלט הקריטי החיצוני — מפת-החשיבות הידנית
| מסמך | מה תורם | למה לא הוזז |
|------|---------|-------------|
| [`../daphna-precedent-network.md`](../daphna-precedent-network.md) | **"הקאנון של דפנה"** — מיפוי-ידני (מ-33 החלטות) של התקדים-המועדף שלה **לכל סוגיה משפטית**. זה **בדיוק ה-ground-truth של "חשיבות"** שהאוטומציה מנסה לשחזר — וברמת-הסוגיה (הגרנולריות שהמחקר אמר שחסרה). | קרוא ע"י סוכני legal-researcher/legal-writer + 8 מסמכים |
---
## ג. תשתית-קורפוס קיימת (חיצוני, מקושר)
| מסמך / ספ | מה תורם |
|-----------|---------|
| [`../corpus-graph.md`](../corpus-graph.md) | גרף-הציטוטים `/graph` — PageRank/אשכולות **כבר מחושבים** (`web/graph_metrics.py`). אבל הגרף כמעט ריק (ר' ד'). |
| [`../corpus-analysis.md`](../corpus-analysis.md) | ניתוח שיטתי של 24 ההחלטות — דפוסי-דיון, פערים. |
| [`../legal-principles-redesign.md`](../legal-principles-redesign.md) | תכנון משטר-החילוץ התלת-מודלי + תקרת-5 + טרמינולוגיה + סינתזה (PR #304/#305). §8 = שכבת-החשיבות. **נשאר תקף ל"חילוץ-להבא"; מה שמשתנה הוא היחס לקורפוס-הקיים.** |
| [`../halacha-strict-rubric.md`](../halacha-strict-rubric.md) | 6 עילות-החיתוך של ניקוי-ההלכות (referenced מהקוד). |
| ספ [`../spec/X11-citation-corroboration.md`](../spec/X11-citation-corroboration.md) | citator פנימי — תיקוף הלכות; ישירות קשור לסיגנל-הציטוט. |
| ספ [`../spec/X12-digests-radar.md`](../spec/X12-digests-radar.md) | יומונים — סיגנל-זהב #2 (`headline_holding`). |
| ספ [`../spec/X13-court-fetch.md`](../spec/X13-court-fetch.md) | אחזור-פסיקה-אוטומטי — מקור-גידול הקורפוס. |
| ספ [`../spec/02-data-model.md`](../spec/02-data-model.md) · [`../spec/03-retrieval.md`](../spec/03-retrieval.md) | INV-DM (חוזה-שלמות) + INV-RET/RRF (נקודת-הזרקת-הדירוג). |
---
## ד. עובדות-מפתח חיות (legal_ai @ :5433, 2026-06-20)
```text
case_law (פסקי-דין/החלטות) 363 (240 external · 92 committee · 31 שבורים)
• 66% (240) בלי practice_area ← חוזה-קליטה רופף = "התיקונים האינסופיים"
halachot 5,489 → 25% approved · 44% pending (צוואר ידני)
canonical_halachot (V41) 5,472 → 5,456 singletons · 0 published ⚠️ (אינרטי)
גרף-הציטוטים (קריטי):
PageRank מחושב ✅ web/graph_metrics.py
ציטוטי-דפנה 398 (מ-42 החלטות) ← כמעט כל הסיגנל
ציטוטי 91 ועדות-אחרות 0 (לא חולצו)
ציטוטים בין פס"ד-חיצוניים 0 ← אין גרף ביניהם
פיזור תדירות-ציטוט (זנב אמיתי): 7×1 · 6×1 · 4×4 · 3×8 · 2×38 · 1×269
```
**שתי מסקנות שמעצבות את הסינתזה:**
1. **"החשיבות" כבר קיימת ידנית** (ב') — אסור להמציא מאפס; לחבר את הקאנון-הידני + ציטוטי-דפנה.
2. **אין גרף-ציטוטים** — centrality אוטומטי לא יעבוד עד שנצופף (לחלץ ציטוטים מכל 363) **או** נישען על הקאנון.
---
## ה. החלטות-מוצר שכבר ננעלו (chaim)
- **אפס-ביקורת > אובדן-מקרי** — לא שייך לאשר מאות הלכות.
- אם cull בכלל — **כל-הזהב + עד-5-לא-זהב**; אבל המחקר מטה ל**אל-תחתוך / דרג-בזמן-אחזור**.
- טרמינולוגיה: הלכה (מחוזי/עליון) · כלל-פרשני (ועדה) · עקרונות (מטרייה). bookmarks=עוגני-DOCX (לא רלוונטי).
---
## ו. הפערים הפתוחים לסינתזה הסופית
1. לשלב את **הקאנון-הידני** כסיגנל-חשיבות-ראשי (קלט 04).
2. להכריע **גרף-ציטוטים:** לצופף (לחלץ מכל הפסקים) או להישען על קאנון+דפנה+יומונים (קלט 05).
3. **חוזה-הקליטה** (practice_area, 31 שבורים) — מקור-הכאב; תוכנית-תיקון-במקור.
4. **V41 האינרטי (0 published)** — לתקן או לעקוף בדירוג-בזמן-אחזור?
5. **לאחד 01 ↔ 02/03** לתוכנית-ביצוע אחת + **בסיס-מדידה לאיכות-האחזור הנוכחי**.
---
## ז. זיכרונות-פרויקט קשורים (להקשר)
`project_precedent_library` · `project_corpus_graph` · `project_x11_citation_corroboration` ·
`project_digests_radar` · `project_canonical_halachot` · `project_principles_redesign` ·
`project_halacha_quality_initiative` · `project_precedent_auto_extraction`. TaskMaster: #152, #153.