החלפת מיקוד שורות-המקורות של INV-COR1–COR5 + תיקון-G10 ממוצרים סגורים (Shepard's/KeyCite) למקורות פתוחים שאומתו בפועל — בהתאם ל-feedback_legal_db_authoritative_sources ולפרוטוקול ≥3-המקורות של החוקה: - Fowler et al., Network Analysis and the Law (Political Analysis 2007) — ציטוטים-נכנסים = מדד-סמכות, מאומת בניבוי ציטוט עתידי (INV-COR1/COR4). - Demir & Canbaz, Validate Your Authority (NLLP/ACL 2025) — LLM מסווג טיפול-תקדים ב-67.7–79.1%; הדיוק הלא-מושלם מצדיק את הסייגים השמרניים (≥N, שער-אנוש, שלילי→דגל) (INV-COR2/COR4/COR5). - CaseHOLD (arXiv 2021) — סיווג ברמת holding (INV-COR3). LePaRD (arXiv 2023) — citation dataset. - Hellyer (LLJ 2018, open-access), NCSC/JTC, CEPEJ, ISO 15489 — ללא שינוי, פתוחים. מסקנה: הספרות הפתוחה תומכת בהחלטה (citator + סיווג-טיפול + סמכות-מבוססת-ציטוט), ודווקא מחזקת את הגרסה השמרנית. אין גישה ל-Shepard's/KeyCite הסגורים — המידע עליהם הגיע ממקורות משניים פתוחים בלבד. Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
14 KiB
X11 — תיקוף-הלכות בציטוטים (Citation Corroboration / Internal Citator)
קובץ-תחום זה כפוף ל-חוקת המערכת. הוא מגדיר שכבת citator פנימית: שימוש בציטוטים-הנכנסים לפסיקה (איך ערכאות וועדות מאוחרות טיפלו בה) כדי לתקף ולחדד את ההלכות שחולצו ממנה, וכך לצמצם את היקף האישור-הידני של היו"ר. הוא אוכף את INV-G10 (כפי שתוקן — ראה §6), נשען על INV-G9 (עקיבוּת-מקור), ומעמיק את מודל-הציטוטים של 02-data-model.md.
TARGET, לא תיאור-מצב. המנגנון כאן הוא היעד. רכיבים שטרם נבנו מסומנים מפורשות כ-audit-finding (§7), ולא כהתנהגות קיימת. כל טענה על הקוד מצוטטת
file:line.
1. הרעיון — citator פנימי
בעולם המשפטי, הכלים שמאמתים פסיקה לפי הציטוטים-הנכנסים אליה הם citators (Shepard's של LexisNexis, KeyCite של Westlaw, BCite של Bloomberg). הם עונים על שתי שאלות: האם הפסק עדיין "good law"? ו-איך ערכאות מאוחרות טיפלו בו? — לפי סיווג-טיפול (treatment) של כל ציטוט-נכנס.
המערכת שלנו מחזיקה כבר את חומר-הגלם: גרף-ציטוטים פנימי (§2). מה שחסר הוא השכבה שמחברת אותו להלכות — לתקף הלכה ספציפית לפי כך שערכאות/ועדות מאוחרות אימצו אותה בפועל. הלכה שאומצה שוב-ושוב ע"י פאנלים אחרים אינה "ניחוש של מודל" — היא טיפול שיפוטי אנושי מצטבר, וזה הבסיס שמאפשר אישור-אוטומטי בלי לפגוע בשיקול-הדעת האנושי (ראה תיקון INV-G10, §6).
2. חומר-הגלם הקיים — שני גרפי-ציטוט
| טבלה | קושר | הקשר נשמר | סיווג-טיפול |
|---|---|---|---|
case_law_citations (db.py:382) |
פסיקה ← החלטת-ועדה פנימית (decisions) |
context_text |
citation_type (support/distinguish/overrule/obiter) |
precedent_internal_citations (db.py:938) |
פסיקה ← פסיקה אחרת (case_law) |
match_context |
— (אין שדה-טיפול) |
audit-finding (קיים): ב-precedent_internal_citations אין שדה סיווג-טיפול, ו-ב-
case_law_citations שדה citation_type קיים אך ברירת-המחדל 'support' (db.py:387) —
כלומר רוב הרשומות לא סווגו בפועל. סיווג-הטיפול הוא רכיב שיש לבנות (§4, INV-COR2).
3. תנאי-קדם — גרף-זהות נקי
ה-corroboration מצרף ציטוטים להלכות דרך רשומת ה-case_law. אם אותו תקדים מיוצג בשתי
רשומות (stub cited_only + רשומת-תוכן), הציטוטים יושבים על האחת וההלכות על האחרת — וה-join
נשבר. לכן INV-G1/INV-ID1
הם תנאי-קדם קשיח ל-X11.
הפרה ידועה (תוקנה 2026-05-31): אהוד שפר עע"מ 317/10 הוחזק בשתי רשומות — external_upload
עם ציטוט-מלא כ-case_number (הפרת INV-ID2) + cited_only stub שתפס את 7 הציטוטים-הנכנסים בנפרד
מ-53 ההלכות. מוזג לרשומה קנונית אחת; סריקת-קורפוס מלאה (128 רשומות) אישרה 0 stubs עם
ציטוטים-תקועים שנותרו. ראה #70 / FU-2c-b. הניקוי השוטף של 49 ה-cited_only
(הרחבת _DOCKET_RE, ציטוטים-משולבים) ממשיך תחת #70.
4. המנגנון (TARGET)
לכל הלכה h של תקדים P:
1. אסוף ציטוטים-נכנסים ל-P (שני הגרפים, §2).
2. סווג טיפול לכל ציטוט (followed / distinguished / criticized / overruled / explained)
מתוך ההקשר (context_text / match_context) — Opus 4.8 @ xhigh. [INV-COR2]
3. התאם כל ציטוט להלכה הספציפית: דמיון סמנטי בין ההקשר לבין rule_statement של h,
מעל רף; הציטוט נספר ל-h רק אם הוא נוגע *לאותה הלכה*, לא לפסק כולו. [INV-COR3]
4. ספֵר corroboration של h = מספר ציטוטים חיוביים בלתי-תלויים שהותאמו אליה.
5. אישור:
אם ≥N חיוביים בלתי-תלויים ∧ 0 שליליים → אישור-אוטומטי (corroborated). [INV-COR4]
אם יש טיפול שלילי (distinguished/criticized/overruled) → אסור אוטו;
דגל ליו"ר, ואף הדחה אם overruled. [INV-COR2]
אחרת (לא-מצוטט) → נשאר בשער-היו"ר הרגיל (סף-confidence). [INV-COR5]
6. העשרה (משני): נסח-מחדש/חדד את rule_statement לפי המסגור של הפאנל המצטט.
N (סף-corroboration) ייקבע אמפירית (≥2 ברירת-מחדל; ציטוט יחיד אינו מספיק — INV-COR4).
5. Invariants של התחום
INV-COR1: corroboration = טיפול שיפוטי אנושי מצטבר, לא שיפוט-AI
כלל: אישור-הלכה מבוסס-ציטוט נשען על כך שערכאות/ועדות אנושיות אימצו את ההלכה בפועל — לא על ציון-ביטחון של מודל. ה-AI רק מזהה ומסווג את הטיפול הקיים; ההכרעה הערכית שההלכה תקפה ניתנה ע"י השופטים המצטטים. זהו הבסיס לתיקון INV-G10 (§6). מקורות (פתוחים): Fowler, Johnson, Spriggs, Jeon & Wahlbeck, Network Analysis and the Law: Measuring the Legal Importance of Precedents at the U.S. Supreme Court (Political Analysis 15:3, 2007) — סמכות-תקדים נמדדת מהציטוטים-הנכנסים, מאומת בניבוי ציטוט עתידי · LePaRD: A Large-Scale Dataset of Judicial Citations to Precedent (arXiv 2311.09356, 2023) · Hellyer, Evaluating Shepard's, KeyCite, and BCite (Law Library Journal 110:4, 2018, open-access) | סטטוס: verified אכיפה: מנגנון §4 — corroboration נספר רק מטיפול שיפוטי מתועד, לא מ-confidence. הפרה ידועה: —
INV-COR2: סיווג-טיפול חובה לפני ספירה — שלילי לעולם לא מאשר
כלל: כל ציטוט-נכנס מסווג לטיפול (followed/explained = חיובי-נייטרלי;
distinguished/criticized/questioned/overruled = שלילי) לפני שהוא נספר. טיפול שלילי לעולם אינו
תורם ל-corroboration ואינו מאשר אוטומטית; overruled → הדחת ההלכה לבדיקת-יו"ר.
מקורות (פתוחים): Demir & Canbaz, Validate Your Authority: Benchmarking LLMs on Multi-Label
Precedent Treatment Classification (NLLP Workshop @ ACL, 2025) — LLM מסווג טיפול-תקדים
(Gemini 2.5 79.1% / GPT-5-mini 67.7%) · Galgani & Hoffmann, LEXA — knowledge bases for automatic
legal citation classification · Towards Automatically Classifying Case Law Citation Treatment
Using Neural Networks · UNC Law, Describing Negative Legal Precedent in Citators | סטטוס: verified
אכיפה: שלב 2+5 ב-§4; סכֵמת-טיפול ב-precedent_internal_citations (שדה חדש) +
case_law_citations.citation_type (לא להישען על ברירת-המחדל 'support').
הפרה ידועה: סיווג-טיפול לא קיים בפועל (§2) — רכיב לבנייה.
INV-COR3: התאמה להלכה הספציפית — לא לפסק כולו
כלל: ציטוט נספר ל-corroboration של הלכה h רק אם ההקשר המצטט נוגע לאותה הלכה (דמיון סמנטי מעל רף). פסק מצוטט לעניין A אינו מתקף הלכה B שחולצה מאותו פסק. מקורות (פתוחים): Hellyer (2018, open-access) — "a 'followed' tag might refer to a different legal point than the one you care about" · Zheng, Guha, Anderson, Henderson & Ho, CaseHOLD (arXiv 2104.08671, 2021) — סיווג-טיפול ברמת ה-holding הבודד, לא הפסק כולו · UChicago Library / Northwestern Pritzker — מדריכי-מחקר (treatment ≠ point-specific) | סטטוס: verified אכיפה: שלב 3 ב-§4 — רף-דמיון סמנטי בין ההקשר ל-rule_statement; Opus 4.8 כשופט-התאמה. הפרה ידועה: —
INV-COR4: סף ≥N ציטוטים בלתי-תלויים — ציטוט יחיד אינו מספיק
כלל: אישור-אוטומטי דורש ≥N ציטוטים חיוביים בלתי-תלויים — כלומר מ-מקורות-מצטטים
מובחנים (החלטות/פסקים שונים; שני אזכורים באותה החלטה = ציטוט אחד). ברירת-מחדל N=2. מקור יחיד
אינו ראיה מספקת; citators עצמם מפספסים 23–25% מהטיפול — לכן נדרשת חזרתיות חוצת-מקורות.
מקורות (פתוחים): Demir & Canbaz (NLLP/ACL 2025) — דיוק סיווג-טיפול 67.7–79.1% בלבד, לכן
סיווג בודד אינו ראיה מספקת ונדרשת חזרתיות · Fowler et al. (Political Analysis 2007) — סמכות =
צבירת ציטוטים, לא ציטוט יחיד · Hellyer (2018) — citator coverage gaps (פספוס 23–25% מהטיפול)
· Manning, Raghavan & Schütze, Introduction to Information Retrieval (CUP 2008) — aggregation of
weak signals | סטטוס: verified
אכיפה: שלב 4-5 ב-§4; HALACHA_CORROBORATION_MIN_CITES (env-tunable, ברירת-מחדל 2).
הפרה ידועה: —
INV-COR5: השער האנושי נשמר לזנב הלא-מצוטט ולשלילי
כלל: corroboration מצמצם את היקף האישור-הידני; הוא אינו מבטל את שער-היו"ר. הלכות לא-מצוטטות, וכל הלכה עם טיפול שלילי, נשארות בשער-היו"ר. גם ה-citators המקצועיים קובעים ש"human review remains essential". מקורות (פתוחים): Demir & Canbaz (NLLP/ACL 2025) — "misclassification carries significant risk", ה-citators האוטומטיים not infallible → עיון-אנוש נחוץ · Hellyer (2018) — "There's no substitute for reading the actual citing case" · NCSC/JTC, Principles & Practices for AI Use in Courts (human-in-the-loop) · CEPEJ (2018, user-control) | סטטוס: verified אכיפה: שלב 5 ב-§4; שער-היו"ר הקיים (05-qa-review.md) נשאר על הזנב. הפרה ידועה: —
INV-COR6: עקיבוּת — כל אישור-אוטומטי שומר את ראיית-הציטוט
כלל: הלכה שאושרה ב-corroboration שומרת את הציטוטים המתקפים (מזהי-המקור + ההקשר +
הטיפול) כ-provenance הניתן לביקורת — מי אישר, על סמך אילו פסקים, ובאיזה טיפול.
מקורות: INV-G9 · ISO 15489-1:2016
(records authenticity) · CEPEJ (2018, transparency) | סטטוס: verified (נגזר מ-G9)
אכיפה: halachot.reviewer = corroborated (≥N judicial citations) + טבלת-קישור
הלכה↔ציטוטים-מתקפים; מוצג ביו"ר-UI.
הפרה ידועה: —
6. תיקון INV-G10 (מבוקר)
INV-G10 קובע ששער אישור-ההלכה הוא invariant אנושי-חובה. התיקון (החלטת-יו"ר 2026-05-31) אינו מבטל את השער אלא מרחיב את מקור-הסמכות האנושית שלו: השער מסופק ע"י טיפול שיפוטי מצטבר (ערכאות/ועדות מצטטות) עבור תת-הקבוצה ה-corroborated החיובית, בעוד שער-היו"ר נשאר חובה לזנב הלא-מצוטט ולכל טיפול-שלילי. הנוסח המתוקן + המקורות נכתבים ב- 00-constitution.md INV-G10. עיקרון-העל (INV-COR1) שומר על רוח G10: זהו שיפוט אנושי (של המצטטים), לא שיפוט-AI.
7. מצב קיים מול יעד — audit-findings
- קישור הלכה↔ציטוט לא קיים. אין טבלה/שאילתה שמצרפת ציטוט-נכנס להלכה ספציפית — רכיב-ליבה לבנייה (§4 שלב 3).
- סיווג-טיפול חסר.
precedent_internal_citationsללא שדה-טיפול;case_law_citations.citation_typeעל ברירת-מחדל'support'(db.py:387) — לא מסווג בפועל (§2, INV-COR2). - אישור-אוטומטי כיום מבוסס-confidence בלבד.
db.store_halachotמאשר ב-confidence ≥ HALACHA_AUTO_APPROVE_THRESHOLD(db.py:3221, ברירת-מחדל 0.80) — לא מבוסס-ציטוט. X11 מוסיף מסלול-אישור שני (corroboration) לצד/מעל סף-ה-confidence. - גרף-זהות. תוקן לשפר + dedup content-affecting (§3); המשך ניקוי ב-#70.
8. הפניות-אחיות
- 00-constitution.md — INV-G9 (provenance), INV-G10 (שער אנושי, מתוקן §6), פרוטוקול ≥3-מקורות.
- 02-data-model.md — טבלות הציטוטים (
case_law_citations,precedent_internal_citations) + ישותhalachot. - 05-qa-review.md — שער אישור-ההלכה הקיים (נשאר על הזנב, INV-COR5).
- 07-learning.md — צמיחת-קורפוס + לולאת-הלכות.
- X1-identifiers.md — תנאי-הקדם: זהות קנונית (INV-ID1/ID2).
- #70 / FU-2c-b — dedup של
cited_only(תנאי-קדם, §3).