Files
legal-ai/docs/anti-hallucination-gate.md
Chaim d156bcfaf1 feat(agents): שער anti-hallucination משותף מעוגן-מקור (INV-AH) לכל הסוכנים
מחלץ את דיסציפלינת מניעת-ההזיות לבלוק קנוני אחד (docs/anti-hallucination-gate.md)
ומחיל אותו אחיד על כל הסוכנים — במקום שכל סוכן ימציא אותה מחדש ad-hoc (G2: בלי מסלולים מקבילים).

5 טכניקות, כל אחת מעוגנת במקור מקצועי:
- AH-1 עיגון-מקור (אפס ציטוט מהזיכרון) — Stanford RegLab/Magesh JELS 2025 (כלי-RAG משפטיים הוזים 17-33%)
- AH-2 quote-or-retract + AH-3 abstention — Anthropic Reduce-hallucinations
- AH-4 תיוג-ודאות — NIST AI RMF GenAI Profile + RAGAS
- AH-5 Chain-of-Verification — Dhuliawala et al. arXiv:2309.11495

הפצה DRY: הפניה ב-HEARTBEAT.md (נקרא ע"י כל סוכני Paperclip) + שורה אחידה בבלוק
'קרא לפני פעולה' של כל 8 הסוכנים, עם הערת-יישום לכל תפקיד (writer=read-only, qa=אוכף,
proofreader=אל תתקן לכיוון מונח משפטי, exporter=אפס מהות חדשה).

בנוסף: legal-ceo.md מקבל ידע על 'שטן מליץ (Gemini)' עם מדיניות on-demand טהורה —
לא בפייפליין, מופעל רק לבקשת חיים/דפנה, הפלט=לידים ליו"ר (לא לכותב, human-in-the-loop).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>
2026-06-09 17:05:33 +00:00

5.9 KiB
Raw Blame History

שער anti-hallucination — הגנה משותפת מפני הזיות (INV-AH)

מקור-אמת אחד לכל הסוכנים. כל סוכן נוגע-מהות מפנה לכאן (דרך HEARTBEAT.md ובלוק "קרא לפני פעולה" שלו). אל תשכפל את הכללים בקובץ-סוכן — הפנה לכאן (G2 — בלי מסלולים מקבילים). זהו המקבילה התוכנית ל-INV-AG1 (קריאת-ספ): כמו שאינך פועל "מהזיכרון" לגבי התנהגות-המערכת, אינך מצטט פסיקה/חוק/הלכה/מספר "מהזיכרון".

למה זה קיים

כלי-AI משפטיים מובילים (Lexis+ AI, Westlaw) הוזים פסיקה ב-17%33% גם עם RAG — זו לא בעיה שנעלמת מעצמה ("RAG ≠ hallucination-free"). בתחום מעין-שיפוטי, ציטוט-שווא של פסק-דין/סעיף/הלכה הוא כשל קריטי הניתן לביקורת שיפוטית. חמש הטכניקות למטה הן הקונצנזוס המקצועי להפחתת הזיות, מותאם לתחום.


חמש הטכניקות הקשיחות (חלות על כל סוכן נוגע-מהות)

AH-1 · עיגון-מקור (grounding) — אפס ציטוט מהזיכרון. כל אזכור של פסק-דין / מספר-תיק / סעיף-חוק / הלכה / מקדם / "מתודה שמאית" / נתון כמותי חייב לבוא ממקור מאומת: תוצאת כלי-אחזור (search_precedent_library, search_internal_decisions, search_case_documents, search_decisions, find_similar_cases, precedent_library_get, halacha_review) או מסמך בתיק. אם לא הרצת חיפוש/לא קראת מסמך — אין לך את הפריט. (Stanford RegLab / Magesh et al., JELS 2025; Anthropic — ground in retrieved sources.)

AH-2 · Quote-or-retract. לכל אזכור-מקור צרף את הציטוט/מזהה המדויק שהמקור החזיר (supporting_quote/headnote/ציטוט מהמסמך). אין ציטוט מאשר → הסר את האזכור. (Anthropic — retract if no supporting quote; RAGAS faithfulness — כל טענה חייבת להיות נתמכת ב-context.)

AH-3 · Abstention — "לא יודע" עדיף על המצאה. לא נמצא מקור? כתוב מפורשות "לא נמצא בקורפוס/בתיק — דורש אימות חיצוני". אסור לסגור פער בהשערה שנכתבת כעובדה. (Anthropic — give the model an out.)

AH-4 · תיוג-ודאות. סמן כל טענה לא-טריוויאלית: [מאומת] (מקור+ציטוט) · [טעון-אימות] (סביר/עולה מהמסמכים, אך לא אותר מקור מאשר) · [ספקולציה] (השערה אנליטית — מותרת רק כשאלה/הסתייגות, לא כקביעה). (NIST AI RMF GenAI Profile — explainability/קליברציה; RAGAS — atomic-claim grounding.)

AH-5 · Chain-of-Verification (CoVe) — מעבר-אימות לפני סיום. אחרי הטיוטה, פרק כל טענה עובדתית/אזכור לרשימה, ולכל אחת שאל "מאיזה מקור מאומת זה מגיע?". כל מה שאין לו עוגן — הסר או הורד ל-[ספקולציה]. (Chain-of-Verification — Dhuliawala et al., arXiv:2309.11495, 2023.)

ההבחנה שמכריעה הכל — "פער" מותר, "המצאה" אסורה: "אזכרתי את X — חיפשתי ולא מצאתי בקורפוס; דורש אימות." (פער לגיטימי) · "הנה תקדים Y רלוונטי" כש-Y לא הגיע מכלי-אחזור. (המצאה)


יישום לפי תפקיד

סוכן איך השער חל
analyst / researcher מייצרי-מהות — עיגון-קורפוס מלא, log שאילתות + negative evidence, "מקור: כתבי טענות → דורש אימות". (כבר נהוג; כעת אחיד ומעוגן-מקור.)
writer צרכן read-only של פלט-המנתח המעוגן. אסור להוסיף פסיקה/סעיף/הלכה שלא הגיעו מהמנתח/הקורפוס. ציטוט בהחלטה = רק מ-supporting_quote מאומת.
qa אוכף את AH-1…AH-5 כשער-איכות: כל אזכור בטיוטה — האם מאומת-מקור? אם לא — needs_revision.
ceo מנתב ומסכם — לא ממציא מקורות; אם מצטט, מצטט ממה שהסוכנים אימתו.
proofreader תיקון-OCR בלבד — אל "תתקן" לכיוון מונח משפטי סביר (שם-תקדים/מספר-תיק/סכום): שמר את לשון-המקור; ספק → סמן, לא "תקן".
exporter מכני (DOCX) — אפס מהות חדשה.
hermes-curator הצעות בלבד (G10) — מעוגן-מקור, לא מזין שכבת-קול עם מהות (INV-LRN5).
שטן מליץ (Gemini) מימוש-הייחוס המלא של השער (legal-analyst-gemini-critique.md) — לידים-לא-הכרעות ליו"ר (human-in-the-loop, NIST).

מקורות מקצועיים

  1. Magesh, Surani, Dahl, Suzgun, Manning, Ho — Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools, J. Empirical Legal Studies (2025), Stanford RegLab/HAI — שיעורי-הזיה 1733% גם עם RAG.
  2. Anthropic — Reduce hallucinations (docs.anthropic.com): allow "I don't know" · cite quotes/sources · retract-if-no-quote · chain-of-thought.
  3. Dhuliawala et al. — Chain-of-Verification Reduces Hallucination in LLMs, arXiv:2309.11495 (2023).
  4. Es et al. — RAGAS: Automated Evaluation of RAG, arXiv:2309.15217 — faithfulness = יחס הטענות הנתמכות-בקונטקסט.
  5. NIST — AI RMF: Generative AI Profile (NIST-AI-600-1, 2024) — human-in-the-loop oversight ב-high-stakes.