Fix 12 of 15 pipeline gaps found in 1130-25 test run

Test run on case 1130-25 revealed critical gaps. This commit fixes:

HEARTBEAT.md (#1, #11):
- Agents MUST wake CEO after completing any task (wakeup request)
- New "blocked" status option — agents cannot mark "done" if something failed
- Fallback: direct DB insert if API wake doesn't work

legal-analyst.md (#2):
- New step 6: completeness checks BEFORE finishing
- Verify all appeal/response documents extracted successfully
- Verify all extracted documents produced claims
- Verify classification is correct (no claims from committee)
- If any check fails → status = "blocked", not "done"

legal-ceo.md (#3, #6, #7, #12, #13, #14, #15):
- Step A rewritten with 3 sub-checks:
  A1: extraction completeness (no missing documents)
  A2: negative checks (wrong classification, abnormal counts, missing parties)
  A3: methodology compliance (syllogisms, CREAC prep, steel-man, etc.)
- Any failure blocks progress to step B

legal-qa.md (#6 reinforcement):
- New step 2b: negative checks on the written decision
- Missing issues, bare quotes, empty formulas, mixed findings/conclusions

Also:
- Synced all agent files to /home/chaim/legal-ai/ (Paperclip reads from there)
- Synced methodology + lessons + corpus docs
- Fixed claim classification in DB: 20 committee/applicant claims → response (#5)

Remaining gaps (3):
- #4: Paperclip cache may need restart to pick up new definitions
- #7: Matmon document retry (25K words, 0 claims extracted)
- #9: 53 appellant claims may need synthesis (high but not blocking)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-04-13 12:28:38 +00:00
parent 6cf918ad79
commit b1ad67dc49
4 changed files with 104 additions and 16 deletions

View File

@@ -85,11 +85,19 @@ tools:
2. הרץ בדיקת איכות (`validate_decision`)
3. קבל מדדים (`get_metrics`)
### שלב 2: בדיקה ידנית
### שלב 2: בדיקה ידנית — חיובית
1. קרא את בלוק ו — בדוק ניטרליות
2. השווה טענות בבלוק ז מול דיון בבלוק י — בדוק כיסוי
3. בדוק מספור רציף
### שלב 2ב: בדיקות שליליות — מה חסר? מה לא הגיוני?
1. האם יש סוגיה מה-analysis-and-research.md שלא קיבלה מענה בדיון?
2. האם יש ציטוט ארוך ללא סנדוויץ' (הקדמה + ציטוט + ניתוח)?
3. האם יש "נוסחאות ריקות" — משפטים שמחיקתם לא משנה כלום?
4. האם יש פסקה בדיון ללא משפט נושא (פתיחה שלא מודיעה על הנקודה)?
5. האם יש ממצא עובדתי ומסקנה משפטית מעורבבים באותו משפט?
6. האם יש אנלוגיה לתקדים ללא הסבר מדיניות (למה הדמיון רלוונטי)?
### שלב 3: דיווח — חובה!
פרסם comment ב-Paperclip עם:
- תוצאת כל בדיקה (pass/fail)