Fix 12 of 15 pipeline gaps found in 1130-25 test run

Test run on case 1130-25 revealed critical gaps. This commit fixes:

HEARTBEAT.md (#1, #11):
- Agents MUST wake CEO after completing any task (wakeup request)
- New "blocked" status option — agents cannot mark "done" if something failed
- Fallback: direct DB insert if API wake doesn't work

legal-analyst.md (#2):
- New step 6: completeness checks BEFORE finishing
- Verify all appeal/response documents extracted successfully
- Verify all extracted documents produced claims
- Verify classification is correct (no claims from committee)
- If any check fails → status = "blocked", not "done"

legal-ceo.md (#3, #6, #7, #12, #13, #14, #15):
- Step A rewritten with 3 sub-checks:
  A1: extraction completeness (no missing documents)
  A2: negative checks (wrong classification, abnormal counts, missing parties)
  A3: methodology compliance (syllogisms, CREAC prep, steel-man, etc.)
- Any failure blocks progress to step B

legal-qa.md (#6 reinforcement):
- New step 2b: negative checks on the written decision
- Missing issues, bare quotes, empty formulas, mixed findings/conclusions

Also:
- Synced all agent files to /home/chaim/legal-ai/ (Paperclip reads from there)
- Synced methodology + lessons + corpus docs
- Fixed claim classification in DB: 20 committee/applicant claims → response (#5)

Remaining gaps (3):
- #4: Paperclip cache may need restart to pick up new definitions
- #7: Matmon document retry (25K words, 0 claims extracted)
- #9: 53 appellant claims may need synthesis (high but not blocking)

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
This commit is contained in:
2026-04-13 12:28:38 +00:00
parent 6cf918ad79
commit b1ad67dc49
4 changed files with 104 additions and 16 deletions

View File

@@ -58,21 +58,38 @@ tools:
## תהליך אינטראקטיבי — שלב אחר שלב
### שלב A: בדיקת מצב + אימות איכות פלט מנתח
### שלב A: בדיקת מצב — שלמות, בדיקות שליליות, תאימות מתודולוגיה
בכל heartbeat:
1. בדוק תיקים פעילים (`case_list`)
2. לכל תיק — בדוק סטטוס + מה כבר בוצע:
- יש טענות מחולצות? (`get_claims`)
- יש comments מחיים שממתינים לתגובה?
3. **אימות איכות פלט מנתח** — לפני מעבר לשלב B, ודא שפלט המנתח תואם את המתודולוגיה:
- טענות מסווגות לפי claim/response/committee
- עובדות שאינן שנויות במחלוקת מזוהות
- מסמכים נורמטיביים (תכניות, חוקים) מצוינים
- אם הפלט חסר — צור issue למנתח לתיקון לפני שממשיכים
4. פעל לפי מפת הסטטוסים למטה
2. בדוק אם יש issues ב-"blocked" — אם כן, טפל בהם קודם
3. בדוק comments מחיים שממתינים לתגובה
4. **לפני מעבר לשלב B — בצע את כל הבדיקות למטה. אם בדיקה נכשלת — עצור.**
**מתי לחזור אחורה:** אם פלט המנתח חסר טענות מרכזיות, לא מזהה מסמכים נורמטיביים, או לא מבחין בין עובדות שנויות/לא שנויות במחלוקת — החזר למנתח עם הנחיה ספציפית.
#### A1. בדיקת שלמות חילוץ
- **כמה מסמכים בתיק?** (`document_list`) — ספור.
- **האם כל המסמכים מסוג appeal/response/reply חולצו?** — בדוק extraction_status. אם יש מסמך שנכשל → **עצור**. צור issue למנתח לתיקון.
- **האם כל מסמך שחולץ ייצר טענות?** — אם מסמך מסוג appeal/response ייצר 0 טענות → **עצור**. אין להמשיך עם מידע חלקי.
#### A2. בדיקות שליליות
- **סיווג צולב**: האם יש claim_type='claim' מצד ועדה מקומית או מבקשי היתר? → שגיאת סיווג. החזר למנתח.
- **כמות חריגה**: האם יש צד עם >30 טענות (claim_type='claim')? → ייתכן חוסר סינתוז. בדוק ודווח.
- **צד חסר**: האם יש צד שאין לו אף טענה? → חריגה.
- **מסמך ריק**: האם יש מסמך appeal/response עם טקסט שלא ייצר טענות ולא דווח ככשל?
#### A3. אימות תאימות מתודולוגיה
קרא את `analysis-and-research.md` ובדוק:
- [ ] סוגיות מנוסחות כסילוגיזם (כלל + עובדות + שאלה)?
- [ ] ממצאים עובדתיים מופרדים ממסקנות משפטיות?
- [ ] לכל סוגיה יש "סוג ניתוח" (כלל ברור / איזון / מידתיות)?
- [ ] לכל סוגיה יש "הכנה ל-CREAC" (כלל, עובדות, תקדים)?
- [ ] יש steel-man (הנקודה החזקה של הצד החלש)?
- [ ] יש סעיף "טיפול בטענות" (bundle/skip)?
- [ ] היררכיית מקורות: חקיקה לפני תקדימים?
**אם בדיקה כלשהי נכשלת → אל תמשיך לשלב B.** צור issue למנתח עם הנחיה ספציפית, ופרסם comment שמסביר מה חסר.
**עיקרון מנחה:** עדיף לעכב את התהליך מאשר לייצר החלטה על בסיס חלקי או פגום.
### שלב B: הכנת סיכום, סיווג, ושאלת תוצאה