feat(halacha): #81.8 — כיול שער-האישור-האוטומטי על ה-gold-set (משמרים 0.80, מתועד) #191

Merged
chaim merged 1 commits from worktree-halacha-autoapprove-calibration into main 2026-06-11 16:29:45 +00:00
Owner

מה

כיול סף-האישור-האוטומטי מול 100 תוויות-היו"ר (אמת אנושית; ground_truth='chair' מונע מעגליות מול הקונצנזוס שהפאנל ייצר). 93 keep / 7 drop.

גישה precision(keep) recall אישר
conf ≥ 0.80 (נוכחי) 0.98 0.53 50
conf ≥ 0.75 0.96 0.81 78
conf ≥ 0.70 0.94 0.94 93
panel unanimous 3/3 0.988 cov 95% 83
panel majority 2/3 0.948 cov 100% 97

הכרעה: לשמר 0.80

עומד ביעד precision ≥ 0.90 עם מרווח, וטועה לכיוון היו"ר (recall נמוך = יותר סקירה, לא פחות). שני ממצאים מעצבי-מדיניות:

  • (א) self-confidence מכויל היטב ל-precision; הוולידטורים ה-rule-based לא-מבחינים keep/drop על ה-gold-set (P≈0.1) → ציון משולב confidence × validators רק יזיק → לא אומץ (תשובה אמפירית לשאלת #81.8).
  • (ב) מנוף-הכיסוי האמיתי = הפאנל התלת-מודלי (unanimous 0.988/95%), לא סף-confidence נמוך. הורדת השער ל-0.75 = tradeoff governance (יותר auto-approve לא-מסוקר, INV-G10) על ראיה דקה (7 שליליים) → נדחה ליו"ר/פאנל (#121), לא שונה כאן.

איך

  • db.goldset_calibrate() — sweep-confidence + panel-policy precision/coverage מול הזהב; read-only, משוחזר (INV-LRN3). אומת חי: משחזר את המספרים בדיוק; דוח→data/audit/.
  • config — הערת HALACHA_AUTO_APPROVE_THRESHOLD עודכנה לממצא-הכיול (במקום "spot-check of 10" הישן).

Invariants

  • INV-G10 — לא הורדנו את השער הלא-מסוקר; הורדה אפשרית נדחתה להכרעת-יו"ר.
  • INV-LRN2/LRN3 — כיול מתועד במקור, מובנה ומשוחזר.

בדיקות

4 offline: tests/test_goldset_calibrate.py (sweep / panel-policies / אנטי-מעגליות / current-threshold). py_compile OK.

🤖 Generated with Claude Code

## מה כיול סף-האישור-האוטומטי מול **100 תוויות-היו"ר** (אמת אנושית; ground_truth='chair' מונע מעגליות מול הקונצנזוס שהפאנל ייצר). 93 keep / 7 drop. | גישה | precision(keep) | recall | אישר | |---|---|---|---| | conf ≥ 0.80 (נוכחי) | 0.98 | 0.53 | 50 | | conf ≥ 0.75 | 0.96 | 0.81 | 78 | | conf ≥ 0.70 | 0.94 | 0.94 | 93 | | panel unanimous 3/3 | **0.988** | cov 95% | 83 | | panel majority 2/3 | 0.948 | cov 100% | 97 | ## הכרעה: לשמר 0.80 עומד ביעד `precision ≥ 0.90` עם מרווח, וטועה **לכיוון היו"ר** (recall נמוך = יותר סקירה, לא פחות). שני ממצאים מעצבי-מדיניות: - **(א)** self-confidence מכויל היטב ל-precision; הוולידטורים ה-rule-based **לא-מבחינים** keep/drop על ה-gold-set (P≈0.1) → ציון משולב `confidence × validators` רק יזיק → **לא אומץ** (תשובה אמפירית לשאלת #81.8). - **(ב)** מנוף-הכיסוי האמיתי = **הפאנל התלת-מודלי** (unanimous 0.988/95%), לא סף-confidence נמוך. הורדת השער ל-0.75 = tradeoff governance (יותר auto-approve לא-מסוקר, INV-G10) על ראיה דקה (7 שליליים) → **נדחה ליו"ר/פאנל (#121)**, לא שונה כאן. ## איך - **`db.goldset_calibrate()`** — sweep-confidence + panel-policy precision/coverage מול הזהב; read-only, **משוחזר** (INV-LRN3). אומת חי: משחזר את המספרים בדיוק; דוח→`data/audit/`. - **config** — הערת `HALACHA_AUTO_APPROVE_THRESHOLD` עודכנה לממצא-הכיול (במקום "spot-check of 10" הישן). ## Invariants - **INV-G10** — לא הורדנו את השער הלא-מסוקר; הורדה אפשרית נדחתה להכרעת-יו"ר. - **INV-LRN2/LRN3** — כיול מתועד במקור, מובנה ומשוחזר. ## בדיקות 4 offline: `tests/test_goldset_calibrate.py` (sweep / panel-policies / אנטי-מעגליות / current-threshold). py_compile OK. 🤖 Generated with [Claude Code](https://claude.com/claude-code)
chaim added 1 commit 2026-06-11 16:29:41 +00:00
feat(halacha): #81.8 — calibrate auto-approve gate on the gold-set (keep 0.80, documented)
All checks were successful
G12 Leak-Guard / leak-guard (pull_request) Successful in 5s
4e06662208
כיול סף-האישור-האוטומטי מול ה-100 תוויות-היו"ר (93 keep / 7 drop), אמת אנושית (לא
הקונצנזוס — מונע מעגליות):
  conf≥0.80 → P=0.98 R=0.53  ← נוכחי (errs safe)
  conf≥0.75 → P=0.96 R=0.81
  conf≥0.70 → P=0.94 R=0.94
  panel unanimous-3/3 → P=0.988 cov=95% · majority-2/3 → P=0.948 cov=100%

הכרעה: **לשמר 0.80** — עומד ביעד precision≥0.90 עם מרווח, וטועה לכיוון היו"ר
(recall נמוך = יותר סקירה, לא פחות). שני ממצאים:
 (א) self-confidence מכויל היטב ל-precision; הוולידטורים ה-rule-based לא-מבחינים
     על ה-gold-set (P≈0.1) → "confidence × validators" רק יזיק, לא אומץ (תשובה ל-#81.8).
 (ב) מנוף-הכיסוי האמיתי = הפאנל התלת-מודלי (unanimous 0.988/95%), לא סף-confidence נמוך.
     הורדת השער ל-0.75 = tradeoff governance (יותר auto-approve לא-מסוקר, INV-G10) על
     ראיה דקה (7 שליליים) → נדחה ליו"ר/פאנל (#121), לא שונה כאן.

- db.goldset_calibrate(): sweep-confidence + panel-policy precision/coverage מול הזהב,
  read-only, משוחזר (INV-LRN3). ground_truth='chair' default (אנטי-מעגליות).
- config: הערת HALACHA_AUTO_APPROVE_THRESHOLD מעודכנת לממצא-הכיול (במקום spot-check-of-10).

invariants: INV-G10 (לא הורדנו את השער הלא-מסוקר) · INV-LRN2/LRN3 (כיול מתועד במקור, מובנה).
tests: 4 offline (sweep/policies/anti-circularity/threshold-surfaced). אומת חי: משחזר את המספרים.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
chaim merged commit 276bb4ae93 into main 2026-06-11 16:29:45 +00:00
chaim deleted branch worktree-halacha-autoapprove-calibration 2026-06-11 16:29:45 +00:00
Sign in to join this conversation.
No Reviewers
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: ezer-mishpati/legal-ai#191