feat(halacha): #81.8 — כיול שער-האישור-האוטומטי על ה-gold-set (משמרים 0.80, מתועד) #191
Reference in New Issue
Block a user
Delete Branch "worktree-halacha-autoapprove-calibration"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
מה
כיול סף-האישור-האוטומטי מול 100 תוויות-היו"ר (אמת אנושית; ground_truth='chair' מונע מעגליות מול הקונצנזוס שהפאנל ייצר). 93 keep / 7 drop.
הכרעה: לשמר 0.80
עומד ביעד
precision ≥ 0.90עם מרווח, וטועה לכיוון היו"ר (recall נמוך = יותר סקירה, לא פחות). שני ממצאים מעצבי-מדיניות:confidence × validatorsרק יזיק → לא אומץ (תשובה אמפירית לשאלת #81.8).איך
db.goldset_calibrate()— sweep-confidence + panel-policy precision/coverage מול הזהב; read-only, משוחזר (INV-LRN3). אומת חי: משחזר את המספרים בדיוק; דוח→data/audit/.HALACHA_AUTO_APPROVE_THRESHOLDעודכנה לממצא-הכיול (במקום "spot-check of 10" הישן).Invariants
בדיקות
4 offline:
tests/test_goldset_calibrate.py(sweep / panel-policies / אנטי-מעגליות / current-threshold). py_compile OK.🤖 Generated with Claude Code
כיול סף-האישור-האוטומטי מול ה-100 תוויות-היו"ר (93 keep / 7 drop), אמת אנושית (לא הקונצנזוס — מונע מעגליות): conf≥0.80 → P=0.98 R=0.53 ← נוכחי (errs safe) conf≥0.75 → P=0.96 R=0.81 conf≥0.70 → P=0.94 R=0.94 panel unanimous-3/3 → P=0.988 cov=95% · majority-2/3 → P=0.948 cov=100% הכרעה: **לשמר 0.80** — עומד ביעד precision≥0.90 עם מרווח, וטועה לכיוון היו"ר (recall נמוך = יותר סקירה, לא פחות). שני ממצאים: (א) self-confidence מכויל היטב ל-precision; הוולידטורים ה-rule-based לא-מבחינים על ה-gold-set (P≈0.1) → "confidence × validators" רק יזיק, לא אומץ (תשובה ל-#81.8). (ב) מנוף-הכיסוי האמיתי = הפאנל התלת-מודלי (unanimous 0.988/95%), לא סף-confidence נמוך. הורדת השער ל-0.75 = tradeoff governance (יותר auto-approve לא-מסוקר, INV-G10) על ראיה דקה (7 שליליים) → נדחה ליו"ר/פאנל (#121), לא שונה כאן. - db.goldset_calibrate(): sweep-confidence + panel-policy precision/coverage מול הזהב, read-only, משוחזר (INV-LRN3). ground_truth='chair' default (אנטי-מעגליות). - config: הערת HALACHA_AUTO_APPROVE_THRESHOLD מעודכנת לממצא-הכיול (במקום spot-check-of-10). invariants: INV-G10 (לא הורדנו את השער הלא-מסוקר) · INV-LRN2/LRN3 (כיול מתועד במקור, מובנה). tests: 4 offline (sweep/policies/anti-circularity/threshold-surfaced). אומת חי: משחזר את המספרים. Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>