feat(halacha): #81.7 — תיוג gold-set בקונצנזוס תלת-מודלי (Opus+DeepSeek+Gemini), κ + אנונימיזציה #188
Reference in New Issue
Block a user
Delete Branch "worktree-goldset-tri-model-consensus"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
מה
מבטל את ה-man-in-the-loop בתיוג ה-gold-set של איכות-חילוץ-ההלכות (הנחיית-יו"ר 2026-06-11). במקום תיוג ידני (חיים/דפנה) שמעולם לא מולא (0/150), אמת-המידה נקבעת בקונצנזוס שלוש שושלות-מודל עצמאיות — אותו פאנל שמערכת-האישור החיה כבר מפעילה (
halacha_panel_approve), עם 92% הסכמה חוצת-מודלים על הציר הגס.למה זה לא מעגלי
הוולידטורים הנמדדים ב-#81.8 (
compute_quality_flags/is_fact_dependent/is_quote_truncated/is_thin_restatement) הם היוריסטיקות rule-based — משפחת-שיטה שונה מה-LLM-judges. שני שומרי-יושר:NULLומוסלם ליו"ר (INV-G10).איך
ds_*/gm_*;ai_*=claude כבר קיים) +panel_agreement/anon_*+goldset_set_panel_label()שכותב רוב-2/3 ל-is_holding/correct_type(tagged_by='panel:…', לא דורס'chair').goldset_scoreללא שינוי — קוראis_holding(G2, אין מסלול-ניקוד מקביל). עודכנה הערת-הסכמה (בוטלה דרישת "MUST be human").halacha_panel_approve) + prompt עשיר (מיובא מ-goldset_ai_recommend) + Fleiss κ + מבחן-אנונימיזציה. דוח→data/audit/.Invariants
is_holding).בדיקות
tests/test_goldset_panel_consensus.py(consensus / consensus_type / Fleiss-κ / anonymize). מודול+DB נטענים נקי, py_compile OK.halacha_goldset.py score→ קלט ל-#81.8.הקשר
משימה #121 (מחוץ ללופ) תמפה את שאר שערי-האנוש ותכריע פר-מקום אם להחליפם בקונצנזוס — לא החלפה גורפת (INV-G10/LRN1 הם חוקתיים).
מקורות: PoLL · Trust-or-Escalate (ICLR 2025) · arXiv:2505.02172 · Fleiss 1971.
🤖 Generated with Claude Code