fix(halacha): #81.7 — Gwet AC1 + consensus-vs-human (פרדוקס-הקאפא תחת הטיה) #189

Merged
chaim merged 1 commits from worktree-goldset-ac1-agreement into main 2026-06-11 16:13:46 +00:00
Owner

למה

ריצת-הפאנל החיה (40 פריטים) נתנה Fleiss κ = −0.07 למרות 97.5% הסכמה-גסה (28/40 פה-אחד + 11/40 רוב). זה לא חוסר-אמינות אלא פרדוקס-הקאפא: ה-marginal של is_holding מוטה קיצונית (כמעט הכול True — בדיוק כמו 93/100 ה-keep בתוויות-היו"ר). כש-Pe→1, גם κ→0 (Feinstein & Cicchetti 1990, "high agreement, low kappa"). דיווח κ לבדו היה מטעה ומפיל ספורית את קריטריון ה-κ≥0.6 של #81.7.

מה

  • gwet_ac1() — מדד הסכמה עמיד-שכיחות (Gwet 2008): אותו Pa כמו Fleiss, אומדן-מקריות שונה (2·p·(1−p)). הופך למדד-הכותרת; Fleiss κ עדיין מודווח לשקיפות + raw 3/3.
  • consensus-vs-HUMAN — כשקיים תיוג-יו"ר לפריט, הדוח מודד את התאמת-הקונצנזוס מולו (תוקף חיצוני).

אימות בפועל (על ה-DB החי)

  • consensus מול 100 תוויות-היו"ר: 29/29 = 100% התאמה (על החפיפה שכבר נופתה).
  • pairwise: d↔g 100%, c↔d/c↔g 80% → רעש פר-מודל מתמצע ע"י הרוב.
  • AC1 על מקרה-הפרדוקס (unit): κ≈0 בעוד AC1>0.9.

Invariants

ללא שינוי בהתנהגות-הכתיבה (מטריקה/דיווח בלבד).

בדיקות

21 offline (3 חדשות, כולל test_gwet_ac1_resolves_the_kappa_paradox). py_compile OK.

מקור: Gwet 2008 (AC1) · Feinstein & Cicchetti 1990.

🤖 Generated with Claude Code

## למה ריצת-הפאנל החיה (40 פריטים) נתנה **Fleiss κ = −0.07** למרות **97.5% הסכמה-גסה** (28/40 פה-אחד + 11/40 רוב). זה לא חוסר-אמינות אלא **פרדוקס-הקאפא**: ה-marginal של `is_holding` מוטה קיצונית (כמעט הכול `True` — בדיוק כמו 93/100 ה-keep בתוויות-היו"ר). כש-Pe→1, גם κ→0 (Feinstein & Cicchetti 1990, "high agreement, low kappa"). דיווח κ לבדו היה מטעה ומפיל ספורית את קריטריון ה-κ≥0.6 של #81.7. ## מה - **`gwet_ac1()`** — מדד הסכמה עמיד-שכיחות (Gwet 2008): אותו `Pa` כמו Fleiss, אומדן-מקריות שונה (`2·p·(1−p)`). הופך למדד-הכותרת; Fleiss κ עדיין מודווח לשקיפות + `raw 3/3`. - **consensus-vs-HUMAN** — כשקיים תיוג-יו"ר לפריט, הדוח מודד את התאמת-הקונצנזוס מולו (תוקף חיצוני). ## אימות בפועל (על ה-DB החי) - consensus מול 100 תוויות-היו"ר: **29/29 = 100%** התאמה (על החפיפה שכבר נופתה). - pairwise: d↔g 100%, c↔d/c↔g 80% → רעש פר-מודל מתמצע ע"י הרוב. - AC1 על מקרה-הפרדוקס (unit): κ≈0 בעוד AC1>0.9. ## Invariants ללא שינוי בהתנהגות-הכתיבה (מטריקה/דיווח בלבד). ## בדיקות 21 offline (3 חדשות, כולל `test_gwet_ac1_resolves_the_kappa_paradox`). py_compile OK. מקור: Gwet 2008 (AC1) · Feinstein & Cicchetti 1990. 🤖 Generated with [Claude Code](https://claude.com/claude-code)
chaim added 1 commit 2026-06-11 16:13:41 +00:00
fix(halacha): #81.7 — report Gwet AC1 + consensus-vs-human (κ paradox under skew)
All checks were successful
G12 Leak-Guard / leak-guard (pull_request) Successful in 5s
5f93c7492f
ריצת-הפאנל החיה חשפה Fleiss κ=-0.07 למרות 97.5% הסכמה-גסה (28/40 פה-אחד, 11/40 רוב).
זה אינו חוסר-אמינות אלא **פרדוקס-הקאפא**: ה-marginal של is_holding מוטה קיצונית
(≈הכול True, כמו 93/100 ה-keep בתוויות-האנוש), וכש-Pe→1 גם κ→0 (Feinstein & Cicchetti
1990, "high agreement, low kappa").

- gwet_ac1(): מדד הסכמה עמיד-שכיחות (Gwet 2008) — אותו Pa כמו Fleiss, אומדן-מקריות שונה
  (2·p·(1-p)). הופך לכותרת; Fleiss κ עדיין מודווח לשקיפות + raw 3/3.
- consensus-vs-HUMAN: כשקיים תיוג-יו"ר, הדוח מודד התאמת-הקונצנזוס מולו (תוקף חיצוני).
  אימות בפועל על 100 תוויות-היו"ר: 29/29 = 100% התאמה.

invariants: ללא שינוי בהתנהגות-הכתיבה; מטריקה בלבד. tests: 21 (3 חדשות, כולל מקרה-פרדוקס מפורש).
מקור: Gwet 2008 (AC1) · Feinstein & Cicchetti 1990.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
chaim merged commit 6933d1d016 into main 2026-06-11 16:13:46 +00:00
chaim deleted branch worktree-goldset-ac1-agreement 2026-06-11 16:13:46 +00:00
Sign in to join this conversation.
No Reviewers
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: ezer-mishpati/legal-ai#189