fix(halacha): #81.7 — Gwet AC1 + consensus-vs-human (פרדוקס-הקאפא תחת הטיה) #189

chaim · 2026-06-11T16:13:41Z

chaim commented

2026-06-11 16:13:41 +00:00

למה

ריצת-הפאנל החיה (40 פריטים) נתנה Fleiss κ = −0.07 למרות 97.5% הסכמה-גסה (28/40 פה-אחד + 11/40 רוב). זה לא חוסר-אמינות אלא פרדוקס-הקאפא: ה-marginal של is_holding מוטה קיצונית (כמעט הכול True — בדיוק כמו 93/100 ה-keep בתוויות-היו"ר). כש-Pe→1, גם κ→0 (Feinstein & Cicchetti 1990, "high agreement, low kappa"). דיווח κ לבדו היה מטעה ומפיל ספורית את קריטריון ה-κ≥0.6 של #81.7.

מה

gwet_ac1() — מדד הסכמה עמיד-שכיחות (Gwet 2008): אותו Pa כמו Fleiss, אומדן-מקריות שונה (2·p·(1−p)). הופך למדד-הכותרת; Fleiss κ עדיין מודווח לשקיפות + raw 3/3.
consensus-vs-HUMAN — כשקיים תיוג-יו"ר לפריט, הדוח מודד את התאמת-הקונצנזוס מולו (תוקף חיצוני).

אימות בפועל (על ה-DB החי)

consensus מול 100 תוויות-היו"ר: 29/29 = 100% התאמה (על החפיפה שכבר נופתה).
pairwise: d↔g 100%, c↔d/c↔g 80% → רעש פר-מודל מתמצע ע"י הרוב.
AC1 על מקרה-הפרדוקס (unit): κ≈0 בעוד AC1>0.9.

Invariants

ללא שינוי בהתנהגות-הכתיבה (מטריקה/דיווח בלבד).

בדיקות

21 offline (3 חדשות, כולל test_gwet_ac1_resolves_the_kappa_paradox). py_compile OK.

מקור: Gwet 2008 (AC1) · Feinstein & Cicchetti 1990.

🤖 Generated with Claude Code

## למה ריצת-הפאנל החיה (40 פריטים) נתנה **Fleiss κ = −0.07** למרות **97.5% הסכמה-גסה** (28/40 פה-אחד + 11/40 רוב). זה לא חוסר-אמינות אלא **פרדוקס-הקאפא**: ה-marginal של `is_holding` מוטה קיצונית (כמעט הכול `True` — בדיוק כמו 93/100 ה-keep בתוויות-היו"ר). כש-Pe→1, גם κ→0 (Feinstein & Cicchetti 1990, "high agreement, low kappa"). דיווח κ לבדו היה מטעה ומפיל ספורית את קריטריון ה-κ≥0.6 של #81.7. ## מה - **`gwet_ac1()`** — מדד הסכמה עמיד-שכיחות (Gwet 2008): אותו `Pa` כמו Fleiss, אומדן-מקריות שונה (`2·p·(1−p)`). הופך למדד-הכותרת; Fleiss κ עדיין מודווח לשקיפות + `raw 3/3`. - **consensus-vs-HUMAN** — כשקיים תיוג-יו"ר לפריט, הדוח מודד את התאמת-הקונצנזוס מולו (תוקף חיצוני). ## אימות בפועל (על ה-DB החי) - consensus מול 100 תוויות-היו"ר: **29/29 = 100%** התאמה (על החפיפה שכבר נופתה). - pairwise: d↔g 100%, c↔d/c↔g 80% → רעש פר-מודל מתמצע ע"י הרוב. - AC1 על מקרה-הפרדוקס (unit): κ≈0 בעוד AC1>0.9. ## Invariants ללא שינוי בהתנהגות-הכתיבה (מטריקה/דיווח בלבד). ## בדיקות 21 offline (3 חדשות, כולל `test_gwet_ac1_resolves_the_kappa_paradox`). py_compile OK. מקור: Gwet 2008 (AC1) · Feinstein & Cicchetti 1990. 🤖 Generated with [Claude Code](https://claude.com/claude-code)

chaim added 1 commit 2026-06-11 16:13:41 +00:00

fix(halacha): #81.7 — report Gwet AC1 + consensus-vs-human (κ paradox under skew)

G12 Leak-Guard / leak-guard (pull_request) Successful in 5s

Details

5f93c7492f

ריצת-הפאנל החיה חשפה Fleiss κ=-0.07 למרות 97.5% הסכמה-גסה (28/40 פה-אחד, 11/40 רוב).
זה אינו חוסר-אמינות אלא **פרדוקס-הקאפא**: ה-marginal של is_holding מוטה קיצונית
(≈הכול True, כמו 93/100 ה-keep בתוויות-האנוש), וכש-Pe→1 גם κ→0 (Feinstein & Cicchetti
1990, "high agreement, low kappa").

- gwet_ac1(): מדד הסכמה עמיד-שכיחות (Gwet 2008) — אותו Pa כמו Fleiss, אומדן-מקריות שונה
  (2·p·(1-p)). הופך לכותרת; Fleiss κ עדיין מודווח לשקיפות + raw 3/3.
- consensus-vs-HUMAN: כשקיים תיוג-יו"ר, הדוח מודד התאמת-הקונצנזוס מולו (תוקף חיצוני).
  אימות בפועל על 100 תוויות-היו"ר: 29/29 = 100% התאמה.

invariants: ללא שינוי בהתנהגות-הכתיבה; מטריקה בלבד. tests: 21 (3 חדשות, כולל מקרה-פרדוקס מפורש).
מקור: Gwet 2008 (AC1) · Feinstein & Cicchetti 1990.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>

chaim merged commit 6933d1d016 into main

2026-06-11 16:13:46 +00:00

chaim deleted branch worktree-goldset-ac1-agreement

2026-06-11 16:13:46 +00:00

chaim referenced this issue from a commit

2026-06-11 16:13:47 +00:00

Merge pull request 'fix(halacha): #81.7 — Gwet AC1 + consensus-vs-human (פרדוקס-הקאפא תחת הטיה)' (#189) from worktree-goldset-ac1-agreement into main

Sign in to join this conversation.

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: ezer-mishpati/legal-ai#189