chore(eval): add 9 chair-approved semantic queries to FU-5 gold-set #22

chaim · 2026-05-31T15:58:02Z

chaim commented

2026-05-31 15:58:02 +00:00

ה-gold-set היה 77 known-item ("חפש לפי שם"). נוספו 9 שאילתות מהותיות (S1–S9) שדפנה אישרה — שאלה משפטית בכל שורה, relevant = התקדימים שצריכים לעלות. בודק את מה שחשוב: האם האחזור עונה על סוגיה, לא רק מוצא תיק בשמו. source=chair (נשמר ב-re-bootstrap). practice_area ריק כדי שהפילטר לא יחריג תקדים cross-tagged (פסקי ס'197 יושבים תחת betterment_levy).

baseline כעת 86 שאילתות. ממצא מ-9 המהותיות: MRR ≈ 1.0 — המערכת מציפה תקדים-מוביל רלוונטי בדירוג 1 כמעט לכל שאלה — אבל R@10 נע 0.5–1.0: לשאלות רחבות עם הרבה תקדימים co-relevant (נטרול תמ"א 38 = 5 → R@10 0.60; שמאי מכריע = 2 → 0.50) חלק מהתקדימים לא נכנסים ל-top-10. אחזור תקדים-מוביל חזק; recall ממצה רב-תקדימי הוא הפער.

🤖 Generated with Claude Code

ה-gold-set היה 77 known-item ("חפש לפי שם"). נוספו **9 שאילתות מהותיות** (S1–S9) שדפנה אישרה — שאלה משפטית בכל שורה, relevant = התקדימים שצריכים לעלות. בודק את מה שחשוב: האם האחזור עונה על *סוגיה*, לא רק מוצא תיק בשמו. `source=chair` (נשמר ב-re-bootstrap). `practice_area` ריק כדי שהפילטר לא יחריג תקדים cross-tagged (פסקי ס'197 יושבים תחת betterment_levy). baseline כעת **86 שאילתות**. ממצא מ-9 המהותיות: **MRR ≈ 1.0** — המערכת מציפה תקדים-מוביל רלוונטי בדירוג 1 כמעט לכל שאלה — אבל **R@10 נע 0.5–1.0**: לשאלות רחבות עם הרבה תקדימים co-relevant (נטרול תמ"א 38 = 5 → R@10 0.60; שמאי מכריע = 2 → 0.50) חלק מהתקדימים לא נכנסים ל-top-10. **אחזור תקדים-מוביל חזק; recall ממצה רב-תקדימי הוא הפער.** 🤖 Generated with [Claude Code](https://claude.com/claude-code)

chaim added 1 commit 2026-05-31 15:58:02 +00:00

chore(eval): add 9 chair-approved semantic queries to gold-set (FU-5) 7161c3d010

The gold-set was 77 known-item probes (query=case_name). Added 9 chair-approved
SEMANTIC queries (S1–S9) — a real legal question per row, relevant = the
precedents that should surface (drawn from subject_tags, chair-confirmed). These
test what matters: does retrieval answer a legal issue, not just find a case by
name. source='chair' (preserved across re-bootstrap). practice_area left empty
so the filter never excludes a cross-tagged precedent (s.197 rulings sit under
betterment_levy).

Baseline now 86 queries. Finding from the 9 semantic queries: MRR ≈ 1.0 — the
system surfaces a lead relevant precedent at rank 1 for nearly every question —
but R@10 ranges 0.5–1.0: for broad questions with many co-relevant precedents
(e.g. נטרול תמ"א 38 = 5 relevant → R@10 0.60; שמאי מכריע = 2 → 0.50) some
co-relevant rulings miss the top-10. Lead-precedent retrieval is strong;
exhaustive multi-precedent recall is the gap.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>

chaim merged commit ff5187c9c1 into main

2026-05-31 15:58:11 +00:00

chaim deleted branch chore/goldset-semantic-queries

2026-05-31 15:58:11 +00:00

chaim referenced this issue from a commit

2026-05-31 15:58:13 +00:00

Merge pull request 'chore(eval): add 9 chair-approved semantic queries to FU-5 gold-set' (#22) from chore/goldset-semantic-queries into main

Sign in to join this conversation.

1 Participants

Notifications

Due Date

No due date set.

Dependencies

No dependencies set.

Reference: ezer-mishpati/legal-ai#22