feat(halacha): strict-rubric quality gate + dedup-on-insert (#81,#82) #50
Reference in New Issue
Block a user
Delete Branch "feat/halacha-quality-gate"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
רקע
מטמיע את הרובריקה המחמירה (
docs/halacha-strict-rubric.md) שהנחתה את ניקוי הקורפוס ב-2026-06-03 (1454→534) לתוך ה-pipeline, כך שחילוץ עתידי יוצא נקי ולא נצטרך לנקות שוב.#81 — שער איכות
halacha_quality.pyעם ולידטורים מבודקי-יחידה: אי-הכרעה/obiter (מבחן Wambaugh + לקסיקון), ציטוט-קטוע (חיתוך באמצע מילה), restatement-דק (rule≈quote), ציטוט-לא-מאומת.halacha_extractor._process; אי-הכרעה ממוין מחדש כ-obiter; הדגלים נשמרים בעמודה חדשהhalachot.quality_flags.confidence≥thresholdוגם היעדר דגלי איכות — פריט מסומן הולך ל-pending_reviewללא קשר לביטחון.#82 — dedup בזמן הכנסה (
store_halachot_for_chunk)supporting_quoteהמנורמל שלה כבר קיים, או שה-embedding שלה ב-cosine≥HALACHA_DEDUP_COSINE(0.93) מול הלכה קיימת. הופך re-run לאידמפוטנטי.מיגרציה
halachot.quality_flags TEXT[]— ALTER אידמפוטנטי (כבר הוחל על ה-DB; init מריץ אותו שוב בבטחה).בדיקות
נותר ל-follow-up (#81/#82 subtasks)
NLI entailment (#81.3), clustering/cap על over-extraction (#81.5), rhetorical-role (#81.6), gold-set (#81.7), merge-with-provenance + lexical tail (#82.3/4), cross-precedent batch (#82.7).
🤖 Generated with Claude Code