chore(tasks): research-backed decisions — close #71/#42/#14/#76 + #70 normalization #47

chaim · 2026-06-03T09:09:54Z

chaim commented

2026-06-03 09:09:54 +00:00

סבב הכרעות מבוססות-מחקר (≥3 מקורות מוסמכים פתוחים לכל החלטה ארכיטקטונית), לפי הנחיית chaim — להכריע טכנית מה שלא דורש דפנה/chaim.

#	החלטה	בסיס
#71	✅ done — נפתר ע"י #15	מדידה: כל הרלוונטיים ב-top-10. מחקר (6 מק' — RRF/Drowning-in-Documents/ReFIT/MMR/Elastic/Pinecone) המליץ rerank; בדיקה אמפירית הראתה שזה מזיק (nDCG 0.879 מול 0.960) → לא מפעילים
#42	❌ cancelled — obviated	BM25 hybrid כבר תופס קיצורים; 0 שאילתות-קיצור ב-eval, recall ~0.99, אין gap נמדד
#14	⏸ deferred (נסקר)	אין blocker; YAGNI; trigger מתועד
#76	❌ cancelled — upstream	באג Paperclip לא ניתן לתיקון בטוח אצלנו; workaround + #78
#70	חלקי — נרמול בוצע	מחקר (ECLI/Akoma Ntoso/ELI/OpenCitations): 3 תיקונים מכניים הוחלו; 4 דו-משמעיים סומנו ליו"ר (לא נוחשו, משמר false-merge)
#80	נשאר pending	human-gated: ערך=דפנה, עלות=chaim

🤖 Generated with Claude Code

סבב הכרעות מבוססות-מחקר (≥3 מקורות מוסמכים פתוחים לכל החלטה ארכיטקטונית), לפי הנחיית chaim — להכריע טכנית מה שלא דורש דפנה/chaim. | # | החלטה | בסיס | |---|--------|------| | **#71** | ✅ done — נפתר ע"י #15 | מדידה: כל הרלוונטיים ב-top-10. מחקר (6 מק' — RRF/Drowning-in-Documents/ReFIT/MMR/Elastic/Pinecone) המליץ rerank; בדיקה אמפירית הראתה שזה **מזיק** (nDCG 0.879 מול 0.960) → לא מפעילים | | **#42** | ❌ cancelled — obviated | BM25 hybrid כבר תופס קיצורים; 0 שאילתות-קיצור ב-eval, recall ~0.99, אין gap נמדד | | **#14** | ⏸ deferred (נסקר) | אין blocker; YAGNI; trigger מתועד | | **#76** | ❌ cancelled — upstream | באג Paperclip לא ניתן לתיקון בטוח אצלנו; workaround + #78 | | **#70** | חלקי — נרמול בוצע | מחקר (ECLI/Akoma Ntoso/ELI/OpenCitations): 3 תיקונים מכניים הוחלו; 4 דו-משמעיים סומנו ליו"ר (לא נוחשו, משמר false-merge) | | **#80** | נשאר pending | human-gated: ערך=דפנה, עלות=chaim | 🤖 Generated with [Claude Code](https://claude.com/claude-code)

chaim added 1 commit 2026-06-03 09:09:55 +00:00

chore(tasks): research-backed decisions to close open tasks (#71/#42/#14/#76/#70) 2a9168a1b4

Per chaim's directive — for decisions not requiring Dafna/chaim, decide after
>=3 authoritative open sources.

#71 DONE — resolved by #15's weight fix (measured: all multi-relevant docs now
  in top-10, the rank-15/16 weak queries fixed). Research (6 sources) said
  enable rerank; tested empirically → it HURT (nDCG@5 0.879 vs 0.960, MRR 0.867
  vs 0.954) because recall is saturated and the cross-encoder demotes exact
  known-item matches. Measurement overrides theory: no rerank, no limit change.
#42 CANCELLED — obviated by BM25 hybrid (already on; handles abbreviation
  tokens lexically); 0 abbrev queries in eval, recall ~0.99, no measured gap.
#14 DEFERRED (reviewed) — no current blocker; YAGNI; trigger documented.
#76 CANCELLED — upstream Paperclip bug (ee=companyId), not safely fixable our
  side; workaround + #78 documented.
#70 — research-backed normalization (ECLI/Akoma Ntoso/ELI/OpenCitations +
  Christen). Applied 3 deterministic mechanical fixes to cited_only (whitespace
  + missing prefix-space); 0 malformed remain. 4 ambiguous items (2 garbled,
  'ערר אדלר', 1 combined citation) flagged for chair — NOT auto-guessed, per
  the entity-resolution false-merge guardrail.

#80 stays pending — human-gated (Dafna value-labeling + chaim cost).

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>