From 1cc7c0e7575925b0ff5a3e284a3860e18c759208 Mon Sep 17 00:00:00 2001 From: Chaim Date: Sun, 31 May 2026 16:05:53 +0000 Subject: [PATCH] =?UTF-8?q?chore(tasks):=20#71=20=E2=80=94=20FU-5=20follow?= =?UTF-8?q?-up,=20multi-precedent=20recall=20depth=20tuning?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit Diagnosis from the FU-5 eval: co-relevant precedents for broad legal questions rank 15-16 (retrieved, not absent — recall ~1.0 by rank 20). Tracked as a deliberate, harness-measured tuning task rather than an unmeasured global limit change (which affects UI + writer agents + token cost). Co-Authored-By: Claude Opus 4.8 (1M context) --- .taskmaster/tasks/tasks.json | 14 ++++++++++++++ 1 file changed, 14 insertions(+) diff --git a/.taskmaster/tasks/tasks.json b/.taskmaster/tasks/tasks.json index 8dcdb72..5f7ac3e 100644 --- a/.taskmaster/tasks/tasks.json +++ b/.taskmaster/tasks/tasks.json @@ -2418,6 +2418,20 @@ "priority": "medium", "subtasks": [], "updatedAt": "2026-05-31T14:11:27.861937+00:00" + }, + { + "id": "71", + "title": "[FU-5 follow-up] כוונון עומק-אחזור/rerank — recall רב-תקדימי לסוגיות רחבות", + "description": "ה-eval harness (#63) חשף: לשאלות משפטיות רחבות (5 תקדימים רלוונטיים) חלק מהתקדימים ה-co-relevant מדורגים 15–16 ונופלים מ-top-10. אבחון 2026-05-31: התקדימים *מאוחזרים* (recall תקין, ≈1.0 ב-rank 20) — זו בעיית עומק-חיתוך/דירוג, לא כשל-recall. לשקול בזהירות: העלאת limit ברירת-מחדל של search_precedent_library (10→15/20) ו/או כוונון rerank depth/diversity, ולמדוד ΔR@10 מול רגרסיה ב-known-item (MRR≈1.0 כיום).", + "details": "מקור: baseline FU-5 על 9 שאילתות-יו\"ר מהותיות (S1-S9). שאילתות חלשות: S2 נטרול תמ\"א 38 (R@10=0.60, הבית שמעוני@16), S8 שמאי מכריע (0.50), S4 (ב.דייניש@15), S7 (גבעת האירוסים@15). חשוב: שינוי limit משפיע על web-ui (תצוגה), סוכני-כתיבה (כמות תקדימים ל-LLM, עלות-tokens), ולכן דורש שיקול מוצר + מדידה. תהליך: env VOYAGE/POSTGRES → scripts/eval_retrieval.py לפני/אחרי כל שינוי, להשוות מול data/eval/baseline.json. severity: Medium. סוג: retrieval-tuning + מדידה. תלוי ב-#63 (harness).", + "testStrategy": "לפני/אחרי כל שינוי: eval_retrieval.py באותו retrieval_config; הוכחה ש-R@10 הרב-תקדימי עולה בלי ירידה ב-MRR/known-item recall.", + "status": "pending", + "dependencies": [ + "63" + ], + "priority": "low", + "subtasks": [], + "updatedAt": "2026-05-31T16:05:35.071261+00:00" } ], "metadata": { -- 2.49.1