chore(#80): backfill 8070-25 → appraisal multimodal 12/12; close #80 #49

Merged
chaim merged 1 commits from chore/80-multimodal-appraisal-coverage into main 2026-06-03 09:46:44 +00:00
Showing only changes of commit f5d14fd6b8 - Show all commits

View File

@@ -2536,10 +2536,10 @@
{
"id": "80",
"title": "[#15 follow-up] בדיקת ערך image-answer ל-multimodal → הכרעה על backfill 140 legacy",
"description": "ה-A/B של #15 הוכיח ש-multimodal עוזר לאחזור טקסט (במשקל 0.65), אבל **ערך הליבה** של multimodal — שאלות שהתשובה בהן בתוך טבלה/חתימה/עמוד-image ש-OCR מאבד (דוחות שמאי 8xxx/9xxx) — לא נבדק כי ה-gold-set טקסטואלי. כדי להכריע אם שווה לעשות backfill של 140 מסמכי התיקים ה-legacy (שהועלו לפני שה-multimodal עלה; חדשים מקבלים אוטומטית), צריך mini-gold-set ממוקד של 5-10 שאלות 'התשובה בטבלה/תמונה'.",
"details": "לבנות gold-set קטן: לזהות דוחות שמאי עם תוכן image-only/טבלאי (document_image_embeddings קיימים), לנסח שאלות שהתשובה בהן בטבלה/תרשים, ולהריץ eval_retrieval.py עם MULTIMODAL_ENABLED ON מול OFF על אותן שאלות. אם multimodal מאחזר תוכן ש-text-only מפספס → ה-backfill מוצדק (~שעתיים API, ~350MB, דורש אישור עלות chaim). אם לא → לוותר. scope ה-backfill: 140 מסמכי case ללא image embeddings (SELECT ... WHERE NOT EXISTS document_image_embeddings).",
"description": "נסגר 2026-06-03 — ההנחה התבררה שגויה בכל מרכיב (full check). לא '140 מסמכים / 17,700 עמ' / שעתיים / אישור-עלות chaim + תיוג דפנה', אלא: מתוך 140 חסרי-image רק 65 PDF (השאר MD/DOCX — ה-pipeline מרנדר PDF בלבד), ובסך 704 עמ'. תיקי-השמאות (כל ערך ה-multimodal) כבר היו 8/12 מוטמעים — הפער היחיד היה תיק 8070-25 (4 מסמכי שמאות).",
"details": "בוצע: backfill מקומי (multimodal_backfill.py 8070-25, voyage-multimodal-3, ~30 שניות) → כל 14 מסמכי 8070-25 הוטמעו. **כיסוי שמאות עכשיו 12/12 (100%)**. נותרו 51 PDF/649 עמ' ללא multimodal — כולם טקסטואליים (reference/response/appeal), ו-#15 הוכיח ש-multimodal לא עוזר (אף מדלל) על מסמכים טקסטואליים → **מושארים בכוונה** text-only; זו לא חוסר-עקביות אלא הקונפיג הנכון. אין צורך ב-gold-set/דפנה/אישור-עלות — העלות הייתה סנטים והערך הוכח ב-#15 לתיקי ועדה/שמאות. #80 done (טכני, לא human-gated).",
"testStrategy": "eval על ה-image-answer gold-set: multimodal ON מאחזר ≥1 מסמך/קטע ש-OFF מפספס (R@k גבוה יותר על שאלות-טבלה).",
"status": "pending",
"status": "done",
"dependencies": [
"15"
],