feat(upload): accept legacy .doc, convert via LibreOffice in container #53
Reference in New Issue
Block a user
Delete Branch "feat/doc-upload-support"
Deleting a branch is permanent. Although the deleted branch may continue to exist for a short time before it actually gets removed, it CANNOT be undone in most cases. Continue?
רקע
קבצי
.docישנים (פסיקה מ-nevo.co.il בקידוד CP1255 / OLE2) שמסומנים כפסיקה חסרה בקורפוס לא ניתנים להעלאה ישירה — ה-frontend כבר הציע.docב-accept, אבל ה-gate בבקאנד דחה אותם לפני שהגיעו ל-extractor.שינויים
web/app.py.docנוסף ל-ALLOWED_EXTENSIONS— פותח את כל הנתיבים שחולקים את ה-set: ספריית פסיקה, missing-precedent, trainingDockerfilelibreoffice-writer-nogui(בלי X11/Java) כדי שההמרה הקיימת ב-_extract_docתעבוד בקונטיינר Coolify (היתה חסרה → כשל ב-runtime)extractor.py.docמקבילותאימות
python:3.12-slim(image הבסיס של הפרודקשן): התקנה +.doc→.docx→text..docxמקורית מ-Word: 103 פסקאות, 24,341 תווים..doc→ingest_precedent/ingest_internal_decision→extract_textממיר אוטומטית → חילוץ הלכות ברקע + ניתוח.🤖 Generated with Claude Code