feat(storage): אטימת מסלול-הכתיבה INV-STG1 — 15 seals + CI leak-guard + tripwire #205

Merged
chaim merged 1 commits from worktree-seal-storage-write-path into main 2026-06-11 19:57:55 +00:00
Owner

למה

אחרי ה-cutover ל-s3-only, אודיט מקיף מצא 15 אתרי-כתיבת-בלוב שעוקפים את storage.py (uploads / finalize / exports / training / research-backup / precedents / bulletins / draft). תחת s3-only, קובץ כזה נוחת בתיקיות-הישנות אך לא מגיע ל-MinIO → יאבד בניקוי-דיסק, לא מוגש (presigned), לא מגובה. זה בדיוק החשש שחיים העלה ("איך מוודאים שלא יכנסו קבצים לתיקיות הישנות").

הגישה — dual-write seal (בטוח)

ה-pipeline (ingest/extract) עדיין קורא קבצים לפי file_path מהדיסק, אז ביטול-מוחלט של כתיבה-לדיסק דורש read-wiring מלא של ה-pipeline = Phase 2 (משימה נפרדת, מסוכנת). התיקון הבטוח עכשיו: לשמור את כתיבת-הדיסק (ל-pipeline) וגם למרר ל-S3 (עמידות+הגשה).

  • storage.mirror/mirror_file (+sync) — best-effort persist ל-S3 כשה-backend הוא s3/dual; no-op ב-filesystem; כשל-S3 נרשם ולא שובר request (פילוסופיית DualBackend).
  • web/app.py — helpers _seal_blob/_seal_blob_file + 14 אתרים אטומים (storage.mirror אחרי כתיבת-הדיסק). block_writer.py — draft אטום.

אכיפה — 2 שכבות

  • CI leak-guard (test_storage_write_leak_guard): נכשל ה-build על כל כתיבת-בלוב-לדיסק (write_bytes/write_text/shutil.copy*/open(wb)) ב-web/+services ללא מרקר # noqa: STG1. כל ה-benign (storage-fallbacks / tmp / staging / git-metadata / flag / state) מסומנים עם נימוק; storage.py מוחרג (הוא המימוש). → רגרסיה עתידית נחסמת.
  • tripwire (scripts/storage_leak_tripwire.py): ניטור-ריצה — בלובים בדיסק שלא ב-MinIO (json-key match, סיווג bucket per-file). אומת חי: 0 דליפות.

Invariants

  • INV-STG1 — כל I/O דרך storage / ממורר אליו.
  • feedback_silent_swallow — mirror רושם warning, לא bare-except.

בדיקות

4 mirror (no-op-filesystem / persist-dual / best-effort-never-raises / pure-s3) + 1 leak-guard + 6 serve_blob + 18 storage קיימות = 27 עוברות. py_compile OK. tripwire חי = 0 דליפות.

Follow-up (Phase 2)

read-wire את ה-pipeline (ingest/extract → storage.ensure_local) → להפיל את עותק-הדיסק לגמרי → תנאי-קדם לניקוי-דיסק (#128). research_md in-place-edit staleness מטופל שם.

🤖 Generated with Claude Code

## למה אחרי ה-cutover ל-s3-only, אודיט מקיף מצא **15 אתרי-כתיבת-בלוב שעוקפים את `storage.py`** (uploads / finalize / exports / training / research-backup / precedents / bulletins / draft). תחת s3-only, קובץ כזה נוחת בתיקיות-הישנות אך **לא מגיע ל-MinIO** → יאבד בניקוי-דיסק, לא מוגש (presigned), לא מגובה. זה בדיוק החשש שחיים העלה ("איך מוודאים שלא יכנסו קבצים לתיקיות הישנות"). ## הגישה — dual-write seal (בטוח) ה-pipeline (ingest/extract) עדיין קורא קבצים לפי `file_path` מהדיסק, אז **ביטול-מוחלט** של כתיבה-לדיסק דורש read-wiring מלא של ה-pipeline = **Phase 2** (משימה נפרדת, מסוכנת). התיקון הבטוח עכשיו: לשמור את כתיבת-הדיסק (ל-pipeline) ו**גם** למרר ל-S3 (עמידות+הגשה). - **`storage.mirror`/`mirror_file`** (+sync) — best-effort persist ל-S3 כשה-backend הוא s3/dual; **no-op ב-filesystem**; כשל-S3 נרשם ולא שובר request (פילוסופיית DualBackend). - **`web/app.py`** — helpers `_seal_blob`/`_seal_blob_file` + **14 אתרים אטומים** (`storage.mirror` אחרי כתיבת-הדיסק). **block_writer.py** — draft אטום. ## אכיפה — 2 שכבות - **CI leak-guard** (`test_storage_write_leak_guard`): נכשל ה-build על **כל** כתיבת-בלוב-לדיסק (`write_bytes`/`write_text`/`shutil.copy*`/`open(wb)`) ב-web/+services ללא מרקר `# noqa: STG1`. כל ה-benign (storage-fallbacks / tmp / staging / git-metadata / flag / state) מסומנים עם נימוק; `storage.py` מוחרג (הוא המימוש). → רגרסיה עתידית נחסמת. - **tripwire** (`scripts/storage_leak_tripwire.py`): ניטור-ריצה — בלובים בדיסק שלא ב-MinIO (json-key match, סיווג bucket per-file). **אומת חי: 0 דליפות.** ## Invariants - **INV-STG1** — כל I/O דרך storage / ממורר אליו. - **feedback_silent_swallow** — mirror רושם warning, לא bare-except. ## בדיקות 4 mirror (no-op-filesystem / persist-dual / best-effort-never-raises / pure-s3) + 1 leak-guard + 6 serve_blob + 18 storage קיימות = **27 עוברות**. py_compile OK. tripwire חי = 0 דליפות. ## Follow-up (Phase 2) read-wire את ה-pipeline (ingest/extract → `storage.ensure_local`) → להפיל את עותק-הדיסק לגמרי → תנאי-קדם לניקוי-דיסק (#128). research_md in-place-edit staleness מטופל שם. 🤖 Generated with [Claude Code](https://claude.com/claude-code)
chaim added 1 commit 2026-06-11 19:57:43 +00:00
feat(storage): seal INV-STG1 write path — 15 dual-write seals + CI leak-guard + tripwire
All checks were successful
G12 Leak-Guard / leak-guard (pull_request) Successful in 5s
0d8cc31a2b
אחרי ה-cutover ל-s3-only, אודיט מצא 15 אתרי-כתיבת-בלוב שעוקפים את storage.py (uploads/
finalize/exports/training/research-backup/precedents/bulletins/draft) — קובץ ינחת
בתיקיות-הישנות אך **לא** ב-MinIO → יאבד בניקוי, לא מוגש, לא מגובה. ה-pipeline (ingest/
extract) עדיין קורא לפי file_path מהדיסק, אז ביטול-מוחלט של כתיבה-לדיסק דורש read-wiring
מלא (Phase 2, משימה נפרדת). תיקון בטוח עכשיו = **dual-write seal**.

- storage.py: `mirror`/`mirror_file` (+ sync) — best-effort persist ל-S3 כשה-backend
  s3/dual (no-op ב-filesystem; כשל S3 נרשם, לא שובר request — DualBackend philosophy).
- web/app.py: helpers `_seal_blob`/`_seal_blob_file` + 14 אתרים אטומים (storage.mirror
  אחרי כתיבת-הדיסק; הדיסק נשאר ל-pipeline). block_writer.py: draft אטום (async).
- **CI leak-guard** (test_storage_write_leak_guard): נכשל על כל כתיבת-בלוב-לדיסק
  (write_bytes/write_text/shutil.copy*/open(wb)) ב-web/+services ללא מרקר `# noqa: STG1`.
  כל ה-benign (fallbacks/tmp/staging/git-metadata/flag/state) מסומנים עם נימוק. storage.py
  מוחרג (הוא המימוש).
- **tripwire** (scripts/storage_leak_tripwire.py): ניטור-ריצה — בלובים בדיסק שלא ב-MinIO
  (json-key match, bucket per-file). אומת חי: 0 דליפות.

invariants: INV-STG1 (כל I/O דרך storage / ממורר אליו) · INV-STG6 · feedback_silent_swallow
(mirror רושם warning, לא bare-except). Phase 2 (read-wire ה-pipeline → להפיל את עותק-הדיסק)
= follow-up. tests: 4 mirror + 1 leak-guard + 6 serve_blob + 18 storage קיימות עוברות.

Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
chaim merged commit 383118bc5f into main 2026-06-11 19:57:55 +00:00
chaim deleted branch worktree-seal-storage-write-path 2026-06-11 19:57:55 +00:00
Sign in to join this conversation.
No Reviewers
No Label
1 Participants
Notifications
Due Date
No due date set.
Dependencies

No dependencies set.

Reference: ezer-mishpati/legal-ai#205