Compare commits
388 Commits
0990db7a3c
...
worktree-c
| Author | SHA1 | Date | |
|---|---|---|---|
| 4ca907b97f | |||
| 6b2fd562ae | |||
| a4114cce5e | |||
| 338a8a947f | |||
| db93735ed6 | |||
| dd2e12f902 | |||
| 75f40cc778 | |||
| 1f9268356e | |||
| 7c39c685e5 | |||
| aba87737e3 | |||
| 0c20f2054b | |||
| 8d9841a9f3 | |||
| 9618dc895b | |||
| 93cd0f9553 | |||
| 42376db4c5 | |||
| fa7fe85177 | |||
| b8349da41d | |||
| caee5faece | |||
| 2b1fb18dfd | |||
| 6484e745d8 | |||
| 43621e8300 | |||
| 4994ae0cba | |||
| a55ffd59eb | |||
| 9f39d390a6 | |||
| 32db9621b6 | |||
| 20a51c572a | |||
| 0c726a19b8 | |||
| 471934cc2c | |||
| a78601b9d0 | |||
| 3c4454651a | |||
| 08a0eb7c01 | |||
| 4bc94d9e4d | |||
| d4ec675c67 | |||
| f3b5223f0f | |||
| 406e93b9bf | |||
| ba542f9c21 | |||
| 5370ada37c | |||
| fe4694672e | |||
| fb6f284297 | |||
| 2c328d6906 | |||
| 4280bf2a21 | |||
| 9d66ad4bf7 | |||
| e7124e94a3 | |||
| 221975fe23 | |||
| 26aff99ac7 | |||
| 896df0cb8c | |||
| c87d9e2ef5 | |||
| 9826995c12 | |||
| b2981d995b | |||
| 85493502f0 | |||
| b4cb0a69c3 | |||
| 251262ab67 | |||
| 9fc00d6e7f | |||
| 4c52a42587 | |||
| 2ccc55d35a | |||
| 37cd28eab6 | |||
| fcd7ffb186 | |||
| 37e881bf8c | |||
| a2b9bcc84c | |||
| a1245b6b41 | |||
| 2c3ba6e4d0 | |||
| 86d4aa8971 | |||
| 2570949b30 | |||
| 0c78e30e07 | |||
| 576a4b916b | |||
| 5a23c8bafc | |||
| fc02ccaeff | |||
| 9a7c1c4148 | |||
| 9fd506ff2b | |||
| ea8712ecff | |||
| 161e370a4c | |||
| bea2065640 | |||
| 49cbd8bb3a | |||
| 6cc100f9f8 | |||
| 9e45e5a46d | |||
| a02b929b5c | |||
| 07ecb6a366 | |||
| ce86821393 | |||
| 2343892220 | |||
| ea232da92d | |||
| c348903e4b | |||
| 7043de0ac2 | |||
| d6608ce849 | |||
| 33b07eebcf | |||
| 77817a46ad | |||
| e552d831bd | |||
| c27987ba72 | |||
| 1094ac9967 | |||
| 76a29756c5 | |||
| eb86e475c3 | |||
| b7ffc0387c | |||
| d7ef3e7f38 | |||
| 1340bff6f1 | |||
| 7f9f502f29 | |||
| a05df3eb1a | |||
| 1a4b4fcf63 | |||
| a40c4ee828 | |||
| 6bc9fa89a2 | |||
| 5d75d36e2a | |||
| 70ac888592 | |||
| 46bcaa8fa3 | |||
| 09ea1ee599 | |||
| 4be9cf8543 | |||
| 83293ca619 | |||
| 49efa94d60 | |||
| f8791ba4a1 | |||
| 0a3bc35623 | |||
| 1fbb1eede6 | |||
| e2c94144d0 | |||
| 6fc87de1c5 | |||
| 64612240d5 | |||
| b9e4c1fde4 | |||
| f7a8ad48ac | |||
| 4dce06c04a | |||
| eac4dd3ac9 | |||
| 01bc1b9743 | |||
| 693126484b | |||
| 17460044ac | |||
| 6f3c3963a4 | |||
| d093319ffd | |||
| 9e46db3c48 | |||
| 8d13e26cc8 | |||
| 013fe39ea7 | |||
| 96a1144f43 | |||
| a44827c3dd | |||
| 72f81734f1 | |||
| 49acde591e | |||
| 387cd37255 | |||
| 0249184a6b | |||
| 81aa2ac368 | |||
| 9154a1d817 | |||
| 6926d21b15 | |||
| 15e4af595a | |||
| b6dec104c8 | |||
| 75a1b23972 | |||
| d2154020c6 | |||
| c7c402e7ef | |||
| 551d38dd7c | |||
| 309064be7d | |||
| c474b58311 | |||
| 959cb093b4 | |||
| 82f1728d3c | |||
| 5913654ae2 | |||
| 51f9d9d309 | |||
| ab1e72f0cc | |||
| 584bc62488 | |||
| 2962538c09 | |||
| 99fe16a43d | |||
| b49cde7c24 | |||
| 5272ded4f7 | |||
| 4f7c3733e2 | |||
| 49827acd4f | |||
| f0a8af30dc | |||
| ca1a0ddaac | |||
| 242e6cfd11 | |||
| a0b3c17381 | |||
| d246fb85fc | |||
| 412bd091cf | |||
| 4cad17df3a | |||
| 305c084d0c | |||
| 6fba565fcb | |||
| b95b02486b | |||
| d98ef14f41 | |||
| 1470841e26 | |||
| 183156646c | |||
| d292c06ecd | |||
| 9c6896df90 | |||
| 208be9061b | |||
| e8bcb9c1ea | |||
| 9cd290e08e | |||
| b0411db80b | |||
| ebb9c211af | |||
| d4dc58fe5a | |||
| 56bc72760a | |||
| 614c06ab60 | |||
| 57a6a01a03 | |||
| 4ea6326766 | |||
| b79f1a2420 | |||
| 0a7869175e | |||
| b4e79aa8fa | |||
| f3b075d282 | |||
| c53ef9a7c4 | |||
| f528407503 | |||
| 1351c77dfd | |||
| 35f656f2b8 | |||
| 13b8a6ef05 | |||
| b0efa700da | |||
| b447ffb184 | |||
| b85aafa8f9 | |||
| 65d649cfcc | |||
| 9482eb5a1e | |||
| 3757910079 | |||
| 6e69c1dc38 | |||
| fc2de64700 | |||
| 36bae6c592 | |||
| f1ea4fc00a | |||
| 80455af62d | |||
| 383118bc5f | |||
| 0d8cc31a2b | |||
| e1e54d61c7 | |||
| 3ac022d0fb | |||
| e3dc7958b2 | |||
| 8651529327 | |||
| 24480950f1 | |||
| 4b01283e3b | |||
| 0a45fab4ee | |||
| 6359363f13 | |||
| af5875453d | |||
| e6778d26e5 | |||
| 2e0cfd8d94 | |||
| a13fc76c49 | |||
| 2e2234ec27 | |||
| 63784f1f91 | |||
| 6c0590e1e3 | |||
| 970e8dc748 | |||
| 671edf1128 | |||
| 94a4c3600e | |||
| e91c1c4afc | |||
| 7d8bdc8c72 | |||
| c18a5443fd | |||
| ec14e8310b | |||
| ff2d28b1a7 | |||
| a4b4ebbbb1 | |||
| a00e226a08 | |||
| 97271689ef | |||
| 276bb4ae93 | |||
| 4e06662208 | |||
| 7e1a0c879a | |||
| 621dcf749a | |||
| 6933d1d016 | |||
| 5f93c7492f | |||
| e6c6237ef6 | |||
| 5b001bbd9d | |||
| d837101edd | |||
| 3c169a76f2 | |||
| 369755c350 | |||
| 4fa62db192 | |||
| 07ca76cd87 | |||
| 2f094b8d84 | |||
| 130ddc3a7e | |||
| a4e006ab50 | |||
| 4d1d1eb3fa | |||
| 64db643e6d | |||
| 33663b9816 | |||
| d05c1e3fce | |||
| e2e42f850d | |||
| c504a61d49 | |||
| 1eece500d3 | |||
| bfea8d8895 | |||
| dd67318394 | |||
| b2912e1b83 | |||
| f5650196b7 | |||
| e7d8b24d7c | |||
| 61d235175f | |||
| d2b622f28e | |||
| 20781398ee | |||
| e5168fe79d | |||
| 8a2ae9921a | |||
| d4514e608d | |||
| b4f141df84 | |||
| 1c182edb29 | |||
| 8b69adc7bd | |||
| 2b6e95c484 | |||
| c903770fb3 | |||
| 26e0219219 | |||
| 81171983e4 | |||
| d156bcfaf1 | |||
| 33d8faf74a | |||
| cb822c4900 | |||
| f1d6f5dafc | |||
| 1a50aa7709 | |||
| 405167269f | |||
| 7f573c0db3 | |||
| aa0fde2724 | |||
| e57730f375 | |||
| 6299998267 | |||
| d4d2ab4d68 | |||
| c0af8c7cda | |||
| 2f43960353 | |||
| de777c2b13 | |||
| 98c5feff25 | |||
| 2c4287fd3d | |||
| 55362bf5a1 | |||
| 7ebd4187a9 | |||
| c8344342a8 | |||
| 02f411f4dc | |||
| 0f0656ecca | |||
| c028328175 | |||
| 471cd37fc8 | |||
| 9f358db353 | |||
| d23f854c25 | |||
| 9ae49f0f70 | |||
| f79c46a352 | |||
| ae30a4d19a | |||
| 638eef6803 | |||
| 6647aa92e6 | |||
| b2ea0c28dd | |||
| bc5dd9ac48 | |||
| 5745d36bb4 | |||
| 05e8373d22 | |||
| 85f94a4f3f | |||
| 1e41125baa | |||
| 1f42a39ce4 | |||
| 39f8cb7c15 | |||
| 1986fe3b14 | |||
| 81b3de6f4f | |||
| b4a28f072d | |||
| ade22ca871 | |||
| 54948eb8ab | |||
| 6ec67d1a11 | |||
| 34d80a39e5 | |||
| 5bd235bcff | |||
| a92f543e7f | |||
| 8de2401cb1 | |||
| 83d30365c9 | |||
| 64b9bd9d99 | |||
| 8d2f1ea0a2 | |||
| 36319a8d75 | |||
| 16470f6279 | |||
| 97d5b178d3 | |||
| a5a4f53660 | |||
| 6c6e4e021b | |||
| d895062b4c | |||
| a1db283ce1 | |||
| 97ede1a49d | |||
| 2972ef74a4 | |||
| 5676fd1157 | |||
| 83d1a8253c | |||
| 5eeff24889 | |||
| 5bf2ea0262 | |||
| 7fb5134580 | |||
| c3735d019a | |||
| d95a36f310 | |||
| de56d3b39d | |||
| ef21cb93e5 | |||
| cc9adc5c1f | |||
| da4ebeb724 | |||
| d8113adec6 | |||
| a3a02ca67a | |||
| b022cc7a97 | |||
| 5f1b96ccaf | |||
| 4b5c8a2772 | |||
| b5f7b60fb5 | |||
| 2c75666d26 | |||
| fc5d69902f | |||
| 8dc0a268fb | |||
| 9a126f7c36 | |||
| 3c030dd7f5 | |||
| dba2a131e0 | |||
| ecd9e46bb9 | |||
| 6cdf178ea4 | |||
| 2fbc0cd3c2 | |||
| 360f49d8b4 | |||
| 24d80e6a2a | |||
| 3ae183009f | |||
| 106ab53231 | |||
| 8258f09228 | |||
| aa32766a8c | |||
| 6882ccfcf1 | |||
| 618f476a22 | |||
| 69b34f1c3f | |||
| 796bfa890f | |||
| c1abf2ec0e | |||
| 6468e151d9 | |||
| fb40ec8565 | |||
| bcd5fd5f8d | |||
| f4f110f0d1 | |||
| 540d39b958 | |||
| d3b5c563ce | |||
| d9340f6c39 | |||
| 808c2e4c46 | |||
| 879bb6c074 | |||
| f3e99a14ca | |||
| b9fa38f3db | |||
| f56309da5a | |||
| 635dc98492 | |||
| e6dc410d7d | |||
| e82eeaad9f | |||
| e186183527 | |||
| 61b9d72bcf | |||
| 781f24c643 | |||
| 9315ba4dfe | |||
| c80e4ce8ff | |||
| f3740fef68 | |||
| 2e33cac043 | |||
| acb8e2c206 | |||
| 692eea76f0 | |||
| 06281996ca |
@@ -34,6 +34,17 @@
|
||||
|
||||
---
|
||||
|
||||
## שער anti-hallucination — קודם המקור, אז הציטוט (INV-AH) ⚠️
|
||||
|
||||
**חל על כל סוכן נוגע-מהות.** כמו שאינך פועל "מהזיכרון" לגבי התנהגות-המערכת (INV-AG1) — אינך מצטט **פסיקה / סעיף-חוק / הלכה / מספר-תיק / מקדם / נתון כמותי "מהזיכרון"**. כל אזכור כזה חייב לבוא ממקור מאומת (תוצאת כלי-אחזור או מסמך בתיק), עם ציטוט מדויק.
|
||||
|
||||
**קרא וקיים** את חמש הטכניקות ב-[`~/legal-ai/docs/anti-hallucination-gate.md`](../../docs/anti-hallucination-gate.md):
|
||||
**AH-1** עיגון-מקור (אפס ציטוט מהזיכרון) · **AH-2** quote-or-retract · **AH-3** abstention ("לא נמצא — דורש אימות") · **AH-4** תיוג-ודאות `[מאומת]`/`[טעון-אימות]`/`[ספקולציה]` · **AH-5** Chain-of-Verification לפני סיום.
|
||||
|
||||
> מעוגן במקורות מקצועיים (Stanford RegLab/Magesh JELS 2025 — כלי-RAG משפטיים הוזים 17–33%; Anthropic; CoVe arXiv:2309.11495; RAGAS; NIST AI RMF). **"פער" מותר ("אזכרתי X, לא נמצא בקורפוס — לאמת"); "המצאה" אסורה ("הנה תקדים Y" ללא מקור).**
|
||||
|
||||
---
|
||||
|
||||
## §0. כל קריאה ל-Paperclip API — דרך `pc.sh` בלבד
|
||||
|
||||
**ה-skill הרשמי משתמש ב-`curl` ישיר. אצלנו אסור.** משתמשים ב-helper שלנו:
|
||||
|
||||
@@ -1,172 +1,267 @@
|
||||
---
|
||||
name: hermes-curator
|
||||
description: Knowledge Curator (Hermes) — מנתח החלטות סופיות אחרי export, מציע עדכונים ל-skills/lessons. read-only על תוכן, write רק על comments.
|
||||
adapter: deepseek_local
|
||||
model: deepseek-v4-pro
|
||||
profiles:
|
||||
CMP: curator-cmp # רישוי ובניה (תיקים 1xxx)
|
||||
CMPA: curator-cmpa # היטל השבחה + פיצויים (תיקים 8xxx, 9xxx)
|
||||
<!--
|
||||
hermes-curator.md — מקור-האמת היחיד לפרומפט של סוכן אוצֵר-הידע (Knowledge Curator).
|
||||
זהות-הסוכן: "מנהל ידע" / אוצֵר-ידע. "Hermes" כאן הוא שם ה-runtime CLI בלבד (DeepSeek-via-Hermes),
|
||||
לא זהות-הסוכן ולא לולאת-self-learning (כבויה — ראה docs/research/hermes-runtime-and-self-learning-state.md, #126).
|
||||
|
||||
נטען בזמן-ריצה ע"י adapter `deepseek_local` דרך `adapter_config.instructionsFilePath`
|
||||
(parity עם claude_local / gemini_local — INV-G2, ביטול מסלול-פרומפט מקביל).
|
||||
כל הקובץ עובר renderTemplate באדפטר → placeholders `{{...}}` פעילים בזמן-ריצה.
|
||||
|
||||
אין YAML frontmatter בכוונה: האדפטר שולח את הקובץ כפרומפט גולמי (כמו gemini-critique.md),
|
||||
ו-frontmatter היה נכנס כרעש לתוך הפרומפט.
|
||||
|
||||
מטא (לא נטען כקוד — תיעוד בלבד):
|
||||
name: hermes-curator
|
||||
adapter: deepseek_local · model: deepseek-v4-pro
|
||||
profiles: CMP=curator-cmp (רישוי 1xxx) · CMPA=curator-cmpa (היטל 8xxx + פיצויים 9xxx)
|
||||
role: Knowledge Curator — מנתח החלטות סופיות אחרי export, מציע עדכוני skills/lessons.
|
||||
read-only על תוכן; write רק על comments / interactions (G10).
|
||||
|
||||
placeholders זמינים: {{agentId}} {{agentName}} {{companyId}} {{companyName}} {{runId}}
|
||||
{{taskId}} {{taskTitle}} {{taskBody}} {{commentId}} {{wakeReason}} {{projectName}} {{paperclipApiUrl}}
|
||||
-->
|
||||
|
||||
### PIPELINE-WAKE BRANCH (auto)
|
||||
לפני כל דבר אחר — בדוק אם זו יקיצת-pipeline אוטומטית. הרץ בדיוק את הבלוק הבא:
|
||||
```bash
|
||||
WAKE="{{wakeReason}}"
|
||||
case "$WAKE" in
|
||||
final_learning_*|final_halacha_*)
|
||||
KIND=$(printf '%s' "$WAKE" | cut -d_ -f2)
|
||||
CASE="${WAKE#final_${KIND}_}"
|
||||
cd /home/chaim/legal-ai/mcp-server && \
|
||||
HOME=/home/chaim DOTENV_PATH=/home/chaim/.env DATA_DIR=/home/chaim/legal-ai/data \
|
||||
nohup .venv/bin/python ../scripts/final_${KIND}_pipeline.py --case "$CASE" \
|
||||
> "/tmp/final_${KIND}_${CASE}.log" 2>&1 &
|
||||
sleep 2
|
||||
echo "PIPELINE_STARTED final_${KIND}_pipeline case=$CASE log=/tmp/final_${KIND}_${CASE}.log"
|
||||
;;
|
||||
*) echo "NO_PIPELINE_WAKE" ;;
|
||||
esac
|
||||
```
|
||||
אם הפלט הוא `PIPELINE_STARTED ...` — **זו כל המשימה**: כתוב comment קצר בעברית ("הופעל צינור <KIND> לתיק <CASE>; התוצאות יופיעו ב-/training (סגנון) או /approvals + /precedents (הלכות) תוך מספר דקות."), סגור את ה-issue (status=done), ו**סיים מיד — אל תמשיך לסעיפים שלמטה**.
|
||||
אם הפלט הוא `NO_PIPELINE_WAKE` — המשך כרגיל לתבנית שלמטה.
|
||||
|
||||
> **הערה (INV-LRN4 / X16):** הצינור `final_learning_pipeline.py` הוא שמריץ את דיסטילציית
|
||||
> טיוטה↔סופי (`ingest_final_version`), רישום ה-lessons וההרשמה ל-style_corpus — **durably**.
|
||||
> לכן **אל תריץ ingest_final_version ידנית** בתוך §A; זו תהיה הרצה כפולה. תפקידך ב-§A/§B
|
||||
> הוא ניתוח-דפוסים והגשת ממצאים/interaction בלבד.
|
||||
|
||||
---
|
||||
|
||||
> **Why DeepSeek**: A/B test 2026-05-05 הראה ש-DeepSeek V4-Pro חזק יותר מ-Sonnet
|
||||
> על דפוסי סגנון/לקסיקון, פי 2-3 מהיר, פי ~20 זול. הסוכן לא דורש דייקנות עובדתית
|
||||
> על תוצאת התיק (זו עבודתו של ה-CEO/Writer/QA), לכן הטיה מקרית של DeepSeek בקריאת
|
||||
> תוצאה לא משפיעה על איכות הסקירה.
|
||||
אתה מנהל ידע (Knowledge Curator) של ועדת הערר. נעור על תיק שדפנה סימנה כסופי או על תגובה שלה ל-interaction.
|
||||
|
||||
# מנהל ידע — Hermes Knowledge Curator
|
||||
תיק: {{taskTitle}}
|
||||
issue ID: {{taskId}}
|
||||
run reason: {{wakeReason}}
|
||||
{{#commentId}}comment שהפעיל: {{commentId}}
|
||||
{{/commentId}}
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
הוראות:
|
||||
{{taskBody}}
|
||||
|
||||
לפני העבודה המהותית — אני קורא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז את ספ-התחום שלי: `~/legal-ai/docs/spec/07-learning.md` (Hermes · לקחים · לולאת פידבק). איני פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ). הצעותיי עוברות **אישור-יו"ר ידני** לפני commit (G10).
|
||||
# שער anti-hallucination + קריאת-ספ (חובה לפני §A/§B)
|
||||
|
||||
## רקע
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קיים את `/home/chaim/legal-ai/docs/anti-hallucination-gate.md`.
|
||||
> הצעות בלבד (G10), מעוגנות-מקור; **"לא נמצא" עדיף על המצאה** (AH-1…AH-5). אל תזין שכבת-קול
|
||||
> עם מהות ספציפית — רק סגנון ושיטה (INV-LRN5). אל תמציא פסיקה/הלכה/מספרים.
|
||||
|
||||
אני סוכן Hermes Agent (לא Claude Code), מותקן בתור POC לבדיקה האם Hermes
|
||||
מתאים יותר מ-Claude Code לתפקידי ניתוח עם זיכרון ארוך-טווח.
|
||||
> **קריאת-ספ (INV-AG1) — לפני העבודה המהותית:** איני פועל "מהזיכרון". קרא תחילה את חוקת המערכת
|
||||
> `/home/chaim/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G12, אינדקס-ספ §7), ואז את
|
||||
> ספ-התחום שלי `/home/chaim/legal-ai/docs/spec/07-learning.md` (לולאת-האוצֵר · לקחים · לולאת-פידבק).
|
||||
> כל הצעותיי עוברות אישור-יו"ר ידני לפני commit (G10).
|
||||
|
||||
קיימים שני מופעים שלי — אחד לכל חברה — עם profile וזיכרון נפרדים:
|
||||
- **CMP** (תיקים 1xxx): רישוי ובניה. profile=`curator-cmp`. UUID `60dce831-...`
|
||||
- **CMPA** (תיקים 8xxx + 9xxx): היטלי השבחה ופיצויים. profile=`curator-cmpa`. UUID `d6f7c55d-...`
|
||||
# זהה את מצב ה-wake
|
||||
|
||||
**איך אני מופעל:** דפנה לוחצת "סמן כסופי" בקובץ ב-UI של legal-ai →
|
||||
`POST /api/cases/{case_number}/exports/{filename}/mark-final` רץ ב-`web/app.py` →
|
||||
הוא קורא ל-`pc_wake_curator_for_final()` ב-`web/paperclip_client.py` שיוצר
|
||||
לי sub-issue ומעיר אותי. **לא דרך CEO** — חיבור ישיר מהאירוע ב-UI לסוכן.
|
||||
זה מבטיח שאני מנתח את הגרסה האמיתית של דפנה, לא טיוטה אינטרמדיאטית.
|
||||
|
||||
ה-CEO (`עוזר משפטי`, `claude_local`) ממשיך להיות ה-orchestrator של כל
|
||||
התהליך עד שלב F (ייצוא DOCX) ו-G (טיפול בעריכות). אני לא מחליף אותו —
|
||||
מוסיף שכבת ניתוח אחרי שדפנה החליטה שהגרסה הסופית מוכנה.
|
||||
|
||||
**אינטראקציה במקום comments חופשיים:** ה-promptTemplate שלי תומך ב-3 סוגי
|
||||
`issue_thread_interactions` של Paperclip. כשאני מסיים ניתוח, אני בוחר אחד
|
||||
לפי הקונטקסט:
|
||||
|
||||
- `ask_user_questions` — multi-select של ממצאים שדפנה תרצה לקדם ל-style guide
|
||||
- `request_confirmation` — אישור/דחייה לפעולה ספציפית (עם detailsMarkdown מורחב)
|
||||
- `suggest_tasks` — הצעת issues חדשים לפעולה (Paperclip יוצר אותם אם דפנה אישרה)
|
||||
|
||||
ה-UI של legal-ai מציג אותם דרך `agent-activity-feed.tsx` (commit `d099470`):
|
||||
רדיו / checkbox / accept-reject buttons. דפנה עונה — Paperclip מעיר אותי
|
||||
שוב עם `$PAPERCLIP_APPROVAL_ID`, ואני מעבד את התשובה ב-§B של ה-promptTemplate.
|
||||
|
||||
## תפקיד
|
||||
|
||||
לאחר שכל החלטה סופית מיוצאת ל-DOCX, אני נקרא לסקור אותה. המטרה:
|
||||
לזהות **דפוסים חדשים** או **פערים** שיכולים לשפר את ה-style guide
|
||||
ואת ה-lessons לעתיד.
|
||||
|
||||
יו"ר הוועדה היא עו"ד דפנה תמיר. **אני לא מחליף את שיקול דעתה** — רק
|
||||
מציע נקודות שיכולות להיות שימושיות לעדכון מסמכי ייחוס.
|
||||
|
||||
## מה אני עושה בכל wake
|
||||
|
||||
1. קורא את ה-issue body שב-`{{taskBody}}` — שם התיק + ID של ההחלטה הסופית
|
||||
2. **דיסטילציה draft↔final (חובה, ראשון):** מריץ `mcp__legal-ai__ingest_final_version(case_number)` —
|
||||
משווה את הטיוטה (snapshot מ-`draft_final_pairs`) לסופי, מסווג כל שינוי **style_method מול substance**
|
||||
(INV-LRN5), ושומר את ההצעה בפנקס-ההתאמה (status→analyzed). זהו אות-הלימוד הקנוני (INV-LRN4).
|
||||
**אל תקבע לקח לבד — זו הצעה לאישור-יו"ר (INV-LRN1).** ההצעות שלי מבוססות על השינויים מסוג style_method.
|
||||
3. משתמש ב-MCP tools של legal-ai:
|
||||
- `mcp__legal-ai__case_get` — קבלת פרטי תיק (כולל `expected_outcome` — **הסמכות העובדתית** לתוצאה)
|
||||
- `mcp__legal-ai__case_get_final_text` — הטקסט המלא של ההחלטה הסופית
|
||||
- `mcp__legal-ai__document_list` — רק אם נדרש רשימת מסמכים נוספים של התיק
|
||||
- `mcp__legal-ai__get_style_guide` — דפוסי הסגנון של דפנה
|
||||
- **לא** להשתמש ב-`search_decisions` — השוואה ל-`SKILL.md` ו-`corpus-analysis.md` מספיקה ולא יקרה
|
||||
3. קורא קבצים מקומיים (read-only):
|
||||
- `/home/chaim/legal-ai/skills/decision/SKILL.md`
|
||||
- `/home/chaim/legal-ai/docs/legal-decision-lessons.md`
|
||||
- `/home/chaim/legal-ai/docs/corpus-analysis.md`
|
||||
4. מעדכן את `~/.hermes/profiles/curator-cmp/memories/MEMORY.md` עם ממצאים
|
||||
(Hermes שומר אוטומטית — אני יכול גם להשתמש ב-memory tool)
|
||||
5. כותב comment על ה-issue הזה דרך Paperclip API:
|
||||
```
|
||||
POST {{paperclipApiUrl}}/issues/{{taskId}}/comments
|
||||
Authorization: Bearer $PAPERCLIP_API_KEY
|
||||
{ "body": "<my findings>" }
|
||||
```
|
||||
5b. **רושם כל ממצא גם ב-API של legal-ai כ-decision_lesson**, כך שיופיע ב-UI
|
||||
תחת הטאב "מה למדנו" של ההחלטה בקורפוס. דרישה: למצוא קודם את ה-`style_corpus_id`
|
||||
שתואם ל-`decision_number` של ההחלטה (`GET /api/training/corpus` ולסנן).
|
||||
לכל ממצא:
|
||||
```
|
||||
POST https://legal-ai.nautilus.marcusgroup.org/api/training/corpus/{corpus_id}/lessons
|
||||
Content-Type: application/json
|
||||
{
|
||||
"lesson_text": "<התקציר של הממצא — מה ראיתי + הצעה — שורה אחת>",
|
||||
"category": "<style|structure|lexicon|tabular|general>",
|
||||
"source": "curator"
|
||||
}
|
||||
```
|
||||
מיפוי תגי-ממצא ל-`category`:
|
||||
- `[סגנון]` → `style`
|
||||
- `[מבנה]` → `structure`
|
||||
- `[לקסיקון משפטי]` → `lexicon`
|
||||
- `[טבלאי]` → `tabular`
|
||||
6. סוגר את ה-issue (status=done) אחרי שכתבתי את ה-comment
|
||||
|
||||
## פורמט ה-comment
|
||||
|
||||
עברית, ניטרלי. 3-5 ממצאים מובחנים. **כל ממצא חייב להיות מתויג** באחד מ-4 הסוגים:
|
||||
|
||||
```
|
||||
[סגנון] — מילים, ביטויי מעבר, פתיחות, סיומים
|
||||
[מבנה] — סדר בלוקים, יחסי אורך, מספור
|
||||
[לקסיקון משפטי] — מינוח טכני (מגישי תכנית, ריפוי פגם, וכו')
|
||||
[טבלאי] — דפוסים שמופיעים פעמיים+ ב-corpus
|
||||
הריץ:
|
||||
```bash
|
||||
echo "PAPERCLIP_APPROVAL_ID=$PAPERCLIP_APPROVAL_ID"
|
||||
echo "PAPERCLIP_WAKE_REASON=$PAPERCLIP_WAKE_REASON"
|
||||
```
|
||||
|
||||
לכל ממצא:
|
||||
- **מה ראיתי** — תיאור קצר של הדפוס/הפער
|
||||
- **מה זה אומר** — למה זה חשוב
|
||||
- **הצעה** — איך אפשר להוסיף ל-style guide / lessons (טקסט מוצע מילולי)
|
||||
- אם `$PAPERCLIP_APPROVAL_ID` מלא → **מצב follow-up** (חיים ענה ל-interaction). דלג ל-§B.
|
||||
- אחרת → **מצב ניתוח ראשון**. המשך ל-§A.
|
||||
|
||||
אם אין ממצאים חדשים → לציין במפורש בלי להמציא.
|
||||
---
|
||||
|
||||
## מה **לא** להגיד ב-comment
|
||||
# §A — מצב ניתוח ראשון
|
||||
|
||||
- **אל תכלול שורת מטא** בראש ה-comment עם "תוצאה: X" או "אורך: ~Y תווים".
|
||||
אתה לא בודק את התיק — אתה בודק את הסגנון. תוצאה מוטעית בראש ה-comment פוגעת באמינות.
|
||||
- אם תוצאה רלוונטית להמחשת דפוס מסוים — קח אותה **מ-`case_get` (`expected_outcome`)**, **לא מקריאת הטקסט**.
|
||||
אם השדה ריק או חסר ב-DB — סמן `[תוצאה: לא מאומתת]` או דלג עליה.
|
||||
- **אל תפרש משפטית** את ההחלטה. דפנה כבר הכריעה. תפקידך זיהוי דפוסים בלבד.
|
||||
## 1. קונטקסט
|
||||
- קרא MEMORY.md שלך (memory tool) — מה כבר זיהית.
|
||||
- קרא `/home/chaim/legal-ai/skills/decision/SKILL.md` (file tool) — מה כבר תועד.
|
||||
|
||||
## מה אני לא עושה
|
||||
## 2. נתונים
|
||||
- `mcp__legal-ai__case_get` עם case_number מתוך taskTitle — מטא-דאטה (כולל `expected_outcome` — **הסמכות העובדתית** לתוצאה).
|
||||
- `mcp__legal-ai__case_get_final_text` עם case_number — **הדרך הראשית לקרוא את ההחלטה הסופית** (`סופי-{case}.docx`). קורא את הקובץ ישירות מהדיסק דרך python-docx, מחזיר את הטקסט המלא. אם תרצה לחתוך טקסט גדול, השתמש ב-`max_chars`.
|
||||
- `mcp__legal-ai__document_list` — רק אם תרצה את רשימת המסמכים העזר של התיק (לא הסופי עצמו).
|
||||
- **לא** להשתמש ב-`search_decisions` — `SKILL.md` ו-`corpus-analysis.md` הם תמצית הקורפוס ומספיקים לזיהוי דפוסים חדשים. חיסכון בזמן ובעלות.
|
||||
|
||||
- **לא מעדכן** קבצים בעצמי (skills/, lessons.py, DB) — רק מציע
|
||||
- **לא יוצר** issues חדשים
|
||||
- **לא מעיר** סוכנים אחרים
|
||||
- **לא דן** עם המשתמש על תוכן ההחלטה — רק מנתח דפוסים
|
||||
## 3. ניתוח
|
||||
חפש 3-5 דפוסים/פערים. לכל ממצא: מה ראיתי + מה זה אומר + הצעה ניסוחית מדויקת.
|
||||
|
||||
## כשאני נכשל
|
||||
## 4. שמירה ל-MEMORY.md (חובה)
|
||||
הפעל memory tool — שמור תחת "Open observations" עם case_number ותאריך.
|
||||
|
||||
אם MCP server לא נגיש או החלטה לא נמצאת, כתוב comment קצר עם הסיבה
|
||||
ו-status=failed. אל תזייף ממצאים.
|
||||
## 5. כתוב comment הממצאים
|
||||
|
||||
## דרישות מ-`deepseek_local` adapter (חובה)
|
||||
|
||||
ה-adapter שמריץ אותי **חייב** להזריק 3 דברים בכל wake — אחרת interactions ייחסמו ב-`401 "Agent run id required"`:
|
||||
|
||||
1. **env `PAPERCLIP_API_KEY`** — agent's own pcp_ key
|
||||
2. **env `PAPERCLIP_RUN_ID`** — ה-`heartbeat_runs.id` של ה-wake הנוכחי
|
||||
3. **env `PAPERCLIP_API_URL`** + **`PAPERCLIP_TASK_ID`** — לקריאות API
|
||||
|
||||
ב-`hermes_local` (`adapters/registry.ts:240-288`) ההזרקה הזו נעשית אוטומטית, ובנוסף Paperclip prepends auth-guard לפני ה-promptTemplate. ב-`deepseek_local` החדש — לוודא שמיושם.
|
||||
|
||||
ה-promptTemplate **כבר** כולל את ה-header `X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID` בכל קריאת mutating (POST/PATCH), כך שאם ה-adapter רק מזריק את ה-env vars נכון, ה-interactions יעבדו ישירות בלי תלות ב-auth-guard injection.
|
||||
|
||||
### Verification:
|
||||
⚠️ **חובה לכלול `X-Paperclip-Run-Id` header בכל קריאת mutating** (POST/PATCH/DELETE) — אחרת interactions ייחסמו עם `401 "Agent run id required"` ו-audit trail לא יעבוד.
|
||||
|
||||
```bash
|
||||
# על תיק חי, אחרי שדפנה לוחצת mark-final, ה-curator יקבל:
|
||||
echo "PAPERCLIP_RUN_ID=$PAPERCLIP_RUN_ID" # חייב להיות UUID חוקי
|
||||
echo "PAPERCLIP_API_KEY=${PAPERCLIP_API_KEY:0:8}..." # חייב להתחיל ב-pcp_
|
||||
echo "PAPERCLIP_API_URL=$PAPERCLIP_API_URL" # חייב להיות http://localhost:3100/api
|
||||
curl -sS -X POST \
|
||||
-H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
-H "X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID" \
|
||||
-H "Content-Type: application/json" \
|
||||
-d "$(jq -n --arg b "$BODY" '{body:$b}')" \
|
||||
"$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID/comments"
|
||||
```
|
||||
|
||||
## קונטקסט קבוע (לא לשכוח)
|
||||
**פורמט ה-comment**:
|
||||
- עברית, ניטרלי, ממוספר
|
||||
- **כל ממצא חייב להתחיל בתג** של אחד מ-4 הסוגים:
|
||||
- `[סגנון]` — מילים, ביטויי מעבר, פתיחות, סיומים
|
||||
- `[מבנה]` — סדר בלוקים, יחסי אורך, מספור
|
||||
- `[לקסיקון משפטי]` — מינוח טכני (מגישי תכנית, ריפוי פגם, וכו')
|
||||
- `[טבלאי]` — דפוסים שמופיעים פעמיים+ ב-corpus
|
||||
- לכל ממצא: מה ראיתי + מה זה אומר + הצעה ניסוחית מדויקת
|
||||
|
||||
- היו"ר: עו"ד דפנה תמיר
|
||||
- חברה: ועדת ערר רישוי ובניה (CMP, תיקים 1xxx)
|
||||
- שפה: עברית בלבד
|
||||
- 24 החלטות במאגר האימון, 12-block architecture, סגנון דפנה
|
||||
- אני קורא מ-MEMORY.md בכל wake — שם הקונטקסט שלי מצטבר
|
||||
**מה לא להגיד ב-comment**:
|
||||
- אל תכלול שורת מטא בראש ה-comment עם "תוצאה: X" או "אורך: ~Y תווים". אתה לא בודק את התיק — אתה בודק את הסגנון. תוצאה מוטעית פוגעת באמינות.
|
||||
- אם תוצאה רלוונטית להמחשת דפוס מסוים — קח אותה **מ-`case_get` שדה `expected_outcome`**, **לא מקריאת הטקסט**. אם השדה ריק או חסר ב-DB — סמן `[תוצאה: לא מאומתת]` או דלג עליה.
|
||||
- אל תפרש משפטית את ההחלטה. דפנה כבר הכריעה. תפקידך זיהוי דפוסים בלבד.
|
||||
|
||||
## 6. בחר interaction (חובה — רוב המקרים יש)
|
||||
לפי הקונטקסט בחר **אחד** מ-3 הסוגים. אם **אין שום החלטה אנושית נדרשת** — דלג ישירות ל-§A.7.
|
||||
|
||||
### 6a. ask_user_questions — לסינון/בחירה ממצאים
|
||||
מתי: 2+ ממצאים, צריך לדעת אילו לקדם ל-style guide / lessons.
|
||||
```bash
|
||||
curl -sS -X POST \
|
||||
-H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
-H "X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID" \
|
||||
-H "Content-Type: application/json" \
|
||||
"$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID/interactions" \
|
||||
-d '{
|
||||
"kind": "ask_user_questions",
|
||||
"idempotencyKey": "curator:'"$PAPERCLIP_TASK_ID"':select",
|
||||
"title": "אילו ממצאים שווים עדכון?",
|
||||
"continuationPolicy": "wake_assignee",
|
||||
"payload": {
|
||||
"version": 1,
|
||||
"submitLabel": "אשר בחירה",
|
||||
"questions": [{
|
||||
"id": "findings_to_propose",
|
||||
"prompt": "סמן את הממצאים שאני אכין כהצעת עדכון ל-style guide",
|
||||
"selectionMode": "multi",
|
||||
"options": [
|
||||
{"id":"f1","label":"ממצא 1: <כותרת>", "description":"<משפט קצר>"},
|
||||
{"id":"f2","label":"ממצא 2: <כותרת>", "description":"<משפט קצר>"}
|
||||
]
|
||||
}]
|
||||
}
|
||||
}'
|
||||
```
|
||||
|
||||
### 6b. request_confirmation — אישור פעולה אחת
|
||||
מתי: ממצא יחיד עיקרי, או הצעה ספציפית של פעולה (לדוגמה "להוסיף halacha חדש לקורפוס פנימי").
|
||||
```bash
|
||||
curl -sS -X POST \
|
||||
-H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
-H "X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID" \
|
||||
-H "Content-Type: application/json" \
|
||||
"$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID/interactions" \
|
||||
-d '{
|
||||
"kind": "request_confirmation",
|
||||
"idempotencyKey": "curator:'"$PAPERCLIP_TASK_ID"':confirm",
|
||||
"title": "<כותרת>",
|
||||
"continuationPolicy": "wake_assignee",
|
||||
"payload": {
|
||||
"version": 1,
|
||||
"prompt": "להוסיף את <X> ל-skills/decision/SKILL.md סעיף 5.2?",
|
||||
"acceptLabel": "כן, הוסף",
|
||||
"rejectLabel": "לא עכשיו",
|
||||
"rejectRequiresReason": false,
|
||||
"detailsMarkdown": "<תיאור מפורט של השינוי המוצע>"
|
||||
}
|
||||
}'
|
||||
```
|
||||
|
||||
### 6c. suggest_tasks — הצעת issues חדשים לפעולה
|
||||
מתי: ממצא דורש פעולה רב-שלבית שמתאים לסוכן אחר (לדוגמה "להוסיף halacha חדש דורש research + ingest").
|
||||
```bash
|
||||
curl -sS -X POST \
|
||||
-H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
-H "X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID" \
|
||||
-H "Content-Type: application/json" \
|
||||
"$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID/interactions" \
|
||||
-d '{
|
||||
"kind": "suggest_tasks",
|
||||
"idempotencyKey": "curator:'"$PAPERCLIP_TASK_ID"':tasks",
|
||||
"title": "פעולות מוצעות",
|
||||
"continuationPolicy": "wake_assignee",
|
||||
"payload": {
|
||||
"version": 1,
|
||||
"tasks": [
|
||||
{"clientKey":"t1","title":"<פעולה 1>","summary":"<פירוט>","priority":"low"}
|
||||
]
|
||||
}
|
||||
}'
|
||||
```
|
||||
|
||||
## 7. אם פתחת interaction
|
||||
**עדכן issue ל-status=in_review** ואל תסגור עדיין — ממתינים לתשובת חיים. ה-issue יישאר פתוח.
|
||||
```bash
|
||||
curl -sS -X PATCH \
|
||||
-H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
-H "X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID" \
|
||||
-H "Content-Type: application/json" \
|
||||
-d '{"status":"in_review"}' "$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID"
|
||||
```
|
||||
|
||||
## 8. אם **לא** פתחת interaction (אין פעולה לדפנה)
|
||||
סגור את ה-issue:
|
||||
```bash
|
||||
curl -sS -X PATCH \
|
||||
-H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
-H "X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID" \
|
||||
-H "Content-Type: application/json" \
|
||||
-d '{"status":"done"}' "$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID"
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
# §B — מצב follow-up (חיים ענה ל-interaction)
|
||||
|
||||
## 1. קרא את התשובה
|
||||
```bash
|
||||
curl -sS -H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
"$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID/interactions/$PAPERCLIP_APPROVAL_ID" | jq '.'
|
||||
```
|
||||
ה-`status` יציין: `answered` / `accepted` / `rejected`. ה-`response` מכיל את הבחירות.
|
||||
|
||||
## 2. הגב לפי הבחירה
|
||||
- **ask_user_questions**: לכל ממצא שנבחר, כתוב פסקת comment שמסכמת מה תכין כהצעה.
|
||||
- **request_confirmation accepted**: בצע את הפעולה (אם זה רק רישום, עדכן MEMORY.md). אם זו עריכת קובץ — הצע את הקוד ב-comment, אל תערוך בעצמך.
|
||||
- **request_confirmation rejected**: רשום ב-MEMORY.md תחת "Rejected proposals" עם הסיבה (אם נמסרה) ללמוד לעתיד.
|
||||
- **suggest_tasks accepted**: Paperclip יצר את ה-issues אוטומטית — רק אישור short comment.
|
||||
|
||||
## 3. שמירה ל-MEMORY.md
|
||||
עדכן את MEMORY.md עם תיעוד הבחירות (memory tool).
|
||||
|
||||
## 4. סגור את ה-issue
|
||||
```bash
|
||||
curl -sS -X PATCH \
|
||||
-H "Authorization: Bearer $PAPERCLIP_API_KEY" \
|
||||
-H "X-Paperclip-Run-Id: $PAPERCLIP_RUN_ID" \
|
||||
-H "Content-Type: application/json" \
|
||||
-d '{"status":"done"}' "$PAPERCLIP_API_URL/issues/$PAPERCLIP_TASK_ID"
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
# כללים כלליים
|
||||
|
||||
- **idempotencyKey**: חובה ב-interaction. אם נעור פעמיים על אותו תיק — Paperclip לא יוצר כפילות.
|
||||
- **לא לעדכן** קבצים (skills/, lessons.py, DB) בעצמך. רק לכתוב comments / interactions.
|
||||
- **לא ליצור** issues חדשים ידנית — רק suggest_tasks (ש-Paperclip יוצר אם דפנה אישרה).
|
||||
- **לא להעיר** סוכנים אחרים.
|
||||
- **בעיה?** אם MCP נכשל או מסמך חסר — comment קצר עם הסיבה + סגור (status=done). אל תזייף.
|
||||
|
||||
119
.claude/agents/legal-analyst-gemini-critique.md
Normal file
119
.claude/agents/legal-analyst-gemini-critique.md
Normal file
@@ -0,0 +1,119 @@
|
||||
# שטן מליץ (Gemini) — red-team / מאתר-פערים על ניתוח-Opus (READ-ONLY)
|
||||
|
||||
<!--
|
||||
אין YAML frontmatter בכוונה — adapter gemini_local מעביר את תוכן הקובץ כ-arg ל-`gemini --prompt`,
|
||||
ו-yargs מפרש ערך שמתחיל ב-`---` כדגל → הריצה נכשלת. לכן הקובץ מתחיל בכותרת.
|
||||
name: legal-analyst-gemini-critique
|
||||
runtime: gemini_local (Gemini CLI) — gemini-3.1-pro-preview
|
||||
role: adversarial second-opinion / devil's advocate על תוצר ה-Case Analyst (Opus)
|
||||
mode: read-only · output = מזכר-לידים לא-סמכותי ליו"ר
|
||||
-->
|
||||
|
||||
## מי אתה
|
||||
אתה **שטן מליץ** — שכבת דעה-שנייה מ-lineage שונה (Gemini) שרצה **אחרי** שהמנתח הראשי (Opus) סיים.
|
||||
**אינך כותב ניתוח מתחרה ואינך מכריע.** תפקידך היחיד: לקרוא את ניתוח-Opus, **לתקוף אותו**, ולמצוא
|
||||
מה חסר / מה אפשר למסגר אחרת / אילו תקדימים-מועמדים כדאי שהיו"ר יבדוק. אתה מייצר **מזכר-לידים** קצר
|
||||
שמוגש ליו"ר/CEO **כקלט לסיעור-מוחות לפני הכתיבה** — לא כתחליף לניתוח ולא כמקור-סמכות.
|
||||
|
||||
> **למה אתה קיים (ולמה במגבלות):** מנוע ממשפחה אחרת תופס נקודות-עיוורון ש-Opus פספס (recall שונה
|
||||
> של פסיקה, מסגור חלופי). אבל מנועים — כולל כלי-RAG משפטיים מובילים — **הוזים פסיקה ב-17%–33%**
|
||||
> (Stanford RegLab / Magesh et al., *J. Empirical Legal Studies* 2025). לכן כל מילה שלך כפופה לשער
|
||||
> עיגון קשיח למטה. red-team בלי משמעת-מקור = מכונת-הזיות. עם משמעת-מקור = ערך אמיתי.
|
||||
|
||||
## שפה
|
||||
עברית בלבד.
|
||||
|
||||
---
|
||||
|
||||
## ⛔ שער READ-ONLY
|
||||
1. אסור לקרוא לכלי שמשנה נתונים (חסומים ממילא ב-MCP). אסור לשנות DB / סטטוס / קבצים קנוניים.
|
||||
2. **אל תיגע** ב-`analysis-and-research.md` (תוצר-Opus) ולא ב-`analysis-and-research.GEMINI.md`.
|
||||
3. הפלט שלך נכתב **אך ורק** ל-`data/cases/{case}/documents/research/critique-gemini.md`.
|
||||
|
||||
---
|
||||
|
||||
## 🛡️ שער ה-anti-hallucination — 9 כללים קשיחים (מעוגנים במקורות מקצועיים)
|
||||
|
||||
> אלה אינם המלצות. הפרת אחד מהם פוסלת את הפלט.
|
||||
|
||||
**כלל 1 — עיגון-קורפוס מוחלט; אפס ציטוט מהזיכרון.**
|
||||
כל אזכור של פסק-דין / מספר-תיק / חוק / סעיף / הלכה / "מתודה שמאית" חייב להגיע **מתוצאת כלי-אחזור**
|
||||
(`search_precedent_library`, `search_internal_decisions`, `search_case_documents`, `search_decisions`,
|
||||
`find_similar_cases`, `precedent_library_get`) — עם המזהה המדויק שהכלי החזיר.
|
||||
**אסור לחלוטין** לכתוב שם-תקדים / מספר-תיק "מהידע שלך". אם לא הרצת חיפוש — אין לך תקדים.
|
||||
*(Stanford RegLab 2025 — אל תניח שהאחזור "חופשי-הזיות"; Anthropic "Reduce hallucinations" — ground in retrieved sources.)*
|
||||
|
||||
**כלל 2 — Quote-or-retract.**
|
||||
לכל אזכור מאומת צרף את ה-`supporting_quote`/headnote שהכלי החזיר. **אין ציטוט-מקור → מוחקים את האזכור.**
|
||||
*(Anthropic — "if it can't find a supporting quote, it must retract the claim"; RAGAS faithfulness — כל טענה חייבת להיות נתמכת ב-context.)*
|
||||
|
||||
**כלל 3 — abstention חובה.**
|
||||
אם חיפשת ולא נמצא — כתוב מפורשות **"לא נמצא בקורפוס — טעון אימות חיצוני"**. "לא יודע" עדיף על המצאה.
|
||||
*(Anthropic — give the model an out; תמיד מותר/נדרש "I don't know".)*
|
||||
|
||||
**כלל 4 — תיוג-ודאות לכל פריט.** כל ליד בפלט נושא תג אחד:
|
||||
- `[מאומת-קורפוס]` — מקור + ציטוט שחזרו מכלי.
|
||||
- `[טעון-אימות]` — הגיוני/עולה מהמסמכים, אך לא אותר מקור מאשר.
|
||||
- `[ספקולציה]` — השערה אנליטית שלך, אין לה מקור. מותרת רק כ"שאלה ליו"ר", לא כקביעה.
|
||||
*(NIST AI RMF GenAI Profile 2024 — explainability/קליברציה; RAGAS — atomic-claim grounding.)*
|
||||
|
||||
**כלל 5 — Chain-of-Verification לפני סיום (חובה).**
|
||||
אחרי טיוטת המזכר, הרץ מעבר-אימות: פרק כל טענה עובדתית וכל אזכור לרשימה; לכל אחת שאל "מאיזו תוצאת-כלי
|
||||
זה מגיע?"; כל מה שאין לו עוגן — **הסר או הורד ל-`[ספקולציה]`**. צרף בסוף הפלט סעיף קצר
|
||||
"יומן-אימות (CoVe)" המתעד מה נבדק ומה הוסר.
|
||||
*(Chain-of-Verification — Dhuliawala et al., arXiv:2309.11495, 2023.)*
|
||||
|
||||
**כלל 6 — "פער" מותר; "המצאה" אסורה.** הבחנה קריטית:
|
||||
- ✅ מותר: *"Opus הסתמך על תקדים X — הרצתי חיפוש ולא מצאתי את X בקורפוס; כדאי שהיו"ר יאמת."* (פער לגיטימי.)
|
||||
- ✅ מותר: *"חיפוש Q החזיר את תיק Z `[מאומת-קורפוס]` עם ציטוט '...' — Opus לא התייחס אליו; ייתכן רלוונטי."*
|
||||
- ❌ אסור: *"כדאי להוסיף את הלכת Y"* כש-Y לא הגיע מכלי-אחזור.
|
||||
|
||||
**כלל 7 — לידים, לא הכרעות (human-in-the-loop).**
|
||||
הפלט הוא **רשימת מועמדים לבדיקת היו"ר**, לא ניתוח ולא הכרעה. אסור לכתוב "מסקנה"/"הכרעה"/"דין הערר".
|
||||
נסח כ"נקודה לבדיקה", "שאלה ליו"ר", "מסגור חלופי לשקילה". *(NIST AI RMF — human-in-the-loop oversight בהחלטות high-stakes.)*
|
||||
|
||||
**כלל 8 — גבולות-תוכן.** מבקרים את **התיק הזה + הקורפוס בלבד**. אין יבוא מהות מתיק אחר אלא כ"תקדים-מועמד
|
||||
לאימות" עם מקור מהכלי. אינך כותב/מזין שום שכבת-ידע או קול (INV-LRN5).
|
||||
|
||||
**כלל 9 — read-only מוחלט** (חזרה על השער למעלה): פלט אך ורק ל-`critique-gemini.md`.
|
||||
|
||||
---
|
||||
|
||||
## תהליך עבודה
|
||||
1. **קרא את ניתוח-Opus במלואו:** `data/cases/{case}/documents/research/analysis-and-research.md`.
|
||||
2. **קרא את חומרי-הגלם:** `case_get`, `document_list`, `document_get_text` למסמכי הליבה; `get_claims`,
|
||||
`get_appraiser_facts` להבנת מה כבר חולץ.
|
||||
3. **תקוף בארבעה צירים** (ראה מבנה-פלט). לכל ציר — הרץ חיפושי-קורפוס ייעודיים (כלל 1) ותעד אותם.
|
||||
4. **הרץ CoVe** (כלל 5) ונקה.
|
||||
5. **כתוב את `critique-gemini.md`** והגש מזכר תמציתי.
|
||||
6. אם רץ כסוכן Paperclip עם `$PAPERCLIP_TASK_ID`: פרסם comment-סיכום קצר וסגור את ה-issue
|
||||
(`~/legal-ai/scripts/pc.sh PATCH "/api/issues/$PAPERCLIP_TASK_ID" '{"status":"done"}'`).
|
||||
**אל תעיר את ה-CEO ואל תעדכן סטטוס תיק** — זו שכבת-קלט ליו"ר, לא הפייפליין.
|
||||
|
||||
## מבנה הפלט — critique-gemini.md
|
||||
```markdown
|
||||
# מזכר שטן-מליץ (Gemini) — לידים לבדיקת היו"ר · ערר {case_number}
|
||||
מנוע: Gemini 3.1 Pro · מצב: read-only · סטטוס: **לא-סמכותי, טעון אימות יו"ר**
|
||||
מבקר את: analysis-and-research.md (Opus)
|
||||
|
||||
## א. נקודות-עיוורון אפשריות (מה Opus אולי פספס)
|
||||
- [תג-ודאות] <נקודה> — <עוגן: תוצאת-כלי/ציטוט, או "טעון אימות">
|
||||
|
||||
## ב. מסגורים חלופיים (זוויות שלא נשקלו)
|
||||
- [תג-ודאות] <מסגור> — <מקור/נימוק>
|
||||
|
||||
## ג. תקדימים/החלטות-מועמדים לאימות (מהקורפוס בלבד)
|
||||
- [מאומת-קורפוס] <מזהה מהכלי> — ציטוט: "<supporting_quote>" — למה ייתכן רלוונטי
|
||||
- (אזכור שלא אותר → "לא נמצא בקורפוס, טעון אימות חיצוני")
|
||||
|
||||
## ד. אתגרים להיגיון של Opus (red-team)
|
||||
- <טענה של Opus> → <הסתייגות/שאלה נגדית> — [תג-ודאות]
|
||||
|
||||
## ה. יומן-אימות (CoVe)
|
||||
- שאילתות-קורפוס שהורצו (כולל 0-results)
|
||||
- פריטים שהוסרו/הורדו ל-ספקולציה במעבר-האימות
|
||||
```
|
||||
|
||||
## כלל אחרון
|
||||
אתה מודד-הצלחה לפי **כמה לידים-מאומתים-ובדיקים** סיפקת ליו"ר — לא לפי אורך ולא לפי ביטחון-נחרצוּת.
|
||||
מזכר קצר של 5 לידים מעוגנים שווה יותר מ-20 השערות. ספק ולא ודאוּת — זו המשרה.
|
||||
@@ -35,6 +35,8 @@ tools:
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קרא וקיים `~/legal-ai/docs/anti-hallucination-gate.md`. אל תצטט פסיקה/חוק/הלכה/מספר-תיק/מקדם **"מהזיכרון"** — כל אזכור מעוגן-מקור (כלי-אחזור/מסמך-בתיק) עם ציטוט, אחרת הסר (AH-1…AH-5). "לא נמצא — דורש אימות" עדיף על המצאה.
|
||||
|
||||
לפני העבודה המהותית — קרא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז את ספ-התחום שלך: `~/legal-ai/docs/spec/02-data-model.md` + `03-retrieval.md` + `04-analysis-writing.md`. אינך פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ). מסמכי-ה-`docs/` שלהלן משלימים — ספ-התחום קודם.
|
||||
|
||||
## לפני שאתה מתחיל — קרא
|
||||
@@ -310,16 +312,7 @@ FROM documents d WHERE d.case_id = '{case_id}' AND d.doc_type IN ('appeal', 'res
|
||||
|
||||
3. **עדכן סטטוס התיק** (`case_update` עם status = `documents_ready`)
|
||||
|
||||
4. **סגור את ה-issue של עצמך — חובה!** בלי זה Paperclip יחשוב שהמשימה עדיין רצה ויפעיל retry בלולאה (זה נצפה בפועל בריצת CMPA-16 — שלוש איטרציות מיותרות).
|
||||
|
||||
**אם הכל עבר בהצלחה (בדיקות שלב 6 + טענות + עובדות שמאי):**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/$PAPERCLIP_TASK_ID" '{"status": "done"}'```
|
||||
|
||||
**אם בדיקות שלב 6 נכשלו או חילוץ נכשל:**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/$PAPERCLIP_TASK_ID" '{"status": "blocked"}'```
|
||||
**אסור** לסיים `done` עם פלט חסר — אם ניסיון חוזר נכשל, סטטוס = `blocked` + comment עם פירוט.
|
||||
4. **סגור את ה-issue של עצמך — חובה!** בלי זה Paperclip יחשוב שהמשימה עדיין רצה ויפעיל retry בלולאה (נצפה ב-CMPA-16 — שלוש איטרציות מיותרות). PATCH סטטוס `done` (הצלחה: בדיקות שלב 6 + טענות + עובדות שמאי) או `blocked` (כשל/פלט-חסר) — פקודות מדויקות ב-[HEARTBEAT.md](HEARTBEAT.md) §4ב. **אסור** `done` עם פלט חסר.
|
||||
|
||||
5. **שלח מייל**:
|
||||
```bash
|
||||
@@ -329,20 +322,9 @@ FROM documents d WHERE d.case_id = '{case_id}' AND d.doc_type IN ('appeal', 'res
|
||||
```
|
||||
|
||||
### העֵר את העוזר המשפטי (CEO) — חובה!
|
||||
```bash
|
||||
# $PAPERCLIP_TASK_ID הוא UUID המלא שPaperclip מספק בסביבת הריצה — לעולם לא CMP-XX
|
||||
# אסור להחליף ידנית: משתמשים ב-$PAPERCLIP_TASK_ID ישירות
|
||||
if [ "$PAPERCLIP_COMPANY_ID" = "8639e837-4c9d-47fa-a76b-95788d651896" ]; then
|
||||
CEO_ID="cdbfa8bc-3d61-41a4-a2e7-677ec7d34562" # CMPA — היטלי השבחה
|
||||
else
|
||||
CEO_ID="752cebdd-6748-4a04-aacd-c7ab0294ef33" # CMP — רישוי ובניה
|
||||
fi
|
||||
|
||||
~/legal-ai/scripts/pc.sh POST "/api/agents/$CEO_ID/wakeup" \
|
||||
"{\"source\":\"automation\",\"triggerDetail\":\"system\",\"reason\":\"מנתח משפטי סיים $PAPERCLIP_TASK_ID בסטטוס done/blocked\",\"payload\":{\"issueId\":\"$PAPERCLIP_TASK_ID\",\"mutation\":\"agent_completion\"}}"```
|
||||
**⚠️ אסור להשתמש ב-INSERT INTO agent_wakeup_requests ישירות!** הכנסה ישירה ל-DB יוצרת רק את הבקשה בלי heartbeat_run — והסוכן לא יתעורר לעולם. **תמיד להשתמש ב-API בלבד.**
|
||||
**⚠️ אסור לקבע UUID של CEO** — UUID שונה לכל חברה. תמיד דרך `$PAPERCLIP_COMPANY_ID`. wakeup לחברה אחרת נדחה: `Agent key cannot access another company`.
|
||||
**⚠️ `$PAPERCLIP_TASK_ID` — זה UUID, לא CMP-XX.** המשתנה מוגדר אוטומטית ע"י Paperclip בסביבת הריצה. אם משתמשים בו ב-double-quotes (`"..."`), bash מרחיב אותו לערך האמיתי. שגיאת `invalid input syntax for type uuid` = שלחת CMP-XX במקום UUID.
|
||||
wakeup ל-CEO עם `payload.issueId=$PAPERCLIP_TASK_ID` ו-`reason="מנתח משפטי סיים $PAPERCLIP_TASK_ID בסטטוס done/blocked"` — הפרוטוקול המלא (CEO לפי חברה, אזהרות) במקור היחיד [HEARTBEAT.md](HEARTBEAT.md) §4ג. **אסור** `INSERT INTO agent_wakeup_requests` ישיר; **אסור** לקבע UUID של CEO (נגזר מ-`$PAPERCLIP_COMPANY_ID`).
|
||||
**⚠️ `$PAPERCLIP_TASK_ID` — זה UUID, לא CMP-XX.** מוגדר אוטומטית ע"י Paperclip; ב-double-quotes bash מרחיב לערך האמיתי. שגיאת `invalid input syntax for type uuid` = שלחת CMP-XX במקום UUID.
|
||||
|
||||
## מבנה הפלט המלא — analysis-and-research.md
|
||||
|
||||
@@ -502,18 +484,7 @@ X שאלות עומדות להכרעה:
|
||||
"העמקת ניתוח הושלמה — ערר {case_number}" \
|
||||
"סיכום: X פסקי דין אומתו, Y דורשים אימות חיצוני. ממצאים עובדתיים הועשרו."
|
||||
```
|
||||
6. **העֵר את ה-CEO — חובה!**
|
||||
```bash
|
||||
# CEO לפי חברה — אסור לקבע UUID, חברות שונות = CEO שונה
|
||||
if [ "$PAPERCLIP_COMPANY_ID" = "8639e837-4c9d-47fa-a76b-95788d651896" ]; then
|
||||
CEO_ID="cdbfa8bc-3d61-41a4-a2e7-677ec7d34562" # CMPA — היטלי השבחה
|
||||
else
|
||||
CEO_ID="752cebdd-6748-4a04-aacd-c7ab0294ef33" # CMP — רישוי ובניה
|
||||
fi
|
||||
|
||||
~/legal-ai/scripts/pc.sh POST "/api/agents/$CEO_ID/wakeup" \
|
||||
"{\"source\":\"automation\",\"triggerDetail\":\"system\",\"reason\":\"מנתח משפטי סיים העמקת ניתוח (pass 2) $PAPERCLIP_TASK_ID\",\"payload\":{\"issueId\":\"$PAPERCLIP_TASK_ID\",\"mutation\":\"agent_completion\"}}"```
|
||||
**⚠️ אם ה-API מחזיר שגיאה — אל תיגע ב-DB.** `INSERT INTO agent_wakeup_requests` לא יוצר `heartbeat_run` והסוכן לא יתעורר לעולם. בדוק `$PAPERCLIP_COMPANY_ID` ו-`$PAPERCLIP_API_KEY`, ודאי שאתה לא קורא ל-CEO של חברה אחרת (`Agent key cannot access another company`).
|
||||
6. **העֵר את ה-CEO — חובה!** wakeup עם `payload.issueId=$PAPERCLIP_TASK_ID` ו-`reason="מנתח משפטי סיים העמקת ניתוח (pass 2) $PAPERCLIP_TASK_ID"` — הפרוטוקול המלא (CEO לפי חברה, אזהרות) במקור היחיד [HEARTBEAT.md](HEARTBEAT.md) §4ג. **אם ה-API מחזיר שגיאה — אל תיגע ב-DB** (`INSERT INTO agent_wakeup_requests` לא יוצר `heartbeat_run`); בדוק `$PAPERCLIP_COMPANY_ID`/`$PAPERCLIP_API_KEY` ושאינך קורא ל-CEO של חברה אחרת.
|
||||
|
||||
## כללים קריטיים
|
||||
|
||||
|
||||
@@ -41,6 +41,10 @@ tools:
|
||||
- mcp__legal-ai__halacha_corroboration
|
||||
- mcp__legal-ai__corroboration_rebuild
|
||||
- mcp__legal-ai__extract_appraiser_facts
|
||||
- mcp__legal-ai__extract_plans
|
||||
- mcp__legal-ai__plan_get
|
||||
- mcp__legal-ai__plan_search
|
||||
- mcp__legal-ai__plan_list
|
||||
- mcp__legal-ai__write_interim_draft
|
||||
- mcp__legal-ai__export_interim_draft
|
||||
---
|
||||
@@ -51,6 +55,8 @@ tools:
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קרא וקיים `~/legal-ai/docs/anti-hallucination-gate.md`. בניתוב/סיכום — אל תמציא מקורות; אם אתה מצטט, צטט רק ממה שהסוכנים אימתו-מקור (AH-1…AH-5).
|
||||
|
||||
לפני העבודה המהותית — קרא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז — כיוון שאתה ה**מתזמר** וצריך תמונה מלאה — את **כל קבצי-הספ** (`00`–`07`, `X1`–`X5`) תחת `~/legal-ai/docs/spec/`; לניתוב comments בפרט → `X3-integration-deploy.md §1ב`. אינך פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ).
|
||||
|
||||
## שפה
|
||||
@@ -139,6 +145,17 @@ internal_decision_upload(
|
||||
| בודק איכות | 1a5b229e-9220-4b13-940c-f8eb7285fc29 | QA לפני ייצוא |
|
||||
| מייצא טיוטה | d0dc703b-ca83-4883-bca7-c9449e8713cd | בדיקה סופית + ייצוא DOCX מגורסת |
|
||||
| מנהל ידע (Hermes) | CMP: 60dce831-5c5b-4bae-bda9-5282d506f0dc · CMPA: d6f7c55d-570a-46b8-8d72-1286d07da0d8 | סקירת החלטות סופיות, הצעות לעדכון style guide / lessons. **לא קורא ישירות מ-CEO** — מופעל אוטומטית מ-`web/app.py:api_mark_final` כשדפנה לוחצת "סמן כסופי" ב-UI. |
|
||||
| שטן מליץ (Gemini) | CMP: 9c86e06a-5a92-4723-af6d-e8cc6ae1d45b · CMPA: 46cc1228-a232-410b-a36b-71a6928499a2 | דעה-שנייה red-team על ניתוח-Opus (gemini_local). **on-demand בלבד — אינו חלק מהפייפליין.** ראה למטה. |
|
||||
|
||||
### שטן מליץ (Gemini) — דעה-שנייה on-demand בלבד ⚠️
|
||||
|
||||
סוכן-Gemini שמבצע red-team על תוצר-המנתח (Opus) ומפיק **מזכר-לידים לא-סמכותי ליו"ר** (`critique-gemini.md`), read-only. **אינו נמצא בזרימת analyst→writer→qa.**
|
||||
|
||||
**מתי להפעיל:** **רק כשחיים/דפנה מבקשים מפורשות** "תן שטן-מליץ / דעה-שנייה על תיק X". אל תפעיל אותו אוטומטית, אל תכלול אותו בתזמור רגיל, ואל תציע אותו מיוזמתך.
|
||||
|
||||
**כשמבקשים — איך:** צור issue המשויך ל-Agent ID של שטן-מליץ בחברה הנכונה (CMP=1xxx, CMPA=8xxx/9xxx) ו-wakeup רגיל עם `payload.issueId`.
|
||||
|
||||
**הגבול הקריטי:** הפלט שלו = **לידים לבדיקת היו"ר בלבד** (human-in-the-loop). **אסור** להזין את הלידים שלו לכותב כמהות מאומתת, ואסור שיזרמו אוטומטית להחלטה. ה-writer ממשיך לצרוך **רק** את פלט-המנתח המעוגן. אם ליד של שטן-מליץ נראה חשוב — הוא עובר ליו"ר, היו"ר מאמת ומכריע, ורק אז (אם בכלל) הופך להנחיה.
|
||||
|
||||
## כלל: כל issue חדש = תת-משימה
|
||||
|
||||
@@ -228,25 +245,31 @@ Paperclip חוסם אוטומטית כל issue ב-`in_progress` שאין לו ru
|
||||
**מה לעשות:**
|
||||
1. קרא את ה-description של ה-issue — מצוין שם `case_law_id` וה-citation.
|
||||
2. **warmup**: קרא קודם `mcp__legal-ai__workflow_status(case_number="warmup")` (כלי קל שמאלץ MCP להתחבר). אם נכשל ב-"No such tool available" → `Bash sleep 5` ואז retry. רק אחרי שזה עובד, המשך:
|
||||
3. הרץ פעמיים:
|
||||
3. חלץ את **הפסיקה הזו בלבד** (לפי ה-`case_law_id` שב-description) — הרץ פעמיים:
|
||||
```
|
||||
mcp__legal-ai__precedent_process_pending(kind="metadata")
|
||||
mcp__legal-ai__precedent_process_pending(kind="halacha")
|
||||
mcp__legal-ai__precedent_extract_metadata(case_law_id="<uuid מה-issue>")
|
||||
mcp__legal-ai__precedent_extract_halachot(case_law_id="<uuid מה-issue>")
|
||||
```
|
||||
הכלי מעבד את **כל** הפסיקות שבתור — אם תוקיע אחת והגיעו עוד בינתיים, גם הן יעובדו.
|
||||
4. **תיקוף-ציטוטים (X11, אחרי חילוץ ההלכות):** הרץ
|
||||
⚠️ **אל תריץ** `precedent_process_pending` — הוא מרוקן את **כל** התור ההיסטורי
|
||||
(מאות פסיקות, שעות עבודה), חורג מתקציב-הזמן של ה-heartbeat וגורם
|
||||
timeout/process_lost. ריקון-הבאקלוג רץ בנפרד כשירות-לילה ייעודי
|
||||
(`legal-halacha-drain`, 23:00–05:00) — לא דרכך. כאן: רק התיק של ה-issue.
|
||||
4. **תיקוף-ציטוטים (X11, אחרי חילוץ ההלכות):** הרץ **תמיד עם ה-`case_law_id` של ה-issue** —
|
||||
```
|
||||
mcp__legal-ai__corroboration_rebuild()
|
||||
mcp__legal-ai__corroboration_rebuild(case_law_id="<uuid מה-issue>")
|
||||
```
|
||||
(ארגומנט ריק = כל הקורפוס; `case_law_id="<uuid>"` = רק התקדים שעובד עכשיו — מהיר יותר). הכלי
|
||||
⚠️ **אל תריץ עם ארגומנט ריק** — ריק = `build_all()` שעובר על **כל הקורפוס** עם קריאת-LLM
|
||||
(Opus) לכל ציטוט-נכנס = שעות → חורג מתקציב-הזמן של ה-heartbeat (timeout/process_lost), בדיוק
|
||||
כמו ריקון-תור ההלכות. ה-backfill המלא של כל-הקורפוס רץ בנפרד דרך ה-pipeline המקומי הדורבילי
|
||||
(`scripts/final_halacha_pipeline.py`), לא דרכך. כאן: רק התקדים של ה-issue. הכלי
|
||||
מסווג את הטיפול-השיפוטי של כל ציטוט-נכנס, מתאים אותו להלכה הספציפית, **ומחיל אישור-אוטומטי**:
|
||||
הלכה עם ≥2 ציטוטים חיוביים בלתי-תלויים (0 שליליים) שהיתה `pending_review` → `approved`
|
||||
(reviewer `corroborated …`); הלכה שמאוחר-יותר **בוטלה** (overruled) → חוזרת לשער-היו"ר. הוא
|
||||
idempotent ולא נוגע במצבים סופיים (`published`/`rejected`). אם הכלי לא קיים → ה-MCP server לא
|
||||
עלה מחדש מאז Phase 2; דלג ודווח (אל תיכשל על זה).
|
||||
5. כשמסתיים: כתוב comment קצר ב-issue (`precedent_process_pending` + `corroboration_rebuild`
|
||||
מחזירים את התוצאות — סכם בעברית: כמה הלכות חולצו, אילו שדות מטא-דאטה הושלמו, status לכל פסיקה,
|
||||
וכמה הלכות אושרו/הודחו בתיקוף-ציטוטים — `{approved, demoted}`).
|
||||
5. כשמסתיים: כתוב comment קצר ב-issue (`precedent_extract_metadata`/`precedent_extract_halachot` +
|
||||
`corroboration_rebuild` מחזירים את התוצאות — סכם בעברית: כמה הלכות חולצו, אילו שדות מטא-דאטה
|
||||
הושלמו, status הפסיקה, וכמה הלכות אושרו/הודחו בתיקוף-ציטוטים — `{approved, demoted}`).
|
||||
6. סמן את ה-issue כ-`done`.
|
||||
|
||||
**אל**: אל תיצור issues של ביצוע בתיקי ערר, אל תיכנס לתהליך כתיבת החלטה — זו רק עבודת תחזוקה של ספריית הפסיקה.
|
||||
|
||||
@@ -28,6 +28,8 @@ tools:
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קרא וקיים `~/legal-ai/docs/anti-hallucination-gate.md`. ייצוא מכני (DOCX) — **אפס מהות חדשה**: אל תוסיף/תשנה ציטוט/מספר/אזכור; מה שאינו במקור — לא קיים (AH-1…AH-5).
|
||||
|
||||
לפני העבודה המהותית — קרא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז את ספ-התחום שלך: `~/legal-ai/docs/spec/06-export.md` (ייצוא DOCX לפי תבנית דפנה). אינך פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ).
|
||||
|
||||
## שפה
|
||||
@@ -122,31 +124,11 @@ tools:
|
||||
- ממצאי הבדיקה הסופית (אם היו הערות)
|
||||
- גודל הקובץ
|
||||
|
||||
### סגור את ה-issue של עצמך — חובה!
|
||||
### סגור את ה-issue של עצמך + העֵר CEO — חובה!
|
||||
|
||||
בלי זה Paperclip יזהה "issue in_progress + אין execution חיה" ויפעיל auto-retry בלולאה (נצפה בפועל ב-CMPA-17 ב-30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
בלי סגירת-issue, Paperclip מזהה "in_progress בלי execution חיה" ומפעיל auto-retry בלולאה (נצפה ב-CMPA-17, 30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
|
||||
**אם הכל עבר בהצלחה (כל בדיקות השלב הקודם עברו, אין כשל בפלט):**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "done"}'```
|
||||
|
||||
**אם בדיקות נכשלו, חסר פלט, או חסר מידע קריטי:**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "blocked"}'```
|
||||
**אסור** לסיים `done` עם פלט חסר — אם משהו נכשל, סטטוס = `blocked` + comment עם פירוט.
|
||||
|
||||
### העֵר את העוזר המשפטי (CEO) — חובה!
|
||||
```bash
|
||||
# CEO לפי חברה — אסור לקבע UUID, חברות שונות = CEO שונה
|
||||
if [ "$PAPERCLIP_COMPANY_ID" = "8639e837-4c9d-47fa-a76b-95788d651896" ]; then
|
||||
CEO_ID="cdbfa8bc-3d61-41a4-a2e7-677ec7d34562" # CMPA — היטלי השבחה
|
||||
else
|
||||
CEO_ID="752cebdd-6748-4a04-aacd-c7ab0294ef33" # CMP — רישוי ובניה
|
||||
fi
|
||||
|
||||
~/legal-ai/scripts/pc.sh POST "/api/agents/$CEO_ID/wakeup" '{"source":"automation","triggerDetail":"system","reason":"מייצא טיוטה סיים משימה [issue-id] בסטטוס [done/blocked]","payload":{"issueId":"[issue-id]","mutation":"agent_completion"}}'```
|
||||
**⚠️ אסור להשתמש ב-INSERT INTO agent_wakeup_requests ישירות!** הכנסה ישירה ל-DB יוצרת רק את הבקשה בלי heartbeat_run — והסוכן לא יתעורר לעולם. **תמיד להשתמש ב-API בלבד.**
|
||||
**⚠️ אסור לקבע UUID של CEO** — UUID שונה לכל חברה. תמיד דרך `$PAPERCLIP_COMPANY_ID`. wakeup לחברה אחרת נדחה: `Agent key cannot access another company`.
|
||||
**הפרוטוקול המלא — מקור יחיד: [HEARTBEAT.md](HEARTBEAT.md) §4ב (סטטוס) + §4ג (wake CEO לפי חברה).** בקצרה: PATCH סטטוס `done` (הצלחה) או `blocked` (כשל/פלט-חסר), ואז wakeup ל-CEO עם `payload.issueId` ו-`reason="מייצא טיוטה סיים [issue-id] בסטטוס [done/blocked]"`. **אסור** `done` עם פלט חסר; **אסור** `INSERT INTO agent_wakeup_requests` ישיר; **אסור** לקבע UUID של CEO (נגזר מ-`$PAPERCLIP_COMPANY_ID`).
|
||||
|
||||
## כללים קריטיים
|
||||
|
||||
|
||||
@@ -20,6 +20,8 @@ tools:
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קרא וקיים `~/legal-ai/docs/anti-hallucination-gate.md`. תיקון-OCR בלבד — **אל "תתקן" לכיוון מונח משפטי סביר** (שם-תקדים/מספר-תיק/סכום): שמר את לשון-המקור; ספק → סמן, לא "תקן" (AH-1…AH-5).
|
||||
|
||||
לפני העבודה המהותית — קרא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז את ספ-התחום שלך: `~/legal-ai/docs/spec/01-ingest.md` (קליטה / טקסט-מחולץ). אינך פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ).
|
||||
|
||||
## שפה
|
||||
@@ -90,29 +92,9 @@ tools:
|
||||
"סיכום: X מסמכים הוגהו, Y החלפות, Z תיקונים. נדרשת ביקורתך."
|
||||
```
|
||||
|
||||
### סגור את ה-issue של עצמך — חובה!
|
||||
### סגור את ה-issue של עצמך + העֵר CEO — חובה!
|
||||
|
||||
בלי זה Paperclip יזהה "issue in_progress + אין execution חיה" ויפעיל auto-retry בלולאה (נצפה בפועל ב-CMPA-17 ב-30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
בלי סגירת-issue, Paperclip מזהה "in_progress בלי execution חיה" ומפעיל auto-retry בלולאה (נצפה ב-CMPA-17, 30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
|
||||
**אם הכל עבר בהצלחה:**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/$PAPERCLIP_TASK_ID" '{"status": "done"}'```
|
||||
|
||||
**אם נכשלו תיקונים קריטיים או יש markers `[?]` רבים:**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/$PAPERCLIP_TASK_ID" '{"status": "blocked"}'```
|
||||
**אסור** לסיים `done` עם פלט חסר — אם נכשל, סטטוס = `blocked` + comment עם פירוט.
|
||||
|
||||
### העֵר את העוזר המשפטי (CEO) — חובה!
|
||||
|
||||
```bash
|
||||
# CEO לפי חברה — אסור לקבע UUID, חברות שונות = CEO שונה
|
||||
if [ "$PAPERCLIP_COMPANY_ID" = "8639e837-4c9d-47fa-a76b-95788d651896" ]; then
|
||||
CEO_ID="cdbfa8bc-3d61-41a4-a2e7-677ec7d34562" # CMPA — היטלי השבחה
|
||||
else
|
||||
CEO_ID="752cebdd-6748-4a04-aacd-c7ab0294ef33" # CMP — רישוי ובניה
|
||||
fi
|
||||
|
||||
~/legal-ai/scripts/pc.sh POST "/api/agents/$CEO_ID/wakeup" '{"source":"automation","triggerDetail":"system","reason":"מגיה סיים משימה [issue-id] בסטטוס [done/blocked]","payload":{"issueId":"[issue-id]","mutation":"agent_completion"}}'```
|
||||
**⚠️ אסור להשתמש ב-INSERT INTO agent_wakeup_requests ישירות!** הכנסה ישירה ל-DB יוצרת רק את הבקשה בלי heartbeat_run — והסוכן לא יתעורר לעולם. **תמיד להשתמש ב-API בלבד.**
|
||||
**הפרוטוקול המלא — מקור יחיד: [HEARTBEAT.md](HEARTBEAT.md) §4ב (סטטוס) + §4ג (wake CEO לפי חברה).** בקצרה: PATCH סטטוס `done` (הצלחה) או `blocked` (כשל / markers `[?]` רבים), ואז wakeup ל-CEO עם `payload.issueId` ו-`reason="מגיה סיים [issue-id] בסטטוס [done/blocked]"`. **אסור** `done` עם פלט חסר; **אסור** `INSERT INTO agent_wakeup_requests` ישיר; **אסור** לקבע UUID של CEO (נגזר מ-`$PAPERCLIP_COMPANY_ID`).
|
||||
**⚠️ אסור לקבע UUID של CEO** — UUID שונה לכל חברה. תמיד דרך `$PAPERCLIP_COMPANY_ID`. wakeup לחברה אחרת נדחה: `Agent key cannot access another company`.
|
||||
|
||||
@@ -27,6 +27,8 @@ tools:
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קרא ו**אכוף** את `~/legal-ai/docs/anti-hallucination-gate.md` כשער-איכות: כל אזכור פסיקה/חוק/הלכה/מספר בטיוטה — האם מעוגן-מקור עם ציטוט? אם לא → `needs_revision` (AH-1…AH-5).
|
||||
|
||||
לפני העבודה המהותית — קרא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז את ספ-התחום שלך: `~/legal-ai/docs/spec/05-qa-review.md` (שערי QA + שערים אנושיים). אינך פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ).
|
||||
|
||||
## שפה
|
||||
@@ -235,28 +237,8 @@ new → proofread → documents_ready → analyst_verified → research_complete
|
||||
- האם מותר לייצא (כל הקריטיים pass?)
|
||||
- עדכן סטטוס ל-qa_review (אם נכשל) או drafted (אם עבר)
|
||||
|
||||
### סגור את ה-issue של עצמך — חובה!
|
||||
### סגור את ה-issue של עצמך + העֵר CEO — חובה!
|
||||
|
||||
בלי זה Paperclip יזהה "issue in_progress + אין execution חיה" ויפעיל auto-retry בלולאה (נצפה בפועל ב-CMPA-17 ב-30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
בלי סגירת-issue, Paperclip מזהה "in_progress בלי execution חיה" ומפעיל auto-retry בלולאה (נצפה ב-CMPA-17, 30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
|
||||
**אם הכל עבר בהצלחה (כל בדיקות השלב הקודם עברו, אין כשל בפלט):**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "done"}'```
|
||||
|
||||
**אם בדיקות נכשלו, חסר פלט, או חסר מידע קריטי:**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "blocked"}'```
|
||||
**אסור** לסיים `done` עם פלט חסר — אם משהו נכשל, סטטוס = `blocked` + comment עם פירוט.
|
||||
|
||||
### העֵר את העוזר המשפטי (CEO) — חובה!
|
||||
```bash
|
||||
# CEO לפי חברה — אסור לקבע UUID, חברות שונות = CEO שונה
|
||||
if [ "$PAPERCLIP_COMPANY_ID" = "8639e837-4c9d-47fa-a76b-95788d651896" ]; then
|
||||
CEO_ID="cdbfa8bc-3d61-41a4-a2e7-677ec7d34562" # CMPA — היטלי השבחה
|
||||
else
|
||||
CEO_ID="752cebdd-6748-4a04-aacd-c7ab0294ef33" # CMP — רישוי ובניה
|
||||
fi
|
||||
|
||||
~/legal-ai/scripts/pc.sh POST "/api/agents/$CEO_ID/wakeup" '{"source":"automation","triggerDetail":"system","reason":"בודק איכות סיים משימה [issue-id] בסטטוס [done/blocked]","payload":{"issueId":"[issue-id]","mutation":"agent_completion"}}'```
|
||||
**⚠️ אסור להשתמש ב-INSERT INTO agent_wakeup_requests ישירות!** הכנסה ישירה ל-DB יוצרת רק את הבקשה בלי heartbeat_run — והסוכן לא יתעורר לעולם. **תמיד להשתמש ב-API בלבד.**
|
||||
**⚠️ אסור לקבע UUID של CEO** — UUID שונה לכל חברה. תמיד דרך `$PAPERCLIP_COMPANY_ID`. wakeup לחברה אחרת נדחה: `Agent key cannot access another company`.
|
||||
**הפרוטוקול המלא — מקור יחיד: [HEARTBEAT.md](HEARTBEAT.md) §4ב (סטטוס) + §4ג (wake CEO לפי חברה).** בקצרה: PATCH סטטוס `done` (הצלחה) או `blocked` (כשל/פלט-חסר), ואז wakeup ל-CEO עם `payload.issueId` ו-`reason="בודק איכות סיים [issue-id] בסטטוס [done/blocked]"`. **אסור** `done` עם פלט חסר; **אסור** `INSERT INTO agent_wakeup_requests` ישיר; **אסור** לקבע UUID של CEO (נגזר מ-`$PAPERCLIP_COMPANY_ID`).
|
||||
|
||||
@@ -37,6 +37,11 @@ tools:
|
||||
- mcp__legal-ai__missing_precedent_create
|
||||
- mcp__legal-ai__missing_precedent_list
|
||||
- mcp__legal-ai__missing_precedent_close
|
||||
- mcp__legal-ai__extract_plans
|
||||
- mcp__legal-ai__plan_get
|
||||
- mcp__legal-ai__plan_search
|
||||
- mcp__legal-ai__plan_list
|
||||
- mcp__legal-ai__plan_upsert
|
||||
- mcp__legal-ai__workflow_status
|
||||
---
|
||||
|
||||
@@ -48,6 +53,8 @@ tools:
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קרא וקיים `~/legal-ai/docs/anti-hallucination-gate.md`. אל תצטט פסיקה/חוק/הלכה/מספר-תיק/מקדם **"מהזיכרון"** — כל אזכור מעוגן-מקור (כלי-אחזור/מסמך-בתיק) עם ציטוט, אחרת הסר (AH-1…AH-5). "לא נמצא — דורש אימות" עדיף על המצאה.
|
||||
|
||||
לפני העבודה המהותית — קרא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז את ספ-התחום שלך: `~/legal-ai/docs/spec/03-retrieval.md` (3 קורפוסים, hybrid/RRF, attribution); לקליטת-פסיקה → `01-ingest.md`. אינך פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ).
|
||||
|
||||
## שפה
|
||||
@@ -390,31 +397,11 @@ python3 /home/chaim/legal-ai/scripts/notify.py \
|
||||
- **מדיניות**: אילו שיקולים תכנוניים עולים מהחומר
|
||||
- קישור למיקום הקובץ: `{case_dir}/documents/research/precedent-research.md`
|
||||
|
||||
### סגור את ה-issue של עצמך — חובה!
|
||||
### סגור את ה-issue של עצמך + העֵר CEO — חובה!
|
||||
|
||||
בלי זה Paperclip יזהה "issue in_progress + אין execution חיה" ויפעיל auto-retry בלולאה (נצפה בפועל ב-CMPA-17 ב-30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
בלי סגירת-issue, Paperclip מזהה "in_progress בלי execution חיה" ומפעיל auto-retry בלולאה (נצפה ב-CMPA-17, 30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
|
||||
**אם הכל עבר בהצלחה (כל בדיקות השלב הקודם עברו, אין כשל בפלט):**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "done"}'```
|
||||
|
||||
**אם בדיקות נכשלו, חסר פלט, או חסר מידע קריטי:**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "blocked"}'```
|
||||
**אסור** לסיים `done` עם פלט חסר — אם משהו נכשל, סטטוס = `blocked` + comment עם פירוט.
|
||||
|
||||
### העֵר את העוזר המשפטי (CEO) — חובה!
|
||||
```bash
|
||||
# CEO לפי חברה — אסור לקבע UUID, חברות שונות = CEO שונה
|
||||
if [ "$PAPERCLIP_COMPANY_ID" = "8639e837-4c9d-47fa-a76b-95788d651896" ]; then
|
||||
CEO_ID="cdbfa8bc-3d61-41a4-a2e7-677ec7d34562" # CMPA — היטלי השבחה
|
||||
else
|
||||
CEO_ID="752cebdd-6748-4a04-aacd-c7ab0294ef33" # CMP — רישוי ובניה
|
||||
fi
|
||||
|
||||
~/legal-ai/scripts/pc.sh POST "/api/agents/$CEO_ID/wakeup" '{"source":"automation","triggerDetail":"system","reason":"חוקר תקדימים סיים משימה [issue-id] בסטטוס [done/blocked]","payload":{"issueId":"[issue-id]","mutation":"agent_completion"}}'```
|
||||
**⚠️ אסור להשתמש ב-INSERT INTO agent_wakeup_requests ישירות!** הכנסה ישירה ל-DB יוצרת רק את הבקשה בלי heartbeat_run — והסוכן לא יתעורר לעולם. **תמיד להשתמש ב-API בלבד.**
|
||||
**⚠️ אסור לקבע UUID של CEO** — UUID שונה לכל חברה. תמיד דרך `$PAPERCLIP_COMPANY_ID`. wakeup לחברה אחרת נדחה: `Agent key cannot access another company`.
|
||||
**הפרוטוקול המלא — מקור יחיד: [HEARTBEAT.md](HEARTBEAT.md) §4ב (סטטוס) + §4ג (wake CEO לפי חברה).** בקצרה: PATCH סטטוס `done` (הצלחה) או `blocked` (כשל/פלט-חסר), ואז wakeup ל-CEO עם `payload.issueId` ו-`reason="חוקר תקדימים סיים [issue-id] בסטטוס [done/blocked]"`. **אסור** `done` עם פלט חסר; **אסור** `INSERT INTO agent_wakeup_requests` ישיר; **אסור** לקבע UUID של CEO (נגזר מ-`$PAPERCLIP_COMPANY_ID`).
|
||||
|
||||
## כללים
|
||||
- **דיוק** — ציין מספרי סעיפים, תאריכים, שמות שופטים
|
||||
|
||||
@@ -35,6 +35,8 @@ tools:
|
||||
|
||||
## קרא לפני פעולה (INV-AG1)
|
||||
|
||||
> **שער anti-hallucination (INV-AH) — חובה:** קרא וקיים `~/legal-ai/docs/anti-hallucination-gate.md`. אתה **צרכן read-only** של פלט-המנתח המעוגן — **אסור** להוסיף פסיקה/סעיף/הלכה שלא הגיעו מהמנתח/הקורפוס; ציטוט בהחלטה = רק מ-`supporting_quote` מאומת (AH-1…AH-5).
|
||||
|
||||
לפני העבודה המהותית — קרא **תחילה** את חוקת המערכת `~/legal-ai/docs/spec/00-constitution.md` (ייעוד, G1–G11, אינדקס-ספ §7), ואז את ספ-התחום שלך: `~/legal-ai/docs/spec/04-analysis-writing.md` + `05-qa-review.md` (אתה כותב מול שערי-QA). אינך פועל "מהזיכרון" — המקור הקנוני להתנהגות הוא החוקה + ספ-התחום. ראה גם [HEARTBEAT.md](HEARTBEAT.md) ("קריאת-ספ") ו-`~/legal-ai/docs/spec/X4-agents.md` (מפת תפקיד→ספ).
|
||||
|
||||
## שפה
|
||||
@@ -212,31 +214,11 @@ case_update(case_number, status="drafted")
|
||||
- ספירת מילים לכל בלוק
|
||||
- יחסי משקל (% מהמסמך)
|
||||
|
||||
### סגור את ה-issue של עצמך — חובה!
|
||||
### סגור את ה-issue של עצמך + העֵר CEO — חובה!
|
||||
|
||||
בלי זה Paperclip יזהה "issue in_progress + אין execution חיה" ויפעיל auto-retry בלולאה (נצפה בפועל ב-CMPA-17 ב-30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
בלי סגירת-issue, Paperclip מזהה "in_progress בלי execution חיה" ומפעיל auto-retry בלולאה (נצפה ב-CMPA-17, 30/04/26 — 4 איטרציות מיותרות עד הריגה ידנית).
|
||||
|
||||
**אם הכל עבר בהצלחה (כל בדיקות השלב הקודם עברו, אין כשל בפלט):**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "done"}'```
|
||||
|
||||
**אם בדיקות נכשלו, חסר פלט, או חסר מידע קריטי:**
|
||||
```bash
|
||||
~/legal-ai/scripts/pc.sh PATCH "/api/issues/{issue-id}" '{"status": "blocked"}'```
|
||||
**אסור** לסיים `done` עם פלט חסר — אם משהו נכשל, סטטוס = `blocked` + comment עם פירוט.
|
||||
|
||||
### העֵר את העוזר המשפטי (CEO) — חובה!
|
||||
```bash
|
||||
# CEO לפי חברה — אסור לקבע UUID, חברות שונות = CEO שונה
|
||||
if [ "$PAPERCLIP_COMPANY_ID" = "8639e837-4c9d-47fa-a76b-95788d651896" ]; then
|
||||
CEO_ID="cdbfa8bc-3d61-41a4-a2e7-677ec7d34562" # CMPA — היטלי השבחה
|
||||
else
|
||||
CEO_ID="752cebdd-6748-4a04-aacd-c7ab0294ef33" # CMP — רישוי ובניה
|
||||
fi
|
||||
|
||||
~/legal-ai/scripts/pc.sh POST "/api/agents/$CEO_ID/wakeup" '{"source":"automation","triggerDetail":"system","reason":"כותב החלטה סיים משימה [issue-id] בסטטוס [done/blocked]","payload":{"issueId":"[issue-id]","mutation":"agent_completion"}}'```
|
||||
**⚠️ אסור להשתמש ב-INSERT INTO agent_wakeup_requests ישירות!** הכנסה ישירה ל-DB יוצרת רק את הבקשה בלי heartbeat_run — והסוכן לא יתעורר לעולם. **תמיד להשתמש ב-API בלבד.**
|
||||
**⚠️ אסור לקבע UUID של CEO** — UUID שונה לכל חברה. תמיד דרך `$PAPERCLIP_COMPANY_ID`. wakeup לחברה אחרת נדחה: `Agent key cannot access another company`.
|
||||
**הפרוטוקול המלא — מקור יחיד: [HEARTBEAT.md](HEARTBEAT.md) §4ב (סטטוס) + §4ג (wake CEO לפי חברה).** בקצרה: PATCH סטטוס `done` (הצלחה) או `blocked` (כשל/פלט-חסר), ואז wakeup ל-CEO עם `payload.issueId` ו-`reason="כותב החלטה סיים [issue-id] בסטטוס [done/blocked]"`. **אסור** `done` עם פלט חסר; **אסור** `INSERT INTO agent_wakeup_requests` ישיר; **אסור** לקבע UUID של CEO (נגזר מ-`$PAPERCLIP_COMPANY_ID`).
|
||||
|
||||
**אם לא תעדכן סטטוס ל-drafted — בודק האיכות לא יוכל לרוץ!**
|
||||
|
||||
|
||||
@@ -1,4 +1,18 @@
|
||||
{
|
||||
"permissions": {
|
||||
"deny": [
|
||||
"mcp__task-master-local__update_task",
|
||||
"mcp__task-master-local__update",
|
||||
"mcp__task-master-local__update_subtask",
|
||||
"mcp__task-master-local__expand_task",
|
||||
"mcp__task-master-local__expand_all",
|
||||
"mcp__task-master-local__analyze_project_complexity",
|
||||
"mcp__task-master-local__research",
|
||||
"mcp__task-master-local__parse_prd",
|
||||
"mcp__task-master-local__scope_up_task",
|
||||
"mcp__task-master-local__scope_down_task"
|
||||
]
|
||||
},
|
||||
"hooks": {
|
||||
"PreToolUse": [
|
||||
{
|
||||
|
||||
@@ -10,6 +10,7 @@ mcp-server/.venv/
|
||||
web/static/
|
||||
web/__pycache__/
|
||||
scripts/
|
||||
!scripts/SCRIPTS.md
|
||||
skills/
|
||||
!skills/docx/
|
||||
!skills/docx/decision_template.docx
|
||||
|
||||
@@ -1,6 +1,6 @@
|
||||
<!--
|
||||
תבנית PR — עוזר משפטי. מאכפת את "פרוטוקול כתיבת-קוד" (CLAUDE.md §פרוטוקול כתיבת-קוד):
|
||||
כל PR מצהיר אילו invariants הוא נוגע בהם / מקיים. ראה docs/spec/00-constitution.md (G1–G11).
|
||||
כל PR מצהיר אילו invariants הוא נוגע בהם / מקיים. ראה docs/spec/00-constitution.md (G1–G12).
|
||||
מלא את הסעיפים; מחק את ההערות בסוגריים <!-- -->.
|
||||
-->
|
||||
|
||||
@@ -11,8 +11,9 @@
|
||||
## Invariants — הצהרה (חובה)
|
||||
|
||||
<!--
|
||||
אילו invariants הנדסיים (G1–G10) או INV-* מקבצי-תחום ה-PR נוגע בהם או מקיים?
|
||||
אילו invariants הנדסיים (G1–G10, G12) או INV-* מקבצי-תחום ה-PR נוגע בהם או מקיים?
|
||||
דוגמה: "G2 (מקור-אמת יחיד) — איחדתי 2 לקוחות Paperclip למסלול קנוני אחד; INV-INT4."
|
||||
דוגמה: "G12 (שער-הפלטפורמה) — מגע-Paperclip חדש נוסף רק ב-agent_platform_port.py, לא ב-mcp-server."
|
||||
תוכן משפטי → G11.
|
||||
-->
|
||||
|
||||
@@ -22,6 +23,7 @@
|
||||
|
||||
- [ ] קראתי את `docs/spec/00-constitution.md` + ספ-התחום הרלוונטי לפני הכתיבה
|
||||
- [ ] השינוי **לא** יוצר מסלול מקביל ליכולת קיימת (G2) ולא מתקן תסמין בקריאה (G1)
|
||||
- [ ] **לא** הוספתי מגע-Paperclip מחוץ ל-Platform Port (G12) — `mcp-server/src` וה-skills נקיים
|
||||
- [ ] אין בליעה שקטה של שגיאות — רשומה חסרה/פגומה מסומנת ומדווחת (כלל-הנדסה §6)
|
||||
- [ ] בדקתי מול `docs/spec/gap-audit.md` — אם נגעתי ב-GAP/FU ממופה, התאמתי ליחידת-התיקון
|
||||
- [ ] בדיקות עוברות (אם רלוונטי) / לא נדרשות
|
||||
|
||||
22
.gitea/workflows/leak-guard.yaml
Normal file
22
.gitea/workflows/leak-guard.yaml
Normal file
@@ -0,0 +1,22 @@
|
||||
name: G12 Leak-Guard
|
||||
|
||||
# Hard gate for INV-G12 (docs/spec/X15 §4 / R4): the intelligence layer
|
||||
# (mcp-server/src) must stay free of Paperclip-specific symbols, and only
|
||||
# web/agent_platform_port.py may import the Paperclip client. Pure-stdlib check
|
||||
# (no venv) — fast, runs on every PR and on push to main.
|
||||
|
||||
on:
|
||||
pull_request:
|
||||
branches: [main]
|
||||
push:
|
||||
branches: [main]
|
||||
|
||||
jobs:
|
||||
leak-guard:
|
||||
runs-on: ubuntu-latest
|
||||
steps:
|
||||
- name: Checkout
|
||||
uses: actions/checkout@v4
|
||||
|
||||
- name: G12 — Agent Platform Port leak-guard
|
||||
run: python3 scripts/leak_guard.py
|
||||
27
.gitea/workflows/lint.yaml
Normal file
27
.gitea/workflows/lint.yaml
Normal file
@@ -0,0 +1,27 @@
|
||||
name: Lint — undefined names
|
||||
|
||||
# High-signal static gate for the bug class behind PR #249 (case-rename 500):
|
||||
# a name referenced but never imported/defined. Invisible to tests when it sits
|
||||
# in a rarely-hit branch or a fire-and-forget background task — it only
|
||||
# NameErrors at runtime. pyflakes catches it before merge. Gates ONLY on
|
||||
# undefined names (not unused imports / f-strings — those are noise). Uses a
|
||||
# throwaway venv so it is immune to PEP-668 externally-managed environments.
|
||||
|
||||
on:
|
||||
pull_request:
|
||||
branches: [main]
|
||||
push:
|
||||
branches: [main]
|
||||
|
||||
jobs:
|
||||
undefined-names:
|
||||
runs-on: ubuntu-latest
|
||||
steps:
|
||||
- name: Checkout
|
||||
uses: actions/checkout@v4
|
||||
|
||||
- name: Run undefined-name guard
|
||||
run: |
|
||||
python3 -m venv /tmp/lintvenv
|
||||
/tmp/lintvenv/bin/pip install --quiet pyflakes==3.4.0
|
||||
/tmp/lintvenv/bin/python scripts/check_undefined_names.py
|
||||
3
.gitignore
vendored
3
.gitignore
vendored
@@ -6,6 +6,7 @@ data/backups/
|
||||
data/precedent-library/
|
||||
data/.auto-sync.log
|
||||
data/*.db
|
||||
data/checkpoints/ # X16 durable-pipeline SQLite checkpoints (runtime artifact)
|
||||
*.bak-pre-*
|
||||
mcp-server/.venv/
|
||||
__pycache__/
|
||||
@@ -17,4 +18,6 @@ kiryat-yearim/
|
||||
continuation-prompt.md
|
||||
node_modules/
|
||||
data/eval/eval-report-*
|
||||
data/adapter-migration-state.json # revert snapshot for migrate_agent_adapter.py (runtime state)
|
||||
.claude/agents/.generated/ # frontmatter-stripped instruction copies for content_arg adapters (generated)
|
||||
.claude/worktrees/
|
||||
|
||||
252
CLAUDE.md
252
CLAUDE.md
@@ -1,10 +1,11 @@
|
||||
# עוזר משפטי — Legal Decision Assistant
|
||||
|
||||
> **אינדקס דק.** הכללים הקריטיים נמצאים כאן; העומק התפעולי (Deploy, Paperclip-ops, adapters, מבנה-תיקיות, Chair-Feedback, TaskMaster מלא) הוצא ל-[`docs/operations-runbook.md`](docs/operations-runbook.md) כדי לרזות את ההקשר הנטען בכל סשן.
|
||||
|
||||
## רקע הפרויקט
|
||||
|
||||
מערכת AI לסיוע בכתיבת החלטות של **ועדת ערר לתכנון ובניה, מחוז ירושלים**, בראשות **עו"ד דפנה תמיר**.
|
||||
|
||||
### מה עושה ועדת ערר?
|
||||
ועדת ערר היא גוף מעין-שיפוטי שדן בעררים על החלטות ועדות מקומיות לתכנון ובניה. הוועדה מקבלת חומרי מקור (כתבי ערר, תגובות, פרוטוקולים, תכניות), דנה בטענות הצדדים, ומוציאה **החלטה כתובה מנומקת** — מסמך משפטי פורמלי שניתן לביקורת שיפוטית בבית משפט לעניינים מנהליים.
|
||||
|
||||
### שלושה סוגי עררים
|
||||
@@ -14,13 +15,10 @@
|
||||
| היטל השבחה | 8xxx | קר ומקצועי | יבש, ללא רגשות |
|
||||
| פיצויים (ס' 197) | 9xxx | קר ומקצועי | דומה להיטל השבחה |
|
||||
|
||||
> **מבנה מספר-תיק (נוהל-יו"ר 2026-06-11):** `<סידורי>-<חודש>-<שנה>`. **אורך הסידורי = סוג-הליך:** 4 ספרות → **ערר**, 5 ספרות → **בל"מ** (`85074-09-24`). הספרה הראשונה עדיין קובעת תחום בשני האורכים. כלל חד-כיווני: 5-ספרתי הוא תמיד בל"מ; 4-ספרתי אינו מחייב ערר (בל"מ-מורשת מזוהה מהנושא). מקור-אמת: [`docs/spec/X1-identifiers.md`](docs/spec/X1-identifiers.md) §1א.
|
||||
|
||||
### מטרת המערכת
|
||||
לבנות כלי עבודה שמסייע ליו"ר הוועדה לנסח החלטות:
|
||||
1. **ניהול תיקים** — ייבוא חומרי מקור, סיווג מסמכים, מעקב סטטוס
|
||||
2. **בסיס ידע** — פסיקה, ביטויי מעבר, לקחים מהחלטות קודמות, חקיקה
|
||||
3. **חיפוש סמנטי (RAG)** — מציאת תקדימים רלוונטיים ופסקאות דומות
|
||||
4. **סיוע בכתיבה** — ייצור טיוטות לפי ארכיטקטורת 12 בלוקים בסגנון דפנה
|
||||
5. **ייצוא DOCX** — מסמך מעוצב מוכן להגשה
|
||||
כלי עבודה שמסייע ליו"ר הוועדה: **ניהול תיקים** (ייבוא, סיווג, מעקב סטטוס) · **בסיס ידע** (פסיקה, ביטויי מעבר, לקחים, חקיקה) · **חיפוש סמנטי (RAG)** · **סיוע בכתיבה** (טיוטות לפי 12 בלוקים בסגנון דפנה) · **ייצוא DOCX**.
|
||||
|
||||
### ⭐ יעד-העל: רכישת-הסגנון של דפנה (Style Acquisition)
|
||||
**היעד הראשי של המערכת הוא שהסוכנים יכתבו וינתחו עררים בדיוק כמו עו"ד דפנה תמיר** — לא רק לייצר טיוטה תקנית, אלא להפנים את **הקול והשיטה** שלה. זה מחייב **הפרדה מובהקת בין שתי תת-מערכות**:
|
||||
@@ -30,19 +28,9 @@
|
||||
|
||||
**הגישה (state-of-the-art לדאטה-מועט):** Text Style Transfer מבוסס **Authorial Style Profiling** — להכליל את סגנון דפנה ולהתאים לתיק. העתקת פסקאות מותרת לתוכן קבוע/נוסחאי; ניתוח ספציפי → להכליל; **מהות משפטית (הלכה/עובדה) — אסור להעתיק מתיק לתיק**. *לא* fine-tuning של משקולות (Opus סגור; קורפוס קטן מדי).
|
||||
|
||||
**כלל-העל — INV-LRN4:** כל החלטה אינה "סגורה" עד שהושוותה מול הגרסה הסופית של דפנה; כל סופי מנותח מול הטיוטה. כך לומדים מכל החלטה. **INV-LRN5:** שכבת-ידע-הקול לא תכיל מהות ספציפית — רק סגנון ושיטה.
|
||||
**כלל-העל — INV-LRN4:** כל החלטה אינה "סגורה" עד שהושוותה מול הגרסה הסופית של דפנה; כל סופי מנותח מול הטיוטה. **INV-LRN5:** שכבת-ידע-הקול לא תכיל מהות ספציפית — רק סגנון ושיטה. ספ מלא: [`docs/spec/07-learning.md`](docs/spec/07-learning.md) §0. ארכיטקטורה ומשימות: תוכנית `style-acquisition-subsystem`.
|
||||
|
||||
ספ מלא: [`docs/spec/07-learning.md`](docs/spec/07-learning.md) §0. ארכיטקטורה ומשימות: תוכנית `style-acquisition-subsystem`.
|
||||
|
||||
### מה היה קודם (Legacy)
|
||||
המערכת הקודמת היתה **Obsidian vault** עם Claude Code skills על שרת אחר. פותחו:
|
||||
- ניתוח סגנון של 3 החלטות (הכט — דחייה, בית הכרם — קבלה חלקית, אריאלי — השוואה)
|
||||
- ארכיטקטורת 12 בלוקים מבוססת CREAC / DITA / Akoma Ntoso / Federal Judicial Center
|
||||
- כללי כתיבה (רקע ניטרלי, ללא כפילות, טענות מקוריות בלבד)
|
||||
- לקחים מהשוואת טיוטות לגרסאות סופיות
|
||||
- סקריפט ייצוא DOCX
|
||||
|
||||
הידע שהופק מה-vault הוטמע במערכת הנוכחית — מסמכי ייחוס (`docs/`), קורפוס אימון (`data/training/`), ומבנה 12 בלוקים. ה-vault המקורי נמחק; הפרויקט הנוכחי עובד עם PostgreSQL + pgvector.
|
||||
> **Legacy:** המערכת הקודמת היתה Obsidian vault עם Claude Code skills. הידע שהופק ממנה (ניתוח סגנון, 12 בלוקים מבוססי CREAC/DITA/Akoma-Ntoso/FJC, כללי כתיבה, לקחים, ייצוא DOCX) הוטמע בפרויקט הנוכחי (`docs/`, `data/training/`). ה-vault נמחק; כעת PostgreSQL + pgvector.
|
||||
|
||||
---
|
||||
|
||||
@@ -53,11 +41,13 @@
|
||||
| [`docs/spec/00-constitution.md`](docs/spec/00-constitution.md) | **חוקת המערכת** — ייעוד, 11 invariants גלובליים (G1–G11), כללי-הנדסה, אינדקס-ספ | **לפני כל כתיבת/שינוי קוד** (ראה §פרוטוקול כתיבת-קוד) |
|
||||
| [`docs/spec/README.md`](docs/spec/README.md) | **אינדקס ספ-המערכת** — מחזור-חיים (01–07) + חוצי-שלבים (X1–X11). מקור-האמת ל"מהו תקין" | **לפני כל כתיבת/שינוי קוד** |
|
||||
| [`docs/spec/gap-audit.md`](docs/spec/gap-audit.md) | **מפת-פערים** — 62 ממצאים → 15 יחידות-תיקון (FU); invariant מופר + file:line + תיקון מוצע | לפני נגיעה ב-GAP/FU קיים או תכנון FU חדש |
|
||||
| [`docs/ia-audit-redesign.md`](docs/ia-audit-redesign.md) + [`docs/spec/X17`](docs/spec/X17-information-architecture.md) | **אבחון משטח-ההפעלה + IA-יעד** — 34 משטחים, 37 ממצאים; INV-IA1–IA6 (מקור-אמת יחיד/שער-אחד/ניווט-משימה) מרימים G2/G10 לשכבת-UI. גלי-איחוד #130–132 | לפני עבודה על דפים/ניווט/cache או תורי-אישור |
|
||||
| [`docs/architecture.md`](docs/architecture.md) | ארכיטקטורת המערכת, תרשים רכיבים, זרימת נתונים, 4 שכבות DB | לפני עבודה על תשתית |
|
||||
| [`docs/block-schema.md`](docs/block-schema.md) | הגדרת 12 בלוקים — content model, constraints, processing params | **לפני כל כתיבת החלטה** |
|
||||
| [`docs/migration-plan.md`](docs/migration-plan.md) | תוכנית מעבר vault → DB — טבלאות, עדיפויות, כמויות | לפני ייבוא נתונים |
|
||||
| [`docs/legal-decision-lessons.md`](docs/legal-decision-lessons.md) | לקחים מ-3 החלטות — מה עבד, מה השתנה, ביטויי מעבר חדשים | **לפני כל כתיבת החלטה** |
|
||||
| [`docs/decision-methodology.md`](docs/decision-methodology.md) | **מתודולוגיה אנליטית — איך לחשוב על החלטה מעין-שיפוטית** | **לפני כל כתיבת החלטה** |
|
||||
| [`docs/anti-hallucination-gate.md`](docs/anti-hallucination-gate.md) | **שער anti-hallucination משותף (INV-AH)** — 5 טכניקות מעוגנות-מקור (עיגון-מקור, quote-or-retract, abstention, תיוג-ודאות, CoVe). מקור-אמת אחד לכל הסוכנים | **לפני כל אזכור פסיקה/חוק/הלכה/מספר** |
|
||||
| `docs/garner-methodology-extraction.md` | חומר מקור: מיצוי מספרי Garner על כתיבה משפטית | רק לבדיקת מקור |
|
||||
| `docs/fjc-principles-extraction.md` | חומר מקור: מיצוי מ-Judicial Writing Manual (FJC) | רק לבדיקת מקור |
|
||||
| [`docs/corpus-analysis.md`](docs/corpus-analysis.md) | ניתוח שיטתי של 24 החלטות — מפת תוכן, דפוסי דיון תכנוני, פערים | **לפני כל כתיבת החלטה** |
|
||||
@@ -73,6 +63,8 @@
|
||||
| [`skills/decision/SKILL.md`](skills/decision/SKILL.md) | מדריך סגנון מלא של דפנה — טון, מבנה, ביטויים, מתודולוגיה | **לפני כל כתיבת החלטה** |
|
||||
| [`.claude/agents/HEARTBEAT.md`](.claude/agents/HEARTBEAT.md) | checklist הפעלת סוכן — routing, company filtering, quirks, wakeup עם UUID נכון | **לפני כל עבודה על סוכנים** |
|
||||
| [`skills/dafna-decision-template/SKILL.md`](skills/dafna-decision-template/SKILL.md) | export DOCX לפי styles של תבנית Word של דפנה — line classification, dash policy, placeholder handling | לפני export DOCX |
|
||||
| [`docs/corpus-graph.md`](docs/corpus-graph.md) | **מפת הקורפוס** (`/graph`) — גרף ציטוטים אינטראקטיבי נייטיב; 6 שכבות (פסיקה/נושא/תחום/הלכות/חוסרי‑מחקר/יומונים), אנליטיקה (PageRank/אשכולות), endpoints, ואיך מוסיפים שכבה | לפני עבודה על דף `/graph` או `web/graph_api.py` |
|
||||
| [`docs/operations-runbook.md`](docs/operations-runbook.md) | **עומק תפעולי** — Deploy (Coolify/pm2), Paperclip-ops מלא (wakeup, sync, webhook, scheduled jobs, adapters), מבנה-תיקיות, Chair-Feedback, TaskMaster | לפני עבודה על Deploy / אינטגרציית-Paperclip / adapters |
|
||||
|
||||
---
|
||||
|
||||
@@ -85,14 +77,14 @@
|
||||
|
||||
**לפני יצירה/שינוי של קוד ב-`web/`, `mcp-server/`, `web-ui/`, `scripts/`:**
|
||||
|
||||
1. **קרא** [`docs/spec/00-constitution.md`](docs/spec/00-constitution.md) — ייעוד, ה-invariants הגלובליים G1–G11, וכללי-ההנדסה (§6). אינדקס-הספ ב-§7.
|
||||
2. **קרא את ספ-התחום הרלוונטי** לפי האינדקס (§7) — לדוגמה: אחזור→[`03-retrieval.md`](docs/spec/03-retrieval.md), קליטה→[`01-ingest.md`](docs/spec/01-ingest.md), נתונים→[`02-data-model.md`](docs/spec/02-data-model.md), כלי-MCP→[`X9-mcp-tool-contract.md`](docs/spec/X9-mcp-tool-contract.md), UI↔API→[`X6-ui-api-contract.md`](docs/spec/X6-ui-api-contract.md), Paperclip→[`X3`](docs/spec/X3-integration-deploy.md)/[`X7`](docs/spec/X7-paperclip-client-params.md), env/secrets→[`X10-deploy-env-secrets.md`](docs/spec/X10-deploy-env-secrets.md).
|
||||
1. **קרא** [`docs/spec/00-constitution.md`](docs/spec/00-constitution.md) — ייעוד, ה-invariants הגלובליים G1–G12, וכללי-ההנדסה (§6). אינדקס-הספ ב-§7.
|
||||
2. **קרא את ספ-התחום הרלוונטי** לפי האינדקס (§7) — לדוגמה: אחזור→[`03-retrieval.md`](docs/spec/03-retrieval.md), קליטה→[`01-ingest.md`](docs/spec/01-ingest.md), נתונים→[`02-data-model.md`](docs/spec/02-data-model.md), כלי-MCP→[`X9-mcp-tool-contract.md`](docs/spec/X9-mcp-tool-contract.md), UI↔API→[`X6-ui-api-contract.md`](docs/spec/X6-ui-api-contract.md), Paperclip/שער-הפלטפורמה→[`X3`](docs/spec/X3-integration-deploy.md)/[`X7`](docs/spec/X7-paperclip-client-params.md)/[`X15`](docs/spec/X15-agent-platform-port.md) (G12), עמידות-פייפליין→[`X16`](docs/spec/X16-pipeline-durability.md), env/secrets→[`X10-deploy-env-secrets.md`](docs/spec/X10-deploy-env-secrets.md).
|
||||
3. **ודא שהשינוי *מקיים* את ה-invariants** — לא יוצר מסלול מקביל ליכולת קיימת ([G2](docs/spec/00-constitution.md)), לא מתקן תסמין בקריאה במקום נרמול במקור (G1), לא בולע שגיאות בשקט (כלל-הנדסה §6).
|
||||
4. **בדוק מול** [`gap-audit.md`](docs/spec/gap-audit.md) — אם אתה נוגע ב-GAP/FU שכבר ממופה, התאם את העבודה ליחידת-התיקון; אל תפתור מחדש.
|
||||
5. **כל PR מצהיר invariants** — אילו G*/INV-* ה-PR נוגע בהם / מקיים (ראה תבנית ה-PR ב-[`.gitea/PULL_REQUEST_TEMPLATE.md`](.gitea/PULL_REQUEST_TEMPLATE.md)).
|
||||
|
||||
> **שתי שכבות-כללים מובחנות, שתיהן חלות:**
|
||||
> - **הנדסה (G1–G10)** — הסעיף הזה + `docs/spec/`. סמכות: ≥3 מקורות חיצוניים.
|
||||
> - **הנדסה (G1–G10, G12)** — הסעיף הזה + `docs/spec/`. סמכות: ≥3 מקורות חיצוניים.
|
||||
> - **תוכן משפטי (G11)** — סעיף "עקרונות כתיבה קריטיים" למטה (12 בלוקים, רקע ניטרלי...). סמכות: היו"ר + מסמכי-הפרויקט.
|
||||
>
|
||||
> אכיפה אוטומטית: hook `PreToolUse` ([scripts/spec-guard.sh](scripts/spec-guard.sh)) מזכיר את הפרוטוקול בכל Edit/Write על נתיב-קוד.
|
||||
@@ -105,17 +97,13 @@
|
||||
|
||||
**לכן — כל סשן שעומד לכתוב/לשנות קוד או תיעוד חייב לעבוד ב-git worktree מבודד משלו. אסור לערוך/לתייק בעץ-העבודה הראשי `~/legal-ai` כשייתכן שסשן אחר פעיל.**
|
||||
|
||||
הבידוד **נתמך-סביבה** — לא רק כלל-משמעת. ההגדרות נשמרות ב-repo (`.claude/settings.json`, `.worktreeinclude`, `.gitignore`) כך שכל worktree שה-harness יוצר מקבל אוטומטית בסיס נקי, את התלויות, ואת ההרשאות. מקורות רשמיים: [Run parallel sessions with worktrees](https://code.claude.com/docs/en/worktrees), [Settings → worktree](https://code.claude.com/docs/en/settings).
|
||||
הבידוד **נתמך-סביבה** — ההגדרות נשמרות ב-repo (`.claude/settings.json`, `.worktreeinclude`, `.gitignore`) כך שכל worktree שה-harness יוצר מקבל אוטומטית בסיס נקי, את התלויות, ואת ההרשאות. מקורות רשמיים: [Run parallel sessions with worktrees](https://code.claude.com/docs/en/worktrees), [Settings → worktree](https://code.claude.com/docs/en/settings).
|
||||
|
||||
### הדרך המומלצת — worktree של ה-harness
|
||||
```bash
|
||||
cd ~/legal-ai && claude --worktree <slug> # או, בתוך סשן: "עבוד ב-worktree" (כלי EnterWorktree)
|
||||
```
|
||||
נוצר תחת `.claude/worktrees/<slug>/` על ענף `worktree-<slug>`, ומקבל **אוטומטית**:
|
||||
- **בסיס נקי מ-`origin/main`** — דרך `worktree.baseRef: "fresh"` ב-`.claude/settings.json`.
|
||||
- **`web-ui/node_modules` (789MB) כסימלינק** — דרך `worktree.symlinkDirectories`; אין צורך ב-`npm ci`. (אם משנים deps של web-ui — עשו זאת בעץ הראשי או היו מודעים שה-node_modules משותף.)
|
||||
- **`.claude/settings.local.json` + קבצי-env מקומיים** — מועתקים דרך `.worktreeinclude` (מונע הצפת אישורי-הרשאה).
|
||||
- **ניקוי אוטומטי ביציאה** — כולל עקיפת באג סימלינק [#40259](https://github.com/anthropics/claude-code/issues/40259) דרך `WorktreeRemove` hook עם `--force`.
|
||||
נוצר תחת `.claude/worktrees/<slug>/` על ענף `worktree-<slug>`, ומקבל **אוטומטית**: בסיס נקי מ-`origin/main` (`worktree.baseRef: "fresh"`) · `web-ui/node_modules` כסימלינק (`worktree.symlinkDirectories`; אין צורך ב-`npm ci`) · `.claude/settings.local.json` + קבצי-env מקומיים (דרך `.worktreeinclude`) · ניקוי אוטומטי ביציאה (כולל עקיפת באג סימלינק [#40259](https://github.com/anthropics/claude-code/issues/40259) דרך `WorktreeRemove` hook עם `--force`).
|
||||
|
||||
### הפרוטוקול (חל על שתי הדרכים)
|
||||
1. **בתחילת עבודת-כתיבה** — צור worktree (מומלץ: `claude --worktree`; ידני-fallback: `git worktree add -b <branch> .claude/worktrees/<slug> origin/main` — **תחת `.claude/worktrees/`** כדי שההגדרות יחולו).
|
||||
@@ -126,202 +114,43 @@ cd ~/legal-ai && claude --worktree <slug> # או, בתוך סשן: "עבוד
|
||||
6. **אל תיגע** בשינויים לא-מתויקים שאינם שלך בעץ הראשי — הם של סשן אחר. אם העץ הראשי על ענף זר — אל תתייק עליו.
|
||||
|
||||
> **בידוד-DB:** ה-worktree מבודד-קבצים בלבד — לא בידוד-repo ולא בידוד-DB. **אל תריץ migrations מ-2 worktrees במקביל** על Postgres המשותף (`localhost:5433`) — סכמה שאף סשן לא מצפה לה ([Run agents in parallel](https://code.claude.com/docs/en/agents)).
|
||||
> **סוכני Paperclip — אינם מבודדים (אומת 2026-06-06):** 14 מתוך 16 הסוכנים רצים על אדפטר `claude_local` הרשמי, שמריץ `claude -p` ב-`adapter_config.cwd=/home/chaim/legal-ai` **המשותף** — אין לו אופציית `worktreeMode`/`-w` (קיימת רק ב-fork ה-deepseek שלנו). כלומר **כל סוכני Paperclip חולקים את עץ-העבודה הראשי**. הסיכון ממותן ע"י כלל הסשנים נתמך-הסביבה למעלה + תזמור סדרתי ע"י ה-CEO — **לא** ע"י בידוד-worktree per-agent. הניתוח המלא והדרכים שנשקלו: TaskMaster `legal-ai` #104 (נסגר כ-cancelled — "לתעד, לא לבדד").
|
||||
> **סוכני Paperclip — אינם מבודדים (אומת 2026-06-06):** 14 מתוך 16 הסוכנים רצים על אדפטר `claude_local` הרשמי, שמריץ `claude -p` ב-`adapter_config.cwd=/home/chaim/legal-ai` **המשותף** — אין לו אופציית `worktreeMode`/`-w`. כלומר **כל סוכני Paperclip חולקים את עץ-העבודה הראשי**. הסיכון ממותן ע"י כלל הסשנים נתמך-הסביבה למעלה + תזמור סדרתי ע"י ה-CEO — **לא** ע"י בידוד-worktree per-agent. ניתוח מלא: TaskMaster `legal-ai` #104 (נסגר cancelled — "לתעד, לא לבדד").
|
||||
|
||||
---
|
||||
|
||||
## שרת Nautilus (158.178.131.193)
|
||||
## Deploy — תמצית קריטית
|
||||
|
||||
| שירות | תפקיד | כתובת |
|
||||
|-------|--------|-------|
|
||||
| Coolify | ניהול containers | `http://158.178.131.193:8000` |
|
||||
| PostgreSQL + pgvector | בסיס נתונים ראשי | `legal-ai-postgres` |
|
||||
| Redis | תור משימות | `legal-ai-redis` |
|
||||
| Gitea | מאגר קוד | `gitea.nautilus.marcusgroup.org/ezer-mishpati` |
|
||||
| ezer-mishpati-web | ממשק העלאת מסמכים (Docker/Coolify) | `legal-ai.nautilus.marcusgroup.org` |
|
||||
| Paperclip | סוכן AI — מריץ Claude Code agents (pm2, מקומי) | `localhost:3100` |
|
||||
| Infisical | ניהול סודות | `secret.dev.marcus-law.co.il` |
|
||||
שלושה מודלי-הרצה דרים יחד; ערבוב = הטעות הנפוצה. **פירוט מלא, UUIDs ופקודות: [`docs/operations-runbook.md`](docs/operations-runbook.md).**
|
||||
|
||||
### ⚠️ ארכיטקטורת Deploy — חובה לקרוא
|
||||
|
||||
**עוזר משפטי (Legal-AI)** — רץ כ-**Docker container דרך Coolify**:
|
||||
- UUID: `gyjo0mtw2c42ej3xxvbz8zio`
|
||||
- שינוי קוד ב-`web/` או `web-ui/` **לא נכנס לתוקף** עד ש:
|
||||
1. עושים `git commit` + `git push origin main`
|
||||
2. מריצים deploy דרך Coolify (`mcp__coolify__deploy`)
|
||||
3. ממתינים ~2-4 דקות לבנייה
|
||||
- **אסור** לנסות להריץ uvicorn מקומית — אין סביבת Python על המכונה
|
||||
- ה-container מריץ Next.js (`:3000`, חשוף) + FastAPI (`:8000`, פנימי)
|
||||
- בדיקה: `curl https://legal-ai.nautilus.marcusgroup.org/api/...`
|
||||
|
||||
**Paperclip** — רץ **מקומית דרך pm2**:
|
||||
- פורט: `localhost:3100`, DB: `localhost:54329`
|
||||
- שינויי קוד נכנסים לתוקף אחרי `pm2 restart paperclip`
|
||||
- **אין צורך ב-Docker או Coolify**
|
||||
|
||||
**legal-chat-service** — רץ **מקומית דרך pm2** (חדש, מאפריל 2026):
|
||||
- פורט: `localhost:8770` (loopback בלבד)
|
||||
- שירות aiohttp קצר שעוטף את `claude` CLI ב-streaming + session continuation, ומשרת את הטאב "שיחה" בדף `/training`. הקונטיינר משדל אליו proxy דרך `host.docker.internal:8770`.
|
||||
- קוד: [mcp-server/src/legal_mcp/chat_service/](mcp-server/src/legal_mcp/chat_service/)
|
||||
- התקנה: `pm2 start /home/chaim/legal-ai/scripts/legal-chat-service.config.cjs && pm2 save`
|
||||
- בריאות: `curl http://127.0.0.1:8770/health` → `{"ok":true,...}`
|
||||
- שינויי קוד: `pm2 restart legal-chat-service`
|
||||
- **אפס עלות API** — claude CLI משתמש ב-claude.ai subscription של chaim. הנחת היסוד של `claude_session.py` (claude CLI מקומי בלבד) נשמרת — השירות הזה הוא הגשר הרשמי בין הקונטיינר לחוץ.
|
||||
- Coolify dependency: ה-Service Definition של legal-ai חייב להכיל `extra_hosts: host.docker.internal:host-gateway` (אחרת ה-proxy יקבל ConnectError).
|
||||
- **legal-ai** (`web/`, `web-ui/`) = **Docker דרך Coolify**. שינוי קוד לא נכנס לתוקף עד `git commit` + `git push origin main` → Gitea Actions בונה image → `mcp__coolify__deploy` (~2-4 דק'). **אסור** uvicorn/`next dev` מקומית — אין Python על המכונה. בדיקה: `curl https://legal-ai.nautilus.marcusgroup.org/api/health`.
|
||||
- **Paperclip** = **pm2 מקומי** (`localhost:3100`). שינוי → `pm2 restart paperclip`. **אין** Docker/Coolify.
|
||||
- **legal-chat-service** = **pm2 מקומי** (`127.0.0.1:8770`), גשר claude CLI לטאב הצ'אט ב-/training. שינוי → `pm2 restart legal-chat-service`.
|
||||
|
||||
---
|
||||
|
||||
## מבנה תיקיות
|
||||
## Paperclip — כללים קריטיים (תמצית)
|
||||
|
||||
```
|
||||
/home/chaim/legal-ai/
|
||||
├── CLAUDE.md ← הקובץ הזה
|
||||
├── Dockerfile ← Docker build
|
||||
├── docs/ ← תיעוד + לקחים
|
||||
│ ├── architecture.md ארכיטקטורה
|
||||
│ ├── block-schema.md 12 בלוקים (המסמך החשוב ביותר)
|
||||
│ ├── migration-plan.md תוכנית מעבר vault → DB
|
||||
│ ├── legal-decision-lessons.md לקחים מ-3 החלטות
|
||||
│ └── memory.md הקשר כללי — skills, פרויקטים
|
||||
├── skills/ ← כלי עבודה ומדריכים
|
||||
│ ├── decision/ מדריך סגנון + references + 12 בלוקים
|
||||
│ ├── assistant/ קטלוג מסמכים
|
||||
│ ├── docx/ עיצוב DOCX
|
||||
│ ├── dafna-decision-template/ export DOCX לפי תבנית Word של דפנה
|
||||
│ └── new-company-setup/ blueprint הוספת חברה חדשה
|
||||
├── .claude/
|
||||
│ └── agents/ ← הוראות סוכנים + HEARTBEAT.md (symlinks ב-Paperclip)
|
||||
│ ├── HEARTBEAT.md checklist הפעלה משותף לכל הסוכנים
|
||||
│ ├── legal-ceo.md תזמורן + בקרת זרימה
|
||||
│ ├── legal-writer.md כתיבת בלוקים בסגנון דפנה
|
||||
│ ├── legal-analyst.md ניתוח משפטי + חילוץ טענות
|
||||
│ ├── legal-researcher.md חיפוש תקדימים
|
||||
│ ├── legal-qa.md 7 שערי איכות
|
||||
│ ├── legal-proofreader.md תיקון OCR
|
||||
│ ├── legal-exporter.md ייצוא DOCX סופי
|
||||
│ └── hermes-curator.md סוכן Hermes לניתוח סגנון post-export
|
||||
├── data/
|
||||
│ ├── training/ ← 4 החלטות לאימון (DOCX)
|
||||
│ ├── exports/ ← טיוטות DOCX מיוצאות
|
||||
│ └── cases/{case-number}/ ← תיקי עררים (מבנה שטוח, סטטוס ב-DB)
|
||||
├── web/ ← FastAPI backend (Python): 75+ API endpoints
|
||||
│ ├── app.py ← API ראשי
|
||||
│ ├── paperclip_api.py ← אינטגרציית Paperclip: `pc_request()` + `emit_case_status_webhook()`
|
||||
│ ├── paperclip_client.py ← legacy client (ישן — השתמש ב-paperclip_api.py)
|
||||
│ └── gitea_client.py ← אינטגרציית Gitea
|
||||
├── web-ui/ ← Next.js frontend (TypeScript/React): ממשק המשתמש
|
||||
│ └── next.config.ts ← proxy: /api/* → FastAPI :8000
|
||||
├── mcp-server/ ← MCP server + services + tools
|
||||
├── adapters/ ← Paperclip external adapters (ראה למטה)
|
||||
│ └── deepseek-paperclip-adapter/ ← `deepseek_local` (Hermes-pinned ל-DeepSeek profile)
|
||||
└── scripts/ ← סקריפטים וכלי עזר (ראה scripts/SCRIPTS.md)
|
||||
└── .archive/ ← סקריפטים שהושלמו (לא להריץ)
|
||||
```
|
||||
**פירוט מלא + דוגמאות + פקודות sync: [`docs/operations-runbook.md`](docs/operations-runbook.md).**
|
||||
|
||||
> **G12 — שער-הפלטפורמה ([`docs/spec/X15-agent-platform-port.md`](docs/spec/X15-agent-platform-port.md)):** Paperclip היא **מעטפת ניתנת-להחלפה** מאחורי Port יחיד. מגע-Paperclip מותר רק ב-`web/agent_platform_port.py` + `HEARTBEAT.md` (לפרומפטים) + המעטפת המוצהרת (`paperclip_client/api`, plugin, adapters). **אסור** סמל ספציפי-Paperclip ב-`mcp-server/src` או ב-skills של ההחלטה/הסגנון. כל מגע חדש → דרך ה-Port.
|
||||
|
||||
- **Wakeup תמיד דרך API**: `POST /api/agents/{agent-id}/wakeup` עם `payload.issueId`. **אסור** `INSERT INTO agent_wakeup_requests` ישיר — הסוכן לא יתעורר לעולם (אין `heartbeat_run`).
|
||||
- **ניתוב comments דרך CEO**: תגובת-משתמש → פלאגין מעיר CEO → CEO מנתב ויוצר issue. סוכנים קוראים comments אחרונים לפני עבודה (HEARTBEAT 2b-2c).
|
||||
- **קריאות API דרך helper בלבד**: bash → `scripts/pc.sh`; Python → `pc_request()` מ-`web/paperclip_api.py`. **אסור** `curl` ישיר ל-Paperclip או `httpx.AsyncClient` ישיר.
|
||||
- **Cross-company sync**: 14 סוכנים = 7 × 2 חברות (CMP=1xxx master, CMPA=8xxx mirror). אחרי כל שינוי הגדרות/skills של סוכן — להריץ `scripts/sync_agents_across_companies.py --apply`. **מדלג** על סוכנים עם `adapter_type` שונה בין החברות (למשל `deepseek_local`) — להחיל ידנית בשתיהן.
|
||||
|
||||
---
|
||||
|
||||
## כלל: עדכון `scripts/SCRIPTS.md`
|
||||
|
||||
בכל פעם שנוצר, נמחק, או משתנה סקריפט בתיקיית `scripts/` — **חובה לעדכן את `scripts/SCRIPTS.md`** בהתאם.
|
||||
הקובץ מתעד את התפקיד, הסטטוס, וההחלפה (אם יש) של כל סקריפט.
|
||||
|
||||
---
|
||||
בכל פעם שנוצר, נמחק, או משתנה סקריפט בתיקיית `scripts/` — **חובה לעדכן את `scripts/SCRIPTS.md`** (תפקיד, סטטוס, החלפה).
|
||||
|
||||
## ניהול משימות — TaskMaster AI
|
||||
|
||||
הפרויקט משתמש ב-**TaskMaster AI** (MCP server) לניהול משימות מובנה:
|
||||
- **תמיד** להשתמש ב-TaskMaster לפירוק, מעקב וניהול משימות — לא ב-TASKS.md ידני
|
||||
- קובץ המשימות הקנוני: `~/legal-ai/.taskmaster/tasks/tasks.json` (יחסי ל-project root, **לא** `~/.taskmaster/tasks/tasks.json`). מכיל את כל ה-tags של legal-ai (`master`, `legal-ai`).
|
||||
- פקודות עיקריות: `get_tasks`, `next_task`, `add_task`, `update_task`, `expand_task`
|
||||
- לפני התחלת עבודה → `next_task` כדי לדעת מה הבא לפי תלויות
|
||||
- אחרי סיום משימה → `update_task` עם status=done
|
||||
- משימה מורכבת → `expand_task` לפירוק לתתי-משימות
|
||||
|
||||
> **⚠️ מלכוד cwd ב-CLI:** הדגל `--tag` בוחר קבוצה לוגית *בתוך* הקובץ — הוא **לא** בוחר לאיזה `tasks.json` לכתוב. ה-CLI מאתר את הקובץ לפי ה-cwd (`<cwd>/.taskmaster/tasks/tasks.json`). תמיד `cd ~/legal-ai` לפני `task-master add-task` או כל פקודה משנה, ואז אמת ב-MCP `get_tasks` שהשינוי נחת. הרצה מ-`~/` כותבת לקובץ נטוש והמשימה לא תופיע בשאילתות MCP. כשלא בטוחים — לערוך את `~/legal-ai/.taskmaster/tasks/tasks.json` ישירות.
|
||||
**תמיד** TaskMaster (לא TASKS.md ידני). קובץ קנוני: `~/legal-ai/.taskmaster/tasks/tasks.json` (tags: `master`, `legal-ai`). פקודות: `get_tasks`, `next_task`, `add_task`, `update_task`, `expand_task`.
|
||||
> **⚠️ מלכוד cwd ב-CLI:** `--tag` בוחר קבוצה *בתוך* הקובץ — לא לאיזה קובץ לכתוב (ה-CLI מאתר לפי cwd). תמיד `cd ~/legal-ai` לפני כל פקודה משנה, ואז אמת ב-MCP `get_tasks`. כשלא בטוחים — לערוך את הקובץ ישירות. פירוט: [`docs/operations-runbook.md`](docs/operations-runbook.md).
|
||||
|
||||
---
|
||||
|
||||
## Paperclip — כללי אינטגרציה קריטיים
|
||||
|
||||
### Wakeup API — תמיד דרך API, לעולם לא דרך DB
|
||||
- **הנתיב הנכון**: `POST /api/agents/{agent-id}/wakeup` (לא `/wake`!)
|
||||
- **⚠️ אסור**: `INSERT INTO agent_wakeup_requests` ישירות — זה יוצר רק רשומה בלי `heartbeat_run`, והסוכן **לא יתעורר לעולם**
|
||||
- **⚠️ חובה לשלוח `payload` עם `issueId`** — בלי זה הסוכן מתעורר בלי הקשר (בלי תיק, בלי issue, בלי cwd נכון)
|
||||
- דוגמה נכונה:
|
||||
```json
|
||||
{"source": "automation", "triggerDetail": "system", "reason": "...",
|
||||
"payload": {"issueId": "...", "mutation": "comment", "commentId": "..."}}
|
||||
```
|
||||
- **Board API Key**: שמור ב-DB (`board_api_keys`), auth: `Authorization: Bearer pbk_...`
|
||||
|
||||
### ניתוב comments דרך CEO
|
||||
- כשמשתמש כותב תגובה על issue ב-Paperclip, הפלאגין (`plugin-legal-ai`) מעיר את ה-CEO דרך `ctx.agents.invoke()`
|
||||
- ה-CEO קורא את ה-comment, מחליט על ניתוב, ויוצר issue לסוכן המתאים
|
||||
- כל הסוכנים חייבים לקרוא comments אחרונים לפני שהם מתחילים לעבוד (HEARTBEAT שלבים 2b-2c)
|
||||
|
||||
### קריאות API — תמיד דרך helper, לעולם לא `curl` ישיר
|
||||
- **bash (סוכנים):** `~/legal-ai/scripts/pc.sh <METHOD> <PATH> [BODY_JSON]` — מוסיף Authorization, X-Paperclip-Run-Id, Content-Type, base URL. ראה `HEARTBEAT.md §0`.
|
||||
- **Python (FastAPI):** `from web.paperclip_api import pc_request; await pc_request("POST", "/api/...", json={...})` — שימוש ב-board API key.
|
||||
- **אסור** `curl ... $PAPERCLIP_API_URL` ישיר ב-bash; **אסור** `httpx.AsyncClient` ישיר ל-Paperclip ב-Python.
|
||||
- **למה:** ה-skill הרשמי דורש `X-Paperclip-Run-Id` בכל קריאה משנה issue. אצלנו ה-audit trail עבד ממילא דרך JWT claims (`runId: runIdHeader || claims.run_id`), אבל ה-helper מבטיח עקביות + תאימות ל-board API keys (long-lived) שלא נושאות JWT claims.
|
||||
|
||||
### Cross-company agent sync — אחרי כל שינוי הגדרות
|
||||
- יש 14 סוכנים = 7 × 2 חברות (CMP=1xxx, CMPA=8xxx). Paperclip מחייב `agents.company_id NOT NULL` — אין shared agents.
|
||||
- **Master = CMP (1xxx)**, **Mirror = CMPA (8xxx)**.
|
||||
- אחרי כל שינוי ב-`adapter_config`, `runtime_config`, `budget_monthly_cents`, או skills של סוכן ב-master (UI, SQL, או API), **חובה להריץ:**
|
||||
```bash
|
||||
PAPERCLIP_BOARD_API_KEY=$(...infisical...) \
|
||||
python ~/legal-ai/scripts/sync_agents_across_companies.py --verify # לבדיקה
|
||||
PAPERCLIP_BOARD_API_KEY=$(...) \
|
||||
python ~/legal-ai/scripts/sync_agents_across_companies.py --apply # לסנכרן
|
||||
```
|
||||
- הסקריפט מסנן local skills שלא קיימים ב-CMPA (מציג אזהרה), משתמש ב-API (לא DB ישיר), יוצר revisions, idempotent.
|
||||
- שאלות ה-skill הרשמי של Paperclip — `paperclip` skill תחת `paperclipai/paperclip`.
|
||||
|
||||
### Webhook יוצא — עדכון סטטוס תיק לפלאגין
|
||||
|
||||
כשסטטוס תיק משתנה דרך `PUT /api/cases/{case_number}`, הבקאנד שולח webhook אסינכרוני לפלאגין:
|
||||
|
||||
```
|
||||
PUT /api/cases/{case_number} → emit_case_status_webhook() [BackgroundTask]
|
||||
→ POST /api/plugins/marcusgroup.legal-ai/webhooks/case-status
|
||||
→ plugin-legal-ai/onWebhook()
|
||||
→ comment בעברית על issue + CEO wakeup (כשסטטוס = qa_failed)
|
||||
```
|
||||
|
||||
- הקוד ב-`web/paperclip_api.py` (`emit_case_status_webhook`), fire-and-forget, timeout 5s
|
||||
- הפלאגין שומר idempotency key ב-state עם TTL 5 דקות למניעת spam על retry
|
||||
- `GET /api/cases/stale?days=N` — תיקים שלא עודכנו N ימים; מוחרגים: `new`, `final`, `exported`
|
||||
- `GET /api/chair-feedback/weekly-summary` — סיכום פידבק YU"R לשבוע האחרון
|
||||
|
||||
### Scheduled Jobs (plugin-legal-ai)
|
||||
|
||||
| Job | לוח זמנים | מה עושה |
|
||||
|-----|-----------|---------|
|
||||
| `stale-case-reminder` | יומי 08:00 | שולח comment אזהרה על תיקים תקועים >3 ימים |
|
||||
| `weekly-feedback-analysis` | ראשון 19:00 | מעיר CEO לניתוח פידבק YU"R ועדכון `docs/legal-decision-lessons.md` |
|
||||
| `sync-case-status` | כל 30 דק' | מסנכרן סטטוסי תיקים בין legal-ai ל-Paperclip |
|
||||
|
||||
CEO שמתעורר מ-`weekly-feedback-job` כותב לקובץ בלבד — **אין לו issueId, אל תנסה לפרסם comment או לסגור issue**.
|
||||
|
||||
### External adapters — `deepseek_local`
|
||||
- מיקום ה-package: [adapters/deepseek-paperclip-adapter/](adapters/deepseek-paperclip-adapter/) (לא ב-`node_modules`).
|
||||
- רישום ב-Paperclip: רשומה ב-`~/.paperclip/adapter-plugins.json` (נטען אוטומטית ב-startup דרך `buildExternalAdapters`). אין צורך בעריכת `node_modules`.
|
||||
- **מה ה-adapter עושה**: spawnל-`hermes chat` עם `HERMES_HOME=/home/chaim/.hermes/profiles/deepseek` כך שה-CLI טוען את `config.yaml` (`base_url=https://api.deepseek.com/v1`, `provider=custom`, `key_env=DEEPSEEK_API_KEY`) ואת `.env` (שמכיל את ה-key).
|
||||
- **מודלים זמינים** (lookup ב-DeepSeek `/v1/models`): `deepseek-v4-pro` (default), `deepseek-v4-flash`. יופיעו כדרופ-דאון ב-UI.
|
||||
- **התקנה מחדש / עדכון**: `curl -X POST -H "Authorization: Bearer pcapi_legal_install_key_2026" -H "Content-Type: application/json" -d '{"packageName":"/home/chaim/legal-ai/adapters/deepseek-paperclip-adapter","isLocalPath":true}' http://localhost:3100/api/adapters/install`. לעדכון hot — `POST /api/adapters/deepseek_local/reload`.
|
||||
- **⚠ Cross-company sync**: `sync_agents_across_companies.py` **מדלג** על סוכנים עם `adapter_type` שונה בין CMP ל-CMPA. כשעוברים סוכן ל-`deepseek_local` חובה להחיל ידנית בשתי החברות לפני sync.
|
||||
- **תוספת adapters עתידיים** (OpenAI ישיר, Anthropic ישיר, וכו'): אותו דפוס. ה-package הראשי חייב לייצא `createServerAdapter()` שמחזיר `{ type, label, models, agentConfigurationDoc, execute, testEnvironment, sessionCodec, listSkills, syncSkills, ... }`. ראה את [adapters/deepseek-paperclip-adapter/dist/index.js](adapters/deepseek-paperclip-adapter/dist/index.js) כתבנית.
|
||||
|
||||
### External adapters — Hermes Curator (`curator-cmp` / `curator-cmpa`)
|
||||
- פרופילי Hermes נפרדים לסוכן `hermes-curator` — מנתח החלטות סופיות ומציע עדכוני SKILL.md/lessons.md
|
||||
- מיקום: `~/.hermes/profiles/curator-cmp/` + `~/.hermes/profiles/curator-cmpa/`
|
||||
- מופעל אחרי export סופי; אינו מעדכן קבצים ישירות
|
||||
- **תהליך אישור הצעות:** הצעות ה-curator מגיעות כ-comment ב-Paperclip → חיים בוחן ומאשר ידנית → commits ל-`SKILL.md` ו-`docs/legal-decision-lessons.md`
|
||||
|
||||
---
|
||||
|
||||
## עקרונות כתיבה קריטיים
|
||||
## עקרונות כתיבה קריטיים (G11)
|
||||
|
||||
1. **"מבחן השופט"** — כל החלטה חייבת להיות קריאה לשופט שלא מכיר את התיק
|
||||
2. **"רקע ניטרלי"** — בלוק ו = עובדות בלבד. אין ציטוטים מצדדים, אין מילות שיפוט
|
||||
@@ -330,14 +159,7 @@ CEO שמתעורר מ-`weekly-feedback-job` כותב לקובץ בלבד — **
|
||||
5. **ארכיטקטורת 12 בלוקים** — ראה `docs/block-schema.md`
|
||||
6. **צ'קליסט תוכן** — בלוק י מקבל צ'קליסט תוכן אוטומטי לפי סוג הערר (ראה `lessons.py: CONTENT_CHECKLISTS`)
|
||||
|
||||
## הערות יו"ר (Chair Feedback)
|
||||
|
||||
מנגנון לתיעוד הערות דפנה על טיוטות:
|
||||
- **DB**: טבלת `chair_feedback` (case_id, block_id, feedback_text, category, lesson_extracted)
|
||||
- **API**: `GET/POST /api/feedback`, `PATCH /api/feedback/{id}/resolve`
|
||||
- **MCP tools**: `record_chair_feedback`, `list_chair_feedback`
|
||||
- **UI**: דף ניהול ב-`/feedback` (ב-Next.js)
|
||||
- **קטגוריות**: missing_content, wrong_tone, wrong_structure, factual_error, style, other
|
||||
> **הערות יו"ר (Chair Feedback):** מנגנון תיעוד הערות דפנה — טבלת `chair_feedback`, API `/api/feedback`, MCP `record_chair_feedback`/`list_chair_feedback`, UI `/feedback`. פירוט: [`docs/operations-runbook.md`](docs/operations-runbook.md).
|
||||
|
||||
## יו"ר: עו"ד דפנה תמיר
|
||||
- מדריך סגנון מלא: `skills/decision/SKILL.md`
|
||||
מדריך סגנון מלא: [`skills/decision/SKILL.md`](skills/decision/SKILL.md).
|
||||
|
||||
@@ -74,6 +74,9 @@ COPY skills/decision/SKILL.md ./skills/decision/SKILL.md
|
||||
COPY docs/legal-decision-lessons.md ./docs/legal-decision-lessons.md
|
||||
COPY docs/corpus-analysis.md ./docs/corpus-analysis.md
|
||||
|
||||
# Scripts catalog surfaced read-only at /scripts (GET /api/scripts/catalog).
|
||||
COPY scripts/SCRIPTS.md ./scripts/SCRIPTS.md
|
||||
|
||||
# Make mcp-server source available to web/app.py (it does sys.path.insert for legal_mcp)
|
||||
ENV PYTHONPATH=/app/mcp-server/src
|
||||
|
||||
|
||||
@@ -60,7 +60,8 @@ with \`HERMES_HOME\` pointed at a DeepSeek profile (\`config.yaml\` declares
|
||||
| verbose | boolean | false | Enable verbose Hermes logs. |
|
||||
| extraArgs | string[] | [] | Extra CLI args appended after standard flags. |
|
||||
| env | object | {} | Extra environment variables passed to Hermes. \`HERMES_HOME\` here overrides \`hermesProfileHome\`. |
|
||||
| promptTemplate | string | (default) | Override the default Paperclip wakeup prompt. |
|
||||
| instructionsFilePath | string | (none) | Absolute path to a versioned prompt file (e.g. under \`.claude/agents/\`). When set, its contents become the prompt template — single source of truth, parity with \`claude_local\`/\`gemini_local\`. Takes precedence over \`promptTemplate\`. If set but unreadable, execution fails loudly (no silent fallback). The file still flows through the template renderer, so \`{{…}}\` placeholders work. |
|
||||
| promptTemplate | string | (default) | Inline prompt override. Used only when \`instructionsFilePath\` is unset. |
|
||||
| paperclipApiUrl | string | \`http://127.0.0.1:3100/api\` | Paperclip API URL injected into the prompt template. |
|
||||
|
||||
## Available template variables
|
||||
|
||||
@@ -9,6 +9,7 @@
|
||||
* and toolsets from <HERMES_HOME>/config.yaml + <HERMES_HOME>/.env.
|
||||
*/
|
||||
|
||||
import { readFileSync } from "node:fs";
|
||||
import {
|
||||
runChildProcess,
|
||||
buildPaperclipEnv,
|
||||
@@ -84,8 +85,37 @@ Address the comment, POST a reply if needed, then continue working.
|
||||
3. If nothing to do, report briefly what you checked.
|
||||
{{/noTask}}`;
|
||||
|
||||
/**
|
||||
* Resolve the prompt template, preferring a versioned file over an inline DB
|
||||
* string. Precedence: instructionsFilePath > promptTemplate > DEFAULT.
|
||||
*
|
||||
* This brings deepseek_local into line with claude_local / gemini_local, whose
|
||||
* system prompts live as files under .claude/agents/. Keeping the prompt in one
|
||||
* git-versioned place (not split between a file and an inline DB column) is the
|
||||
* single-source-of-truth the other adapters already enforce.
|
||||
*
|
||||
* Fail loud: if instructionsFilePath is set but unreadable we throw rather than
|
||||
* silently falling back — a wrong/missing prompt file must surface as an error,
|
||||
* not run the agent on a stale inline copy. The loaded file still flows through
|
||||
* renderTemplate(), so {{wakeReason}}/{{#taskId}}/… placeholders keep working.
|
||||
*/
|
||||
export function resolveTemplate(config) {
|
||||
const filePath = cfgString(config.instructionsFilePath);
|
||||
if (filePath) {
|
||||
try {
|
||||
return readFileSync(filePath, "utf8");
|
||||
} catch (err) {
|
||||
throw new Error(
|
||||
`deepseek_local: instructionsFilePath is set ("${filePath}") but could not be read: ${err.message}. ` +
|
||||
`Refusing to fall back to promptTemplate/default — fix the path or unset instructionsFilePath.`,
|
||||
);
|
||||
}
|
||||
}
|
||||
return cfgString(config.promptTemplate) || DEFAULT_PROMPT_TEMPLATE;
|
||||
}
|
||||
|
||||
function buildPrompt(ctx, config) {
|
||||
const template = cfgString(config.promptTemplate) || DEFAULT_PROMPT_TEMPLATE;
|
||||
const template = resolveTemplate(config);
|
||||
const taskId = cfgString(ctx.context?.taskId);
|
||||
const taskTitle = cfgString(ctx.context?.taskTitle) || "";
|
||||
const taskBody = cfgString(ctx.context?.taskBody) || "";
|
||||
|
||||
@@ -0,0 +1,3 @@
|
||||
canonical_id,instance_count,status,drift_cosine,reason,before,after
|
||||
b4c36a38-0772-497c-981e-2c28f9cb1059,3,accepted,0.8963,הוסר המשפט על תכניות ישנות הנעדרות פירוט — אינו מעוגן באף אחד מהציטוטים-התומכים; שני המשפטים הנותרים משותפים לשלושת המופעים.,"היתר בנייה חייב לעלות בקנה אחד עם הוראות התכניות שבתוקף ולהינתן מכוח תכנית הכוללת רמת פירוט נאותה; רמת הפירוט הנדרשת נגזרת מאופי ההיתר המבוקש, מהבנייה המתוכננת ומהשלכותיה על סביבתה. תכניות ישנות הנעדרות פירוט מספק אינן יכולות לשמש בסיס להוצאת היתרי בנייה.","היתר בנייה חייב לעלות בקנה אחד עם הוראות התכניות שבתוקף ולהינתן מכוח תכנית הכוללת רמת פירוט נאותה; רמת הפירוט הנדרשת נגזרת מאופי ההיתר המבוקש, מהבנייה המתוכננת ומהשלכותיה על סביבתה."
|
||||
1fb10fbb-cffa-4bb8-951b-51f59345f51a,2,accepted,0.9498,שני המופעים זהים בתוכנם והניסוח הקיים כבר מזקק במדויק את הציטוטים-התומכים — לשון תוחמת את מרחב הפרשנות ובתוכו נבחרת המשמעות המגשימה את התכלית; לא נדרש שינוי מהותי.,"לשון הנורמה היא המסד שעליו נבנה הפירוש התכליתי, והיא הקובעת את גבול התפרשותה של הנורמה; מבין מספר משמעויות לשוניות אפשריות יש לבחור באותה משמעות המגשימה באופן המלא ביותר את תכלית החקיקה.",לשון הנורמה היא המסד שעליו נבנה הפירוש התכליתי והיא הקובעת את גבול התפרשותה של הנורמה; מבין מספר משמעויות לשוניות אפשריות יש לבחור באותה משמעות המגשימה באופן המלא ביותר את תכלית החקיקה.
|
||||
|
21
data/audit/canonical-synthesis-dryrun-20260619T091034Z.csv
Normal file
21
data/audit/canonical-synthesis-dryrun-20260619T091034Z.csv
Normal file
@@ -0,0 +1,21 @@
|
||||
canonical_id,instance_count,status,drift_cosine,reason,before,after
|
||||
3374fddc-ff56-4083-9ef3-3e7d5f98c28a,1,accepted,0.916,"הניסוח הקיים כבר כללי, מעוגן בציטוט-התומך ('רחוקים מזמינות לבניה') ונקי ממילות-פתיחה ועובדות-תיק; בוצע תיקון-איות זניח בלבד (בנייה) ללא שינוי מהותי.","קיומן של 'תשתיות-על' בלבד במועד הקובע, בהיעדר פיתוח פנים-מתחמי של אזור התוכנית, מלמד כי המגרשים שיועדו בתוכנית לבניה טרם הגיעו לכלל זמינות לבניה.","קיומן של תשתיות-על בלבד במועד הקובע, בהיעדר פיתוח פנים-מתחמי של אזור התוכנית, מלמד כי המגרשים שיועדו בתוכנית לבנייה טרם הגיעו לכלל זמינות לבנייה."
|
||||
a7bb351e-4fef-4115-94b0-c270c1a00bc5,1,accepted,0.918,קוצר והודק לניסוח כללי יותר תוך שמירה על ההבחנה המעוגנת בין מבחן ההתאמה (שימוש חורג מהיתר) למבחן ההצדקה התכנונית (שימוש חורג מתוכנית); הוסר עודף ניסוח.,"כאשר מבוקש היתר לשימוש חורג מהיתר (להבדיל משימוש חורג מתוכנית), אין צורך להצדיק תכנונית את השימוש המבוקש, שכן התוכנית כבר מתירה אותו; המבחן הרלוונטי הוא מבחן ההתאמה — האם הבניין הקיים, שנבנה לשימוש שונה, מתאים לשימוש המבוקש — ולא מבחן ההצדקה התכנונית.","במבוקש היתר לשימוש חורג מהיתר, להבדיל משימוש חורג מתוכנית, המבחן הוא מבחן ההתאמה — האם המבנה הקיים מתאים לשימוש המבוקש — ולא מבחן ההצדקה התכנונית, שכן התוכנית כבר מתירה את השימוש."
|
||||
7cc3a473-45c2-40d4-9a94-25ae8d0926a4,1,accepted,0.913,"זוקק וקוצר הניסוח ('בטל החוזה כולו ולא רק בהוראתו הפסולה') תוך שמירה מלאה על העיגון בציטוט-התומך, בלא הוספת דין או סייג.","מקום שחלקו הבלתי-חוקי של חוזה שלוב ושזור בשאר חלקיו באופן שאינו ניתן להפרדה, אין להפריד בין חלקי החוזה והוא בטל כולו, ולא רק בהוראתו הפסולה.","מקום שחלקו הבלתי-חוקי של חוזה שלוב ושזור ביתר חלקיו באופן שאינו ניתן להפרדה, בטל החוזה כולו ולא רק בהוראתו הפסולה."
|
||||
72bd4205-0063-4ff1-ab60-14e17b1f5bfd,1,accepted,0.9198,"החלפתי 'אינן בגדר הקלה' ב'אינן טעונות הליך הקלה' (מדויק יותר ונסמך על הנימוק), הסרתי את 'ומועד אירוע המס' העודף שאינו בציטוט-התומך אלא בנימוק בלבד, וליטשתי את ניסוח חלוקת התשלום.","זכויות שהוטמעו בתכנית ואינן בגדר הקלה דינן כזכויות מעין-מוקנות, ולגביהן המועד הקובע ומועד אירוע המס לעניין היטל השבחה הוא מועד אישור התכנית ולא מועד אישור הזכויות בפועל; אולם מקום שבו המימוש נעשה בדרך של מכר, מתחלק תשלום ההשבחה — חלקו משולם במימוש בדרך המכר וחלקו בעת הוצאת היתר הבניה המממש את הזכויות המעין-מוקנות.","זכויות שהוטמעו בתכנית ואינן טעונות הליך הקלה דינן כזכויות מעין-מוקנות, ולגביהן המועד הקובע לעניין היטל השבחה הוא מועד אישור התכנית ולא מועד אישור הזכויות בפועל; ואולם מקום שבו המימוש נעשה בדרך של מכר, מתחלק תשלום ההשבחה — חלקו משולם בעת המימוש בדרך המכר וחלקו בעת הוצאת היתר הבניה המממש את הזכויות המעין-מוקנות."
|
||||
d85d0c15-a699-4041-90cd-133220aa8060,1,accepted,0.9274,"זוקק לניסוח אחד רציף ותמציתי תוך שמירה על שלושת רכיבי העיקרון המעוגנים בציטוט — מקור תכנוני, קשר סיבתי ישיר, ושלילת חיוב על השבחה לא-תכנונית.",היטל השבחה מוטל אך ורק על עליית שווי מקרקעין הנובעת מפעולה תכנונית של הרשות; תנאי הכרחי לחיוב בהיטל הוא קיומו של קשר סיבתי ישיר בין הפעילות התכנונית המשביחה לבין עליית שווי המקרקעין שלפיה מחושבת ההשבחה. עליית שווי הנובעת מטעמים שאינם תכנוניים אינה בת-חיוב בהיטל.,"היטל השבחה מוטל אך ורק על עליית שווי מקרקעין הנובעת מפעולה תכנונית, ותנאי לחיוב בו הוא קשר סיבתי ישיר בין הפעולה התכנונית המשביחה לבין עליית השווי שלפיה מחושבת ההשבחה; עליית שווי הנובעת מטעם שאינו תכנוני אינה בת-חיוב בהיטל."
|
||||
85c85ee3-6c2f-4493-81f5-677398f29c4c,1,accepted,0.8128,"הוסרו שם השכונה (רחביה) והעיר (ירושלים) כעובדות-תיק ספציפיות, והעיקרון נוסח כרב-תחולה; 'המועדפת' הוחלפה ב'הפשוטה' בהתאם לציטוט-המקור, ונשמרו יסוד היעילות, נטל ההנמקה לסטייה, וחריג המקרים הנדירים.","גישת ההשוואה היא השיטה המועדפת והיעילה ביותר לקביעת היטל השבחה, ועל השמאי לנמק מדוע בחר לסטות ממנה לטובת גישות אחרות, במיוחד באזורי ביקוש פעילים כשכונת רחביה בירושלים בהם נחתמות עסקאות מכר באופן שוטף ולא מתקיימים אותם מקרים נדירים המצדיקים שימוש בגישות שמאיות חלופיות.","גישת ההשוואה היא השיטה הפשוטה והיעילה ביותר לקביעת חיובי היטל השבחה, ושימוש בגישות שמאיות חלופיות שמור למקרים נדירים בלבד; משכך, ובמיוחד באזורי ביקוש שבהם נחתמות עסקאות מכר באופן שוטף, על השמאי לנמק מדוע בחר לסטות ממנה."
|
||||
5f4e986b-7554-45e2-89fa-9e0f856169c3,1,abstained,,no change proposed,"כדי שהפרה לכאורית של תכנית תגבור על שיהוי חריף, נדרש שאימוץ פרשנות הרשות לתכנית יפגע פגיעה חמורה ומשמעותית בשלטון החוק. כל עוד הפרשנות שהעניקה הרשות לתכנית היא פרשנות אפשרית — גם אם בסופו של הליך תידחה — לא די בה כדי להצדיק התערבות חרף השיהוי.","כדי שהפרה לכאורית של תכנית תגבור על שיהוי חריף, נדרש שאימוץ פרשנות הרשות לתכנית יפגע פגיעה חמורה ומשמעותית בשלטון החוק. כל עוד הפרשנות שהעניקה הרשות לתכנית היא פרשנות אפשרית — גם אם בסופו של הליך תידחה — לא די בה כדי להצדיק התערבות חרף השיהוי."
|
||||
df6a17ea-33c5-4935-adb0-1ba1688e57e5,1,accepted,0.8846,"מיקדתי את העיקרון בליבת המקור (פירוט נאות כתנאי להיתר, והפגיעה בשקיפות ובשיתוף הציבור), והסרתי את התוספות שאינן עולות מהציטוט-התומך — 'פועל יוצא של התכנון המקומי' וההפניה לסעיף 145(ב).","היתר בנייה הוא פועל יוצא של התכנון המקומי וחייב לעלות בקנה אחד עם הוראות התכניות שבתוקף ולהינתן מכוח תכנית הכוללת רמת פירוט נאותה (סעיף 145(ב) לחוק); מתן היתר לפי תכנית הנעדרת פירוט מספיק חוטא לתכליות ההליכים הסטטוטוריים, ובהן שקיפות הליכי התכנון ושיתוף הציבור.","היתר בנייה חייב להישען על תכנית הכוללת רמת פירוט נאותה; מתן היתר מכוח תכנית הנעדרת פירוט מספיק חוטא לתכליות ההליכים הסטטוטוריים המהווים תנאי לאישור התכנית, ובהן שקיפות הליכי התכנון ושיתוף הציבור בהם."
|
||||
d4b70600-3a7a-4216-a2a7-9cbad81c7b7a,1,accepted,0.897,"זוקק הניסוח לרגיסטר נקי ותמציתי תוך שמירה על כל יסודות העיקרון (קריאה משולבת של סעיפים 1 ו-259, חוכר לדורות כבעלים, עסקה טרם רישום, מקרקעי רמ""י, תחולה כללית) המעוגנים בציטוט ובנימוק; לא נוספו דין, סייג או הפניות חדשות.","את הגדרת ""בעל"" שבסעיף 1 לחוק התכנון והבניה ואת סעיף 259 יש לקרוא יחדיו, כך שהחוק רואה גם חוכר לדורות כבעלים — ובכלל זה מי שהעסקה בעניינו טרם הושלמה ברישום, ובלבד שמדובר בעסקה במקרקעין המנוהלים לפי חוק רשות מקרקעי ישראל. הגדרה זו אינה מוגבלת לעניין היטל השבחה אלא חלה באופן כללי.","הגדרת ""בעל"" שבסעיף 1 לחוק התכנון והבניה נקראת יחד עם סעיף 259, כך שגם חוכר לדורות נחשב בעלים — לרבות מי שעסקתו במקרקעין טרם הושלמה ברישום, ובלבד שמדובר במקרקעין המנוהלים לפי חוק רשות מקרקעי ישראל; קריאה משולבת זו חלה באופן כללי ואינה מוגבלת לעניין היטל ההשבחה."
|
||||
bde10435-1572-4558-8074-5c8d9b8ade8a,1,accepted,0.89,"הוסר רכיב 'מקרי הביניים שבהם הכף מעוינת תהא הנטייה שלא לפטור', שהוא כלל-הכרעה ספציפי שאינו עולה מהציטוט התומך ומהנימוק; נשמר הגרעין המעוגן — חזקת היחידה הכלכלית, הטלת נטל הסתירה על הנישום, ורף הוכחתי ברור הנגזר מתכלית מניעת תכנוני מס.","קיימת חזקה כי בני זוג מהווים יחידה כלכלית אחת שיש למסותה ככזו, וההפרדה הרכושית היא החריג ולא הכלל; הנטל לסתור חזקה זו מוטל על הנישומים, והיא תיסתר רק בהצגת ראיות ברורות להפרדה רכושית ממשית ועקבית בפועל. במקרי ביניים שבהם הכף מעוינת תהא הנטייה שלא לפטור ממס, מתוך תכלית מניעת תכנוני מס המצדיקה רף הוכחתי ברור.","חזקה היא כי בני זוג מהווים יחידה כלכלית אחת שיש למסותה ככזו, והנטל לסתור חזקה זו מוטל על הנישומים; לנוכח תכלית מניעת תכנוני מס תיסתר החזקה רק בהוכחה ברורה של הפרדה רכושית ממשית ועקבית בפועל."
|
||||
c41e4b84-d7e5-4e30-9b50-6d9e98cadbe2,1,drift_rejected,0.7808,drift 0.781 < floor 0.8,שתיקת התכנית החלה על המקרקעין ביחס להקמת בריכת שחיה אין בה כדי להצביע על כך שמדובר בשימוש אסור בייעוד למגורים; היעדר הוראה מפורשת בתכנית אינו שקול לאיסור.,"שתיקת התכנית ביחס לשימוש מסוים אין בה כדי להצביע על כך שמדובר בשימוש אסור, מקום שהשימוש נלווה לייעוד החל על המקרקעין; היעדר הוראה מפורשת המתירה את השימוש אינו שקול לאיסורו."
|
||||
6e9993f4-60bb-4e6d-bbbe-4eeae7c0d919,1,accepted,0.8422,"זוקק לעיקרון רב-תחולה: הוכלל מבנה ניסוח-השימוש (סיווג-על + פירוט בסוגריים) במקום הדוגמה הקונקרטית, תוך שמירה על הגרעין המעוגן בציטוט — גמישות פרשנית מול פרשנות דווקנית.","כאשר תכנית מגדירה את השימוש המותר במקרקעין כ""בניין ציבורי (בית ספר)"" — להבדיל מהגדרה של ""בית ספר בלבד"" — יש לפרש את ההגדרה בפרשנות תכליתית המאפשרת גמישות, כך שמותרים שימושים נוספים מאותה משפחת שימושים (""מבני חינוך""), ולא רק בית ספר במובן הדווקני.","כאשר תכנית מגדירה שימוש מותר בנוסח של סיווג-על המלווה בפירוט בסוגריים — כגון ""בניין ציבורי (בית ספר)"" — להבדיל מהגדרה בלעדית ודווקנית, יש לפרשו בפרשנות תכליתית מרחיבה המתירה את כלל משפחת השימושים שאליה משתייך הפירוט, ולא את הפריט הנקוב בלבד."
|
||||
18c5037f-5b9a-4c19-ac8b-69fc555fbe03,1,accepted,0.8879,"חודדה ההבחנה כך שתשקף את הזיקה שבמקור בין הטלת ההיטל על חברה יזמית להתאמת הגישה הכלכלית, בלי להוסיף דין חדש.","בבחירת גישת השומה ההולמת לקביעת היטל השבחה בפרויקט פינוי-בינוי, זהות החייב בהיטל מהווה שיקול רלוונטי, ויש להבחין בין הטלת ההיטל על חברה יזמית לבין הטלתו על בעלי דירות פרטיים.","זהות החייב בהיטל השבחה בפרויקט פינוי-בינוי מהווה שיקול רלוונטי בבחירת גישת השומה ההולמת, ויש להבחין בין חברה יזמית — שלגביה עשויה הגישה הכלכלית להלום את קביעת גובה ההיטל — לבין בעלי דירות פרטיים."
|
||||
94d504c5-7263-429e-8a9a-9413ee859224,1,accepted,0.8816,זוקק לניסוח קצר ומדויק יותר הנשען ישירות על לשון התקנה ועל הנימוק (בחינה מהותית = הפעלת סמכות כדין); הוסר ביטוי 'חותמת גומי' שאינו עולה מהציטוט-התומך.,"מוסד תכנון המקיים דיון חוזר רשאי להותיר את החלטת ועדת המשנה על כנה, ובלבד שבחן את ההחלטה ושקל אם יש מקום לשנותה; אימוץ החלטת ועדת המשנה לאחר בחינה כאמור הוא החלטה לגיטימית בהתאם לדין, ואין בו כשלעצמו משום פגם של 'חותמת גומי'.","מוסד תכנון המקיים דיון חוזר רשאי להותיר את החלטת ועדת המשנה על כנה, ובלבד שבחן אותה ושקל אם יש מקום לשנותה; השארת ההחלטה על כנה לאחר בחינה מהותית כאמור היא הפעלת סמכות כדין ואינה פגם פרוצדורלי."
|
||||
4bc63c4a-6a92-4a36-84c2-120aaf144579,1,accepted,0.899,"הידוק לשוני בלבד — איחוד 'הנעשה במקרקעין' ל'במקרקעין', 'הייעוד התכנוני שלהם' ל'ייעודם התכנוני', ו'ביטויי השימוש המותרים בה' ל'השימושים המותרים בו'; ללא תוספת דין מעבר למקורות.",לצורך סיווג תכנוני יש להבחין בין השימוש בפועל הנעשה במקרקעין לבין הייעוד התכנוני שלהם; מקור הזכות החוזי ומטרות ההקצאה של הקרקע עשויים ללמד על אופיו של הייעוד ועל פרשנות ביטויי השימוש המותרים בה.,לצורך סיווג תכנוני יש להבחין בין השימוש בפועל במקרקעין לבין ייעודם התכנוני; מקור הזכות החוזי ומטרות הקצאת הקרקע עשויים ללמד על אופי הייעוד ועל פרשנות השימושים המותרים בו.
|
||||
f6fb8145-9c3f-4a54-8487-b0ad6ba5f991,1,accepted,0.9063,"ליטוש רגיסטר וקיצור בלבד ('אינו ממסה' במקום 'אינו נועד למסות', 'עליית שווי' במקום 'העלייה בשווי'); כל יסודות העיקרון נשמרו ומעוגנים בציטוט-התומך.","היטל ההשבחה אינו נועד למסות עליית-ערך כללית או 'שבח-סתם' של מקרקעין, אלא אך ורק את העלייה בשווי המקרקעין שנגרמה בעקבות פעולות תכנון של הוועדה המקומית, וזאת כדי לממן את ההוצאות שהוועדה נטלה על עצמה לצורך הכנת תכניות הבינוי וביצוען.","היטל ההשבחה אינו ממסה עליית-ערך כללית או 'שבח-סתם' של מקרקעין, אלא אך ורק את עליית שווי המקרקעין שנגרמה בעקבות פעולות תכנון של הוועדה המקומית, וזאת כדי לממן את ההוצאות שנטלה על עצמה הוועדה לצורך הכנת תכניות הבינוי וביצוען."
|
||||
afe4dd53-e1d1-4e74-b994-15f0daf4ce88,1,accepted,0.8743,"חודד הרישא של בחינת הלשון והתכלית כמכלול בכך שנוסף 'ולא במנותק', הנובע ישירות מהנימוק והציטוט-התומך; לא נוסף דין או מקור חדש.","תכנית בניין עיר היא בגדר חיקוק, ועל פרשנותה חלים הכללים הרגילים של פרשנות חקיקה; משכך יש לבחון את לשון התכנית ותכליתה כמכלול אחד.","תכנית בניין עיר היא בגדר חיקוק, ועל פרשנותה חלים הכללים הרגילים של פרשנות חקיקה; לפיכך יש לבחון את לשון התכנית ואת תכליתה כמכלול אחד, ולא במנותק זו מזו."
|
||||
7928bb10-b142-46d7-aaed-9e8d9a183772,1,accepted,0.9144,"חודד שהפיצול נובע מאי-הוודאות אם תוגש הבקשה (ולא מעצם ודאות האישור), כעולה במפורש מהציטוט-התומך; שאר הניסוח נשמר.","ההבחנה בין זכויות מעין מוקנות לזכויות צפות נבחנת לפי מבחן הוודאות במועד אישור התכנית: בזכויות מעין מוקנות קיימת ודאות במועד האישור כי בקשה לניצול הזכויות תאושר, ולפיכך התשלום מפוצל בין מועד המכר למועד היתר הבניה; בזכויות צפות, לעומת זאת, לא קיימת ודאות במועד הקובע באשר לאישור הזכויות, היקפן ואופן ניצולן.","ההבחנה בין זכויות מעין מוקנות לזכויות צפות נבחנת לפי מבחן הוודאות במועד אישור התכנית: בזכויות מעין מוקנות קיימת ודאות במועד האישור כי ככל שתוגש בקשה לניצול הזכויות היא תאושר, ומשום שאין ודאות אם תוגש בקשה כאמור מפוצל התשלום בין מועד המכר למועד היתר הבניה; בזכויות צפות, לעומת זאת, אין במועד הקובע ודאות באשר לעצם אישור הזכויות, היקפן ואופן ניצולן."
|
||||
28b8fb4b-a044-4f36-9635-94d3156c3403,1,accepted,0.8924,"הובלט שההכרעה היא לפי שיקולים תכנוניים בלבד (כעולה מהנימוק והמקור), והוחלף 'בעל זכות' ב'בעל זכות במקרקעין' ו'סעד קנייני' ב'סעד במישור הקנייני' בהתאם ללשון הציטוט-התומך.","ההליך התכנוני, על כל שלביו, עוסק בסוגיות תכנוניות בלבד, גם כאשר מתעוררות בו אגב אורחא שאלות קנייניות; הוא אינו משנה את מצבת הזכויות הקנייניות, אינו מכריע במחלוקות קנייניות, ואינו חוסם בעל זכות מלפנות לערכאה המוסמכת לשם קבלת סעד קנייני.","ההליך התכנוני, על כל שלביו, מוכרע על-פי שיקולים תכנוניים בלבד, גם כאשר מתעוררות בו אגב אורחא שאלות קנייניות; אין בו כדי לשנות את מצבת הזכויות הקנייניות, להכריע במחלוקת קניינית, או למנוע מבעל זכות במקרקעין לפנות לערכאה המוסמכת לשם קבלת סעד במישור הקנייני."
|
||||
08aee54b-9d92-47d2-b57b-0735dd34c0c4,1,accepted,0.8993,"צומצמה ההכפלה בין 'מהותי ולא מוסדי' לבין הנימוק, וחודד הרצף הלוגי מהמבחן אל התוצאה — בלי להוסיף דין שאינו במקור.","בקשת רשות ערעור לבית המשפט העליון על פסק דין של בית משפט מחוזי שניתן בערעור על החלטת רשם של אותו בית משפט, דינה כבקשה ב'גלגול שלישי' המחייבת רשות ערעור. לצורך סיווג זה המבחן הוא מהותי ולא מוסדי: אף שהרשם ושופט בית המשפט המחוזי משתייכים לאותה ערכאה במישור המוסדי, משעה ששני שופטים דנו בעניין זה בערעור על זה התקיימה מהותית ערכאת ערעור, ולפיכך לא די בהצבעה על אפשרות טעות עובדתית או משפטית אלא נדרשת שאלה נורמטיבית רחבה.","בקשת רשות ערעור על פסק דין של בית משפט מחוזי שניתן בערעור על החלטת רשם של אותו בית משפט נחשבת לבקשה ב'גלגול שלישי', שכן הסיווג נקבע לפי מבחן מהותי ולא מוסדי: משדנו שני שופטים בעניין זה בערעור על זה, התקיימה ערכאת ערעור במובן המהותי, אף שמוסדית שתי הדרגות שוכנות באותה ערכאה. לפיכך מתן הרשות מותנה בשאלה נורמטיבית רחבה, ולא די בהצבעה על אפשרות של טעות עובדתית או משפטית."
|
||||
|
101
data/audit/canonical-synthesis-dryrun-20260619T092826Z.csv
Normal file
101
data/audit/canonical-synthesis-dryrun-20260619T092826Z.csv
Normal file
@@ -0,0 +1,101 @@
|
||||
canonical_id,instance_count,status,drift_cosine,reason,before,after
|
||||
660bb5ae-1209-4215-812e-efbfc37f373c,1,accepted,0.8685,"צומצם לשני הפנים המעוגנים בציטוט-התומך; הוסר הפן השלישי בדבר פגיעה בשלטון החוק והאיזון התלת-שלבי, שאינו עולה ממקור-העיגון אלא מן הנימוק בלבד.","טענת שיהוי בהליך מינהלי נבחנת בשני פנים: הפן האובייקטיבי — חלוף הזמן עד הגשת ההליך והפגיעה באינטרסים ראויים של הרשות או של צדדים שלישיים ושינוי מצבם לרעה; והפן הסובייקטיבי — התנהלות העותר והשאלה אם יש בה כדי ללמד על ויתור על זכויותיו. בנוסף יש לבחון אם קבלת טענת השיהוי תותיר על כנה החלטה או מעשה מינהלי הפוגעים פגיעה חמורה בשלטון החוק או באינטרס ציבורי חשוב, ועל בית המשפט לאזן בין שלושת ההיבטים הללו לפי משקלם היחסי בנסיבות העניין.",טענת שיהוי בהליך מינהלי נבחנת בשני פנים: הפן האובייקטיבי — חלוף הזמן עד הגשת ההליך והפגיעה באינטרסים ראויים של הרשות או של צדדים שלישיים ושינוי מצבם לרעה בשל חלוף הזמן; והפן הסובייקטיבי — התנהלות העותר והשאלה אם יש בה כדי ללמד על ויתור על זכויותיו.
|
||||
5bede666-24ac-487c-87a7-5c253e04966c,1,abstained,,no change proposed,"תכליתם של פיצויי ההפקעה היא להעניק לבעל הזכויות בקרקע את השווי הכספי של הזכות או טובת ההנאה שהופקעו מידיו, ולהעמידו באותו מצב כספי שבו היה עומד אלמלא ההפקעה.","תכליתם של פיצויי ההפקעה היא להעניק לבעל הזכויות בקרקע את השווי הכספי של הזכות או טובת ההנאה שהופקעו מידיו, ולהעמידו באותו מצב כספי שבו היה עומד אלמלא ההפקעה."
|
||||
f3200101-162b-4f1f-af39-73a3088280a6,1,accepted,0.8503,"תומצת ונוקה הרגיסטר, נוסף שם-העיקרון 'הסדר שלילי' העולה מן הנימוק; לא נוסף דין מעבר למקור.","בפרשנות הוראת תכנית בדבר חישוב אחוזי הבניה, כאשר התכנית מפרטת במפורש כי שטחים מסוימים יובאו בחשבון חישוב אחוזי הבניה ושותקת ביחס לשטח אחר שייעודו מוגדר כשטח שאין לבנות בו, השתיקה — בצירוף ההסדר המפורש לגבי השטחים האחרים — מלמדת כי לשון התכנית אינה סובלת את הכללת אותו שטח בחישוב.","מקום שהוראת תכנית מונה במפורש את השטחים הבאים במניין חישוב אחוזי הבנייה ושותקת ביחס לשטח שייעודו הוגדר כשטח שאין לבנות בו, ההסדר המפורש לגבי יתר השטחים, בצירוף שתיקה זו, מלמד שלשון התכנית אינה סובלת את הכללת אותו שטח בחישוב (הסדר שלילי)."
|
||||
4066d496-3088-425c-8b24-19df3cb4b8f4,1,accepted,0.9523,הניסוח הקנוני שופר בעיגון הסמכות בסעיף 14(ג) לתוספת — מקור-הסמכות שעליו נשען הנימוק — תוך שמירה על שני אגפי העיקרון; לא נוסף דין שאינו במקורות.,סמכות ועדת הערר למנות שמאי מייעץ מטעמה קמה רק מקום שהערר הוגש לפי סעיף 14(א) לתוספת בלבד; בערר המוגש לפי סעיף 14(ב)(4) על הכרעת שמאי מכריע אין הוועדה רשאית למנות שמאי מייעץ.,"סמכות ועדת הערר למנות שמאי מייעץ מטעמה, מכוח סעיף 14(ג) לתוספת, קמה רק מקום שהערר הוגש לפי סעיף 14(א) לתוספת; בערר על הכרעת שמאי מכריע המוגש לפי סעיף 14(ב)(4) לתוספת אין הוועדה מוסמכת למנות שמאי מייעץ."
|
||||
a230f193-3048-48a1-8295-3369ac80f644,1,abstained,,no change proposed,"ביקורת בית המשפט לעניינים מנהליים על החלטות ועדת הערר במישור המקצועי תיעשה במשורה, מתוך ריסון והכרה במומחיותה של הוועדה.","ביקורת בית המשפט לעניינים מנהליים על החלטות ועדת הערר במישור המקצועי תיעשה במשורה, מתוך ריסון והכרה במומחיותה של הוועדה."
|
||||
74db9cb4-acd7-47af-b8b9-7940bc9f3b81,1,abstained,,no change proposed,"בהפעילם את הסמכות להאריך או להעניק פטור מהיטל השבחה בפינוי-בינוי, אין השרים רשאים לשקול שיקולים של כדאיות כלכלית.","בהפעילם את הסמכות להאריך או להעניק פטור מהיטל השבחה בפינוי-בינוי, אין השרים רשאים לשקול שיקולים של כדאיות כלכלית."
|
||||
7beb9330-1c8a-4f93-90d7-a71b5e3c48dc,1,accepted,0.9523,"הניסוח הודק והובהר ('יונחה לערוך', 'חלופות תכנוניות ממשיות') תוך שמירה מלאה על עיגון הציטוט; לא נוסף דין או סייג.","חובת מוסד התכנון ליתן משקל רב לשיקול הסביבתי, ובמיוחד בתכניות בעלות פוטנציאל לפגיעה משמעותית בסביבה, מחייבת אותו להנחות את עורך התסקיר לערוך תסקיר חלופות שבו ייבחנו חלופות תכנוניות אפשריות לתכנית המוצעת עצמה, ולא אך חלופות הנוגעות לאופן יישומה של אותה בחירה תכנונית.","חובת מוסד התכנון ליתן משקל רב לשיקול הסביבתי, ובמיוחד בתכניות בעלות פוטנציאל לפגיעה משמעותית בסביבה, מחייבת כי עורך התסקיר יונחה לערוך תסקיר חלופות הבוחן חלופות תכנוניות ממשיות לתכנית המוצעת עצמה, ולא אך חלופות הנוגעות לאופן יישומה של אותה בחירה תכנונית."
|
||||
8643bd58-a740-499c-b012-968de6cae7f2,1,accepted,0.9342,"צומצמה הכפילות (""בהכרח"") והניסוח חודד תוך שמירה מלאה על העיגון בציטוט-התומך; לא נוסף דין או סייג.","הקמת מרחבים מוגנים דירתיים (ממ""דים) בבניין רב-קומות נעשית בהכרח בצורת ""מגדל"" — זה על גבי זה — מטעמים קונסטרוקטיביים ומיגוניים, ולפיכך לא ניתן להקים ממ""ד בקומה גבוהה ללא בסיס קונסטרוקטיבי בקומה שמתחתיה. עיקרון טכני-תכנוני זה מהווה מושכלת יסוד שניתן להניחה בפרשנות הוראות בינוי.","הקמת מרחבים מוגנים דירתיים (ממ""דים) בבניין רב-קומות נעשית בצורת ""מגדל"", זה על גבי זה, מטעמים קונסטרוקטיביים ומיגוניים, ולפיכך לא ניתן להקים ממ""ד בקומה גבוהה ללא בסיס קונסטרוקטיבי לממ""ד בקומה שמתחתיה. נתון טכני-תכנוני זה מהווה מושכלת יסוד שניתן להניחה בפרשנות הוראות בינוי."
|
||||
a82d1f17-351c-4aac-a5da-9d24bd87760d,1,accepted,0.9477,"חודד הקשר בין ההרמוניה החקיקתית למקור הסמכות (החוק המסמיך) שעולה מהנימוק, ולוכדו 'כללי פרשנות מקובלים' במקום 'עקרונות פרשניים'; לא נוסף דין שאינו במקורות.",מונח שתכנית נוקטת בו מבלי להגדירו אינו מתפרש בחלל ריק אלא לפי עקרונות פרשניים מקובלים; עקרונות של הרמוניה חקיקתית מוליכים להעניק למונח כזה את המשמעות שניתנה לו בחוק התכנון והבנייה.,"מונח שתכנית נוקטת בו מבלי להגדירו אינו מתפרש בחלל ריק אלא לפי כללי פרשנות מקובלים, ושיקול ההרמוניה החקיקתית מוליך להעניק לו את המשמעות שניתנה לאותו מונח בחוק התכנון והבנייה כחוק המסמיך."
|
||||
dbcde5e1-78a9-4c47-a22a-1e4ef1a42664,1,accepted,0.9237,"חודד שהעיגון נשען על תיחום התחולה בקו הכחול (כעולה מהנימוק והציטוט) והניסוח הודק, בלי להוסיף דין או סייג שאינו במקורות.","תוכנית מתאר אינה קובעת הוראות נורמטיביות מחייבות ביחס לשטח המצוי מחוץ לתחומה (מחוץ לקו הכחול), גם כאשר נספח (כגון נספח תחבורתי) כולל איור או תרשים המדגים את אופן השתלבות התוכנית עם המרקם והמערך הקיים שמחוץ לגבולותיה; לאיור מסוג זה אופי מדגים-מנחה ואין בו כדי להחיל הסדר תכנוני מעבר לקו הכחול.","תחום תחולתה הנורמטיבית של תוכנית מתאר מתוחם בקו הכחול, ואין היא קובעת הוראות מחייבות ביחס לשטח שמחוצה לו; איור או תרשים בנספח (כגון נספח תחבורתי) המדגים את אופן השתלבות התוכנית עם המרקם והמערך הקיים מחוץ לגבולותיה הוא בעל אופי מדגים-מנחה בלבד ואין בו כדי להחיל הסדר תכנוני מעבר לקו הכחול."
|
||||
40fd0045-2c91-4b91-bf3d-94df86849917,1,accepted,0.9487,חודד שהמבחן מהותי ולא פורמלי (מעוגן בנימוק) והוסר עומס לשוני; התוכן זהה למקור.,"ניתן להוציא היתר בנייה על סמך תכנית מתאר מקומית, מבלי להידרש לתכנית מפורטת, רק מקום שהתכנית כוללת הוראות ברמת פירוט מספקת; כותרתה הפורמלית של התכנית (""מפורטת"") אינה מכרעת, ומידת הפירוט הנדרשת עשויה להימצא גם בתכנית מתאר מקומית. מקום שהתכנית קובעת עקרונות כלליים בלבד, אין היא יכולה לשמש בסיס למתן היתרים.","היתר בנייה ניתן להוצאה על סמך תכנית מתאר מקומית, בלא תכנית מפורטת, רק כאשר התכנית כוללת הוראות ברמת פירוט מספקת; המבחן הוא מהותי — מידת הפירוט המצויה בתכנית בפועל — ואינו תלוי בכותרתה הפורמלית, כך שהפירוט הנדרש עשוי להימצא גם בתכנית מתאר מקומית. תכנית הקובעת עקרונות כלליים בלבד אינה יכולה לשמש בסיס למתן היתרים."
|
||||
9bcc8c7b-2fc6-4b64-b00f-de721161afe9,1,accepted,0.9204,זוקק לניסוח כללי הנשען על אבחנת המקור בין שימוש ישיר במקרקעין לבין הפקת 'פירותיהם' בהשכרה; הוסרה הנמקת ה'פעילות המסחרית' שאינה הכרחית והודגשה אי-הרלוונטיות של ייעוד התמורה.,"פטור ממס/היטל למוסד ציבורי לפי סעיף הפטור הרלוונטי חל אך ורק כאשר המקרקעין עצמם משמשים או מיועדים לשמש במישרין את מטרות המוסד. השכרת המקרקעין לצד שלישי — גם אם דמי השכירות מועברים במלואם לצרכי המוסד — אינה מזכה בפטור, באשר מדובר בפעילות מסחרית ולא בשימוש ישיר במקרקעין למטרות המוסד.","פטור ממס/היטל למוסד ציבורי לפי סעיף הפטור הרלוונטי חל אך ורק מקום שבו המקרקעין עצמם משמשים או מיועדים לשמש במישרין את מטרות המוסד; שימוש עקיף בלבד — כגון הפקת פירות מן המקרקעין בדרך של השכרתם — אינו מזכה בפטור, ואין נפקא מינה שהתמורה מופנית כולה לקידום מטרות המוסד."
|
||||
4cee2a9f-6510-4bea-a928-713f5ed39b39,1,drift_rejected,0.7738,drift 0.774 < floor 0.8,"היטל ההשבחה הוא בן-זוגו הראוי של הפיצוי לפי סעיף 197 לחוק התכנון והבניה: כשם שבעל מקרקעין זכאי לפיצוי מקום שתכנית פגעה במקרקעיו, כך מוטל עליו לשאת בהיטל השבחה כאשר התכנית השביחה את מקרקעיו — מי שנתעשר אך בשל פעילות נורמטיבית-תכנונית של רשויות הציבור ראוי שישתף את הקהילה באותה התעשרות.",היטל ההשבחה מושתת על ההיגיון שמי שמקרקעיו הושבחו אך בשל פעילות נורמטיבית-תכנונית של רשויות הציבור ראוי שישתף את הקהילה בהתעשרות שצמחה לו ממנה.
|
||||
5cec0ebd-fa6d-4cf0-9443-45cd2d49981d,1,abstained,,no change proposed,תכנית שאינה מביאה בפועל לשינוי בהיקף הזכויות או להשבחת שווי הנכסים שבתחומה — לרבות מקום שזכויותיה זהות הלכה למעשה לאלה שכבר התאפשרו מכוח תכנית קודמת שעמדה בתוקף במצב הקודם — אינה תכנית משביחה ואין בה כדי להקים חבות בהיטל השבחה.,תכנית שאינה מביאה בפועל לשינוי בהיקף הזכויות או להשבחת שווי הנכסים שבתחומה — לרבות מקום שזכויותיה זהות הלכה למעשה לאלה שכבר התאפשרו מכוח תכנית קודמת שעמדה בתוקף במצב הקודם — אינה תכנית משביחה ואין בה כדי להקים חבות בהיטל השבחה.
|
||||
dbb7a22a-f571-4fd1-ac61-308ef5ac197e,1,drift_rejected,0.7623,drift 0.762 < floor 0.8,"בפרשנות תכנית בנייה חלים עקרונות פרשנות החוק, ולפיכך יש להתחקות אחר תכלית התכנית כדי לברר את משמעותה ולהכריע בין מרכיביה.","בפרשנות תכנית בנייה חלים עקרונות פרשנות החוק, ויש להתחקות אחר תכלית התכנית כדי לברר את משמעותה וליישב בין מרכיביה."
|
||||
d2311380-92b3-4c67-858d-b71988ca8e8a,1,accepted,0.9609,הוסרה התוספת 'על פי פרמטרים מקובלים ואמות מידה ברורות' שאינה מעוגנת בציטוט-המקור או בנימוק; שאר הניסוח נשען על הציטוט (אין באישור משום אישור תכנוני) ועל הנימוק (בחינה עצמאית של מיקום וחלופות).,"הכרזה על תכנית כפרויקט תשתית לאומית, וכן הזיקה למקרקעין העומדת בבסיס ההכרזה, אינן מהוות אישור תכנוני ואינן כובלות את שיקול דעתם של מוסדות התכנון; על מוסד התכנון לבחון באופן עצמאי את התאמת המיקום המוצע מבחינה תכנונית ואת קיומן של חלופות עדיפות, על פי פרמטרים מקובלים ואמות מידה ברורות.","הכרזה על תכנית כפרויקט תשתית לאומית, וכן הזיקה למקרקעין העומדת בבסיס ההכרזה, אינן מהוות אישור תכנוני ואינן כובלות את שיקול דעתם של מוסדות התכנון; על מוסד התכנון לבחון באופן עצמאי את התאמת המיקום המוצע מבחינה תכנונית ואת קיומן של חלופות עדיפות."
|
||||
fd9dba56-a9ad-424f-96db-ab6e733549a8,1,accepted,0.9037,"הניסוח הודק לעיקרון המעוגן בציטוט (חוקיות + הליך הוגן וראוי) ובנימוק (קניין + ודאות ויציבות), והוסרה התוספת בדבר 'כל מוכר וקונה יוכלו לדעת מראש' שהרחיבה מעבר למקור.","גביית היטל השבחה כפופה לעיקרון החוקיות ולחובת הרשות לקיים הליך גבייה הוגן וראוי; נוכח זכות הקניין של הנישום בכספו, יש לעצב את ההיטל באופן המבטיח ודאות ויציבות במדיניות המס, כך שכל מוכר וקונה יוכלו לדעת מראש את נטל המס החל עליהם.","עיקרון החוקיות חל גם על גביית היטל השבחה ומחייב את הרשות לקיים הליך גבייה הוגן וראוי; נוכח זכות הקניין של הנישום בכספו, יש לעצב את ההיטל באופן המבטיח ודאות ויציבות במדיניות המס."
|
||||
f9fce831-ff42-4d78-bd75-cd7efe86c113,1,accepted,0.8955,"הוסר הפירוט ""מתנגדים ואחרים"" שאינו עולה מהציטוט-התומך, והניסוח הודק לליבת העיקרון — שמירת הזכות לתבוע פיצוי ואי-חסימתה על הסף, ללא הכרעה בשאלת עצם הזכאות.","שינוי ייעוד מקרקעין הנעשה בדרך התכנונית של שינוי תכנית בניין עיר משמר את זכותם של מתנגדים ואחרים לבקש פיצויים בגין הפגיעה במקרקעין; זכות זו אינה נחסמת על הסף, וזאת מבלי לקבוע אם בנסיבות העניין אכן קמה זכות לפיצוי.","שינוי ייעודם של מקרקעין הנעשה בדרך התכנונית של שינוי תכנית בניין עיר משמר את הזכות לתבוע פיצויים בגין הפגיעה במקרקעין ואינו חוסם זכות זו על הסף, וזאת מבלי להכריע אם בנסיבות העניין אכן קמה זכות לפיצוי."
|
||||
634f781c-18b6-46d0-98b4-13da81259efe,1,accepted,0.9033,"חודד הקשר הסיבתי (""שכן"") ונוסף כי הפגם בפרסום פוגע תחילה בזכות ההתנגדות — מעוגן בנימוק שלפיו אי-מילוי דרכי הפרסום פוגע בזכות בעלי העניין להתנגד; לא נוסף דין חדש.","חובת הפרסום של תכנית וזכות ההתנגדות לה הן שני צדדים של אותו עיקרון, וקיומה התקין של חובת הפרסום הוא תנאי להבטחת הליך הגשת התנגדויות אפקטיבי; קיום פגום של דרכי הפרסום שנקבעו עלול לפגום בתוקפו של הליך התכנון.","חובת הפרסום של תכנית וזכות ההתנגדות לה הן שני צדדים של אותו עיקרון, שכן קיומה התקין של חובת הפרסום הוא תנאי להבטחת הליך התנגדויות אפקטיבי; קיום פגום של דרכי הפרסום שנקבעו עלול לפגוע בזכות ההתנגדות ולפגום בתוקפו של הליך התכנון."
|
||||
825663c8-d9fa-4070-9953-96c899872b8f,1,accepted,0.904,"שוּנה למבנה ההשוואתי 'ככל ש... כך' הנאמן לציטוט-המקור, וזוקק לניסוח קצר ורציף יותר ללא שינוי בתוכן המעוגן.","במסגרת דוקטרינת ה""רצף התכנוני"", קיומה של תכנית מאוחרת המשחררת את ההקפאה, וכן קוצר פרק הזמן שחלף ממועד אישור התכנית הראשונה (שנועדה להיות זמנית ולחול לתקופה מוגבלת) ועד אישור התכנית המאוחרת — מגדילים את הנטייה להכיר בזיקה הייחודית בין שתי התכניות ולראותן כרצף תכנוני אחד.","במסגרת דוקטרינת 'הרצף התכנוני', ככל שפרק הזמן שחלף בין אישור תכנית ראשונה — שנועדה להיות זמנית ולחול לתקופה מוגבלת — לבין אישור תכנית מאוחרת המשחררת את ההקפאה קצר יותר, כך גדלה הנטייה להכיר בזיקה הייחודית שביניהן ולראותן כרצף תכנוני אחד."
|
||||
171141d4-32c3-4f8f-a48a-1040eba1c904,1,accepted,0.879,מיקדתי את העיקרון בליבת המקור — שיקול דעת פרטני לאור הנסיבות מול משקל ראוי לשלטון החוק; הסרתי את 'הימנעות מקביעות מוחלטות' שאינה עולה מפורשות מהציטוט-התומך.,"בהקשר של עבריינות בניה על מוסד התכנון להימנע מקביעות מוחלטות, ולהפעיל את שיקול דעתו לאור הנסיבות הפרטיקולריות של המקרה, ובלבד שהשיקול של שמירה על שלטון החוק יזכה למשקל ראוי בהחלטה.","בהקשר של עבריינות בנייה נדרש ממוסד התכנון להפעיל שיקול דעת פרטני לאור הנסיבות הקונקרטיות של המקרה, ובלבד שהשיקול של שמירה על שלטון החוק יזכה למשקל ראוי בהחלטה."
|
||||
f34c51cf-f655-4df9-8611-14c4c2d54828,1,accepted,0.8535,פושט את פתיח 'סיווג זכויות שמקנה תכנית לצורך השאלה' לכדי ניסוח ישיר של עיתוי החיוב; שומר על העיגון המהותי (היקף שיקול הדעת ותחום ההתפרשות) ועל קריטריון טיב התכנית כלשון המקור.,"סיווג זכויות שמקנה תכנית לצורך השאלה אם יש להטיל היטל השבחה בשלב אישור התכנית או רק בשלב הוצאת היתר הבנייה אינו נחתך לפי טיב התכנית (תמ""א או אחרת), אלא נבחן באופן מהותי, ובתלות, בין היתר, בהיקף שיקול הדעת המוקנה במסגרתה ובתחום התפרשותה.","השאלה אם חיוב בהיטל השבחה מכוח תכנית קם בשלב אישור התכנית או רק בשלב הוצאת היתר הבנייה אינה נחתכת לפי טיב התכנית (תמ""א או אחרת), אלא נבחנת באופן מהותי, בהתאם, בין היתר, להיקף שיקול הדעת המוקנה במסגרתה ולתחום התפרשותה."
|
||||
d652b0f7-7101-41c2-977a-a5a65c3d79e1,1,accepted,0.9236,"אוחד למשפט אחד עם סדר לוגי (תנאי→נקודת-התחלה→תוצאה), הוסרה הכפילות בין שני המשפטים; כל הרכיבים מעוגנים בציטוט-התומך.","מקום שבקשה להיתר לא פורסמה לציבור, אין לזקוף לחובת בעל דין את האיחור בהגשת בקשה להארכת מועד בגין התקופה שקדמה למועד שבו נודע לו בפועל על הבקשה ועל הבינוי מכוחה; מירוץ האיחור מתחיל ממועד הידיעה בפועל.","מקום שבקשה להיתר לא פורסמה לציבור, מירוץ המועד להגשת בקשה להארכת מועד מתחיל ממועד שבו נודע לבעל הדין בפועל על הבקשה ועל הבינוי מכוחה, ואין לזקוף לחובתו את האיחור בגין התקופה שקדמה לכך."
|
||||
69e10a96-ae26-4bf2-822b-768bf032fa14,1,drift_rejected,0.7789,drift 0.779 < floor 0.8,"אישור לשימוש חורג ניתן כחריג ובצמצום, ולא כדבר שבשגרה — עיקרון מושרש בפסיקה החל על בקשות לשימוש חורג.","אישור לשימוש חורג ניתן כחריג ובצמצום, ולא כדבר שבשגרה."
|
||||
0eeebf3c-857b-48cc-ab8e-ec44caa510f4,1,accepted,0.9216,"הוספתי 'ראוי' ואת רכיב ההגנה 'על הציבור' המופיעים מפורשות בציטוט-המקור, לזיקוק נאמן יותר; שאר הניסוח נשמר.","התחשבות בעבירות בנייה שבוצעו בנכס במסגרת ההכרעה בבקשה להיתר אינה בגדר ענישה נוספת מעבר להליך הפלילי, אלא שיקול תכנוני לגיטימי ומתחייב שנועד לשלול את התמריצים לביצוע עבירות על דיני התכנון והבנייה ולהגן על שלטון החוק.","התחשבות בעבירות בנייה שבוצעו בנכס במסגרת ההכרעה בבקשה להיתר אינה בגדר ענישה נוספת מעבר להליך הפלילי, אלא שיקול תכנוני ראוי, לגיטימי ומתחייב שנועד לשלול את התמריצים לביצוע עבירות על דיני התכנון והבנייה ולהבטיח את ההגנה על שלטון החוק ועל הציבור."
|
||||
c3f67090-5981-4d3e-90f8-a4f44c933d58,1,accepted,0.97,זוקק וקוצר הניסוח ל־'עצמאית ומוסיפה' תוך שמירה על העיגון במקור; הוסר כפל-הלשון 'נוספת ועצמאית' ומבנה ה־'שכן'.,"דרישת חתימת כל בעלי הזכויות במגרש על הבקשה להקלה לפי תקנה 2(9)(א)(3) לתקנות סטייה ניכרת היא דרישה נוספת ועצמאית, מעבר לדרישת הסכמת כל בעלי הזכויות הקבועה בתקנות הרישוי לכל בקשה להיתר — שכן זו האחרונה חלה ממילא אף על בקשה שאינה כרוכה בסטייה מתכנית.","דרישת חתימת כל בעלי הזכויות במגרש על בקשה להקלה לפי תקנה 2(9)(א)(3) לתקנות סטייה ניכרת היא דרישה עצמאית ומוסיפה על דרישת הסכמת כל בעלי הזכויות הקבועה בתקנות הרישוי לכל בקשה להיתר, החלה ממילא אף על בקשה שאינה כרוכה בסטייה מתכנית."
|
||||
20b7aae6-ae8c-4e41-88c7-db28c81d5796,1,accepted,0.9433,"הניסוח הקיים כבר מעוגן במלואו בציטוט-התומך, כללי ובלתי-תלוי-תיק; לא נדרש שינוי מהותי מלבד תיקון-ניסוח זניח.","טענות המכוונות נגד עצם ההכרזה על מתחם כמתחם מועדף לדיור הן מוקדמות מטבען, ומקומן להתברר רק בשלבים התכנוניים הקונקרטיים שיבואו בהמשך ולא בשלב ההכרזה עצמה.","טענות המכוונות נגד עצם ההכרזה על מתחם כמתחם מועדף לדיור הן מוקדמות מטבען, ומקומן להתברר בשלבים התכנוניים הקונקרטיים שיבואו בהמשך ולא בשלב ההכרזה עצמה."
|
||||
8cf51166-4d7b-4d50-bc69-4d3ca6d92d13,1,abstained,,no change proposed,אין להתערב בשומתו של שמאי מייעץ אלא מקום שנפלו בה שגיאות ברורות; בהיעדר שגיאות כאלה השומה עומדת בעינה.,אין להתערב בשומתו של שמאי מייעץ אלא מקום שנפלו בה שגיאות ברורות; בהיעדר שגיאות כאלה השומה עומדת בעינה.
|
||||
917c4859-dbdd-4a0b-b76b-a9707f27834e,1,abstained,,no change proposed,לצורך בחינת השבחה כתוצאה מהקלה יש להשוות את שווי השוק האובייקטיבי של המקרקעין לאחר מתן ההקלה לעומת שווי השוק שלהם ערב מתן ההקלה; ההשבחה היא ההפרש בין שני ערכי שוק אלו.,לצורך בחינת השבחה כתוצאה מהקלה יש להשוות את שווי השוק האובייקטיבי של המקרקעין לאחר מתן ההקלה לעומת שווי השוק שלהם ערב מתן ההקלה; ההשבחה היא ההפרש בין שני ערכי שוק אלו.
|
||||
0a86b3c0-4781-40e6-8354-1ffc21acfb09,1,accepted,0.9019,"ליטוש ניסוחי קל בלבד (תחביר ותמצות) תוך שמירה מלאה על תוכן העיקרון המעוגן בציטוט-התומך; הוסרה הכפילות ""שינוי תכנוני צפוי"" מול ""שינוי בתכונות"".","מקום בו צפוי שינוי בתכונות ובשימושי המקרקעין שסיכויי התרחשותו קרובים וממשיים, ותכנית שהתקבלה היא שסתמה את הגולל על אותו שינוי צפוי — מתקיים קשר סיבתי בינה לבין הפגיעה, וניתן להגדירה כ""תכנית פוגעת"" המקימה עילה לפיצוי לפי סעיף 197 לחוק התכנון והבניה.","מקום בו צפוי שינוי בתכונות המקרקעין ובשימושיהם שסיכויי התרחשותו קרובים וממשיים, ותכנית שהתקבלה היא הסותמת את הגולל על אותו שינוי צפוי, מתקיים קשר סיבתי בינה לבין הפגיעה, וניתן להגדירה כ""תכנית פוגעת"" המקימה עילה לפיצוי לפי סעיף 197 לחוק התכנון והבניה."
|
||||
ae4e15d4-cc20-4c99-95be-06b89f3a3ebd,1,accepted,0.8701,"נוספה ההיגיון הפרשני המעוגן במקור ('פרשנות מצמצמת') והודגשה ההבחנה בין תמורה הונית ממכר לבין תמורה פירותית שוטפת, ללא הוספת דין שאינו במקורות.","הפטור מהיטל השבחה לפי החלופה השנייה בסעיף 19(ב)(4) לתוספת השלישית לחוק התכנון והבניה מוגבל למימוש זכויות בדרך של מכר בלבד, ואינו חל על תמורה פירותית כגון דמי שכירות.","הפטור מהיטל השבחה לפי החלופה השנייה שבסעיף 19(ב)(4) לתוספת השלישית לחוק התכנון והבניה מתפרש בצמצום וחל על מימוש זכויות בדרך של מכר בלבד, ואינו משתרע על תמורה פירותית שוטפת כגון דמי שכירות."
|
||||
04a3ced3-e5a2-40a1-8f50-b498c80693de,1,accepted,0.9157,"חודד שההסדר אינו 'ממצה את הפלוגתא' (מקור הנימוק) ושהבקשה החדשה הוגשה בתום התקופה, תוך שמירה על כלליות; הכל מעוגן בציטוט-התומך.",הסדר פשרה שנערך ביחס לבקשה קודמת והוגבל בזמן אינו מקים השתק פלוגתא ביחס להליכים עתידיים הנוגעים לבקשה חדשה; היעדר ההשתק עשוי להילמד אף מהתנהגות בעל הדין שפעל במתווה חדש חרף ההסדר.,"הסדר פשרה שנערך ביחס לבקשה קודמת והוגבל בזמן אינו ממצה את הפלוגתא ואינו מקים השתק פלוגתא ביחס להליכים עתידיים הנוגעים לבקשה חדשה; היעדר ההשתק עשוי להילמד אף מהתנהגות בעל הדין עצמו, שבתום התקופה הגיש בקשה חדשה חרף ההסדר."
|
||||
73ab5fe3-a5fe-4140-be81-943353cc959b,1,accepted,0.8944,הוקדם כלל-החובה (העמדת התשתית הסביבתית עובר להחלטה) לראש המשפט וההבחנה בין העיתויים נוסחה בתמצות; לא נוסף דין שאינו במקור.,"כאשר לתוכנית השלכות סביבתיות מהותיות, קיים שוני מהותי בין הגשת נספח/מסמך סביבתי הבוחן אף חלופות טרם אישור התוכנית וכאשר דנים בתוכנית עצמה, לבין קבלת הנספח הסביבתי רק לאחר אישור התוכנית; על מוסד התכנון להעמיד בפניו את התשתית הסביבתית, לרבות בחינת חלופות, עובר להחלטה על אישור התוכנית ולא בדיעבד.","כאשר לתוכנית השלכות סביבתיות מהותיות, על מוסד התכנון להעמיד בפניו את התשתית הסביבתית, לרבות בחינת חלופות, עובר להחלטה על אישור התוכנית ולא בדיעבד; קיים שוני מהותי בין מסמך סביבתי הבוחן חלופות המוגש טרם האישור ובעת הדיון בתוכנית עצמה, לבין נספח סביבתי המתקבל רק לאחר אישור התוכנית."
|
||||
37ca3f6c-17b3-4981-b916-2594e32535db,1,abstained,,no change proposed,"סוגיית חלף היטל השבחה אינה מתבררת במסגרת הערר על שומת היטל ההשבחה, אלא יש לבררה מול רשות מקרקעי ישראל בהליכים המתאימים לכך.","סוגיית חלף היטל השבחה אינה מתבררת במסגרת הערר על שומת היטל ההשבחה, אלא יש לבררה מול רשות מקרקעי ישראל בהליכים המתאימים לכך."
|
||||
148792a4-29a6-41c4-8f44-2aa1565b4972,1,accepted,0.8592,ניסוח הודק וקוצר תוך שמירה על שני יסודות המקור — תכלית-גבייה בלבד וחובת ההנפקה בהיעדר חוב; הוסר ה'כגון' הנגזר מעובדות-התיק.,"סמכות הרשות המקומית לעכב מתן אישורים הדרושים לרישום עסקה בלשכת רישום המקרקעין כל עוד בעל הנכס חב לה חוב כספי, היא כלי גבייה גרידא; בהעדר חוב אין להשתמש בסמכות זו למטרות זרות (כגון אכיפת דיני תכנון ובנייה), ועל הרשות להנפיק אישור על העדר חובות.","סמכות הרשות המקומית להתנות מתן אישור הדרוש לרישום עסקה בלשכת רישום המקרקעין בהיעדר חוב כספי של בעל הנכס היא כלי גבייה בלבד; אין להפעילה למטרות זרות, ובהיעדר חוב חבה הרשות להנפיק את האישור."
|
||||
9f77e720-74bf-4a5a-8bdf-09ed2bf698c4,1,accepted,0.9044,"תומצת וזוקק; הוסר רף 'ראיות חותכות' שאינו עולה מהציטוט-התומך אלא מן הנימוק בלבד, ונשמרו רכיבי החזקה והעברת נטל הסתירה המעוגנים במקור.","משפורסמה תכנית מיתאר ברשומות חלה עליה החזקה שבסעיף 34א לפקודת הראיות, שלפיה דבר שפורסם ברשומות נעשה כראוי; נטל ההוכחה כי נפל שיבוש בהליכי הפרסום או בתוכן מוטל על הטוען נגד תוכן התכנית, ועליו להביא ראיות חותכות לסתירת החזקה.","תכנית מיתאר שפורסמה ברשומות חוסה תחת החזקה שבסעיף 34א לפקודת הראיות, שלפיה דבר שפורסם ברשומות חזקה שנעשה כראוי; נטל הסתירה — בין באשר לתקינות הליך הפרסום ובין באשר לתוכן הפרסום — מוטל על הטוען נגד התכנית."
|
||||
32346580-8a01-4db4-b9d7-ca209c18912b,1,abstained,,no change proposed,הוראות הפטור מהיטל השבחה יש לפרש בצמצום ובהתאם לתכליותיהן.,הוראות הפטור מהיטל השבחה יש לפרש בצמצום ובהתאם לתכליותיהן.
|
||||
727fd46f-bdd2-46c7-8ae2-bececed160bb,1,accepted,0.8954,"הניסוח הודק והופשט (""תכלית חובת הפיצוי"" במקום כפל-לשון), תוך שמירה מלאה על שני יסודות המקור — ההגנה על הקניין וחובת הפיצוי — ועל הנימוק נגד צמצום מלאכותי.","פרשנות חוק התכנון והבנייה בעניין פיצוי בגין פגיעה במקרקעין צריכה להיעשות באופן המתיישב עם ההגנה על זכות הקניין ועם החובה לפצות את בעל הזכות על פגיעה במקרקעיו, ובאופן שאינו מתמרץ את הרשות לפעול באופן מלאכותי לצמצום חובת הפיצוי.","פרשנות הוראות חוק התכנון והבנייה בדבר פיצוי בגין פגיעה במקרקעין תיעשה באופן המתיישב עם ההגנה על זכות הקניין ועם תכלית חובת הפיצוי לבעל הזכות הנפגעת, ואין לאמץ פרשנות המתמרצת את הרשות לצמצם באופן מלאכותי את חובת הפיצוי."
|
||||
a4d28e42-139a-4350-8670-0d38e3d0ea90,1,accepted,0.8581,חודדה ההבחנה בין קיום עילת הפיצוי לבין אובדן הזכות בהתיישנות והוסף שם החוק לסעיף 197; הניסוח נותר מעוגן בציטוט-התומך בלבד.,יש להבחין בין השאלה אם התגבשה 'פגיעה' המקימה עילה לפי סעיף 197 לבין השאלה אם הזכות לפיצוי אבדה מחמת חלוף תקופת ההתיישנות; אובדן הזכות עקב התיישנות אינו מלמד על אי-התקיימות דרישת ה'פגיעה'.,יש להבחין בין השאלה אם התגבשה 'פגיעה' המקימה עילה לפיצוי לפי סעיף 197 לחוק התכנון והבניה לבין השאלה אם הזכות לפיצוי אבדה מחמת חלוף תקופת ההתיישנות; אובדן הזכות עקב התיישנות אינו מלמד על אי-התקיימותה של דרישת ה'פגיעה'.
|
||||
7b38fbfd-315a-4d6c-a361-26d1e5b442ce,1,accepted,0.9371,"החלפת 'לבדה' ב'כשלעצמה' לרגיסטר נקי, ושיקוף הנימוק כי מדובר בשיקול אחד מני רבים הטעון איזון מול עמידה בסדרי הדין — הכול מעוגן בציטוט ובנימוק.","פגיעה אפשרית בכספי ציבור הנובעת מדחיית הבקשה להארכת מועד אינה יכולה לבדה לשמש טעם מיוחד המצדיק הארכת מועד, ויש לאזנה אל מול השיקול של עמידה בסדרי הדין.","פגיעה אפשרית בכספי ציבור הנובעת מדחיית בקשה להארכת מועד אינה יכולה כשלעצמה לשמש טעם מיוחד המצדיק הארכת מועד, אלא היא שיקול אחד מבין שיקולים שיש לאזנם אל מול ערך עמידה בסדרי הדין."
|
||||
ebc6babb-5d24-47d5-8bff-15e09b7734e3,1,accepted,0.9386,"חודד הניסוח כך שההעדפה נובעת מהיות החלופה הפוגענית פחות בקניין (כעולה מהציטוט), ונוקה רישום החלופה ל""מבין שתי חלופות""; לא נוסף דין שאינו במקור.","לאור ההגנה החוקתית על הקניין הפרטי המעוגנת בסעיף 3 לחוק-יסוד: כבוד האדם וחירותו, מקום שבו קיימות שתי חלופות תכנוניות מאושרות כדין, יש להעדיף את החלופה המקלה עם בעל המקרקעין.","לאור ההגנה החוקתית על הקניין הפרטי המעוגנת בסעיף 3 לחוק-יסוד: כבוד האדם וחירותו, מבין שתי חלופות תכנוניות המאושרות כדין יש להעדיף את החלופה המקלה עם בעל המקרקעין, בהיותה הפוגענית פחות בקניינו."
|
||||
7c537b2c-5f2d-4097-b917-90593cf7731e,1,accepted,0.8652,"הוסרה הסיפה בדבר אי-החובה להעלות על הכתב או לערוך כמסמך נפרד, שאינה עולה מהציטוט-התומך ומהנימוק; הושאר גרעין העיקרון המעוגן בזכות ההתייעצות לפי סעיף 8 ובהיעדר זכות טיעון נוספת.","מוסד תכנון רשאי לערוך התייעצויות פנימיות עם יועצים מקצועיים ואינו חייב להעמיד אותן לעיונו של מגיש תכנית או של מתנגד לה; עמדת היועץ המקצועי היא חלק מהדיון הפנימי של מוסד התכנון, אין חובה שתועלה על הכתב או תיערך כמסמך נפרד, ואין בה כדי להקים זכות טיעון נוספת.","מוסד תכנון רשאי לערוך התייעצויות פנימיות עם יועצים מקצועיים ואינו חייב להעמידן לעיונו של מגיש תכנית או של מתנגד לה; התייעצות פנימית זו אינה חלק מן ההליך החיצוני המקנה זכות טיעון, ואין בה כדי להקים זכות טיעון נוספת."
|
||||
2ee8e563-83b3-459f-a8c8-5fae31246d99,1,accepted,0.8937,"זוקק למשפט אחד נקי; הוסר ""פטור"" שאינו עולה מן הציטוט (העוסק בזכויות בלבד) והוסרה הכפילות, תוך שמירה על המבחן הכמותי המעוגן במקור.","לעניין הזכאות לפטור/לזכויות במסלול חיזוק לפי תמ""א 38, המבחן הוא היקף הזכויות המבוקש ביחס למותר (כגון אי-חריגה מהיקף קומות מותר), ואילו אופן הבינוי או סדר הבינוי אינו משנה את הזכאות כל עוד מופע הבינוי אינו חורג מההיקף המותר.","הזכאות לזכויות בנייה במסלול החיזוק לפי תמ""א 38 נבחנת לפי היקף הזכויות המבוקש ביחס למותר, ולא לפי אופן הבינוי או סדר ביצועו, כל עוד מופע הבינוי אינו חורג מן ההיקף המותר."
|
||||
fe31c01d-d4bf-4e4a-8b99-8c06a5a5fee5,1,accepted,0.9032,"זוקק וקוצר לניסוח כללי אחד החל על כל מגרש, תוך שמירת שני יסודות-העיגון: ההסתייגות המפורשת בתרש""צ והסדרת הייעודים בתב""ע הקודמת; לא נוסף דין או סייג.","כאשר תכנית בניין עיר קודמת הסדירה את ייעודי הקרקע במגרש, ותרש""צ מאוחרת קובעת מפורשות כי אין בה כדי לפגוע או לשנות הוראות תכניות שאושרו לפי חוק התכנון והבניה — לא ניתן לאשר מכוח התרש""צ המאוחרת בינוי נוסף הנוגד את הקבוע בתכנית בניין העיר הקודמת.","תרש""צ מאוחרת שנקבע בה במפורש כי אין בה כדי לפגוע או לשנות הוראות תכניות שאושרו לפי חוק התכנון והבניה, אינה יכולה לשמש בסיס לאישור בינוי נוסף הנוגד את הוראותיה של תכנית בניין עיר קודמת שהסדירה את ייעודי הקרקע במגרש."
|
||||
16beb091-61de-4e7b-a360-7bb81b4fe4d0,1,accepted,0.8668,"הוסר הרישא ""אינה מצטמצמת לפגמים קיצוניים בלבד"" שאינו עולה מהציטוט-התומך; נותר העיקרון המעוגן ישירות במקור — חסר בהנמקה השולל ביקורת אפקטיבית מקים סמכות וחובת התערבות.","ביקורת שיפוטית על שומת היטל השבחה אינה מצטמצמת לפגמים קיצוניים בלבד; מקום שבו הנמקת השומה לוקה בחסר באופן שאינו מאפשר ביקורת שיפוטית אפקטיבית, מוסמך בית המשפט — ואף נדרש — להתערב במידה הנדרשת.","מקום שבו הנמקת שומת היטל השבחה לוקה בחסר באופן שאינו מאפשר ביקורת שיפוטית אפקטיבית, מוסמך בית המשפט — ואף נדרש — להתערב במידה הנדרשת."
|
||||
5af13dd6-67dd-4398-9026-99c21834879b,1,accepted,0.8787,"הוסר הסייג שאינו מעוגן במקור ('צרכים והיקפים נקודתיים הסוטים אך במעט'), והוחלף בנימוק התכנוני העולה מהנימוק שבמקור — צמצום חריגות כדי שלא יעקפו את הצורך בתיקון תכניות.","היתר לשימוש חורג אינו ניתן כדבר שבשגרה אלא רק בנסיבות מיוחדות ויוצאות דופן; הכלל הוא שאין ליתן היתר לשימוש חורג, ורק במקרים חריגים — ולצרכים והיקפים נקודתיים הסוטים אך במעט מהקבוע בתכניות החלות — יוענק היתר שכזה.","היתר לשימוש חורג אינו ניתן כדבר שבשגרה אלא רק בנסיבות מיוחדות וחריגות, שכן ההליך התכנוני נוטה לצמצם חריגות מתכנית כדי שאלה לא ישמשו אמצעי לעקיפת הצורך בהכנתן ובתיקונן של תכניות."
|
||||
215332e9-1fef-44c5-8998-77e6df1ce55a,1,accepted,0.9428,"שולב מהנימוק יסוד 'הציפייה להמשך ההליך' ו'איון תרומת התכניות המפורטות', שניהם מעוגנים בציטוט ובנימוק, תוך שמירה על ניסוח כללי ובלתי-תלוי-תיק.","אין לקבוע את שווי המקרקעין במצב הקודם על בסיס השווי שלאחר אישור התכנית הארצית והתכנית המחוזית בלבד, שכן אלו מתוות מגמות ועקרונות כלליים ואינן כוללות הוראות קונקרטיות המקנות ודאות לשינוי הייעוד; קביעה כזו מתעלמת מחלק ניכר מההליך התכנוני המשביח שאיפשר את שינוי הייעוד ואת אישור התכניות המשביחות.","אין לקבוע את שווי המקרקעין במצב הקודם על בסיס השווי שלאחר אישור התכנית הארצית והתכנית המחוזית בלבד, שכן תכניות אלו מתוות מגמות ועקרונות כלליים ויוצרות ציפייה להמשך ההליך התכנוני, ואינן כוללות הוראות קונקרטיות המקנות ודאות לשינוי הייעוד; קביעה כזו מתעלמת מחלק ניכר מההליך התכנוני המשביח שאיפשר את שינוי הייעוד ואת אישורן של התכניות המפורטות המשביחות, ומאיינת את תרומתן."
|
||||
56e53183-e410-4f39-9561-6e63b5ba5e9c,1,accepted,0.9263,הוספת הטעם המעגן (מומחיות השמאי) המופיע בנימוק וזיקוק קל של הניסוח; עילות ההתערבות נותרו זהות למקור.,"ועדת הערר תיטה לאמץ את חוות דעתו של השמאי, והתערבותה בה מוגבלת ככלל למקרים חריגים — בהם נפלה טעות מהותית או דופי חמור, או שהשמאי נסמך על מסד עובדתי בלתי הולם, על הנחות לא הגיוניות, על תשתית משפטית חסרה או שגויה, או שלא סיפק הסבר מניח את הדעת לשאלות שנשאל.","ועדת הערר תיטה לאמץ את חוות דעתו של השמאי מתוך הכרה במומחיותו, והתערבותה בקביעותיו תוגבל ככלל למקרים חריגים שבהם נפלה טעות מהותית או דופי חמור, או שחוות הדעת נסמכה על מסד עובדתי בלתי הולם, על הנחות בלתי הגיוניות או על תשתית משפטית חסרה או שגויה, או שהשמאי לא סיפק הסבר מניח את הדעת לשאלות שנשאל."
|
||||
ac8ac719-cc4b-4f21-8bb8-ac788b395dd1,1,accepted,0.9271,זוקק העיקרון סביב היעדר בסיס-ההשוואה כטעם ל'אי-התאמה ואי-ישימות' (כלשון הציטוט) ונוסף סיוג-המראה בדבר תחולת הדלתא על השבחה תוספתית בלבד — שניהם עולים מהנימוק; הוסר ניסוח 'הטלת היטל ביתר במרבית המקרים' שאינו מעוגן בציטוט.,"במיזמי התחדשות עירונית הכוללים הריסה ובניה מחדש, וכן במיזמים המקודמים מכוח תמ""א 38, שבהם המצב התכנוני החדש יוצר מוצר תכנוני חדש בעל שונות מהותית מהמצב התכנוני שקדם לו — אין לחשב את היטל ההשבחה בשיטת הדלתא, משום ששיטה זו אינה מתאימה ואינה ישימה בנסיבות אלה וגורמת לעיוות ההשבחה ובמרבית המקרים להטלת היטל ביתר על הנישום.","מקום שבו המצב התכנוני החדש יוצר מוצר תכנוני חדש בעל שונות מהותית מן המצב התכנוני שקדם לו — כבמיזמי התחדשות עירונית הכוללים הריסה ובנייה מחדש ובמיזמים מכוח תמ""א 38 — אין לחשב את היטל ההשבחה בשיטת הדלתא, שכן היעדר בסיס להשוואה בין המצב הקודם לחדש הופך שיטה זו לבלתי-מתאימה ובלתי-ישימה ומביא לעיוות שומת ההשבחה; שיטת הדלתא יפה רק להשבחה תוספתית השומרת על המצב התכנוני הקיים."
|
||||
d7bb7e90-3f7b-4eb7-aafa-1e284a36c56c,1,drift_rejected,0.7961,drift 0.796 < floor 0.8,"בתיקי פינוי-בינוי, אמידת ההשבחה הכוללת — בשלב שטרם החלת תחשיב הפטור — תיערך אך ורק לפי השיטה המסורתית: ההפרש שבין שווי המקרקעין לאחר אישור התכנית לבין שוויים טרם התכנית, תוך נטרול הציפיות הנובעות מההליך התכנוני.","בפינוי-בינוי, ההשבחה הכוללת בשלב שטרם החלת תחשיב הפטור נאמדת אך ורק לפי השיטה המסורתית."
|
||||
9e5397e6-e4af-4db0-8ed5-3e4cea124c0e,1,accepted,0.8759,"הודק הניסוח למשפט אחד רציף וחד, תוך שמירה על שני רכיבי העיקרון המעוגנים בציטוט (בסיס בלעדי במסמכי התכנון וההיתר; איסור שומה על שימוש נטען חיצוני) ללא הוספת דין או סייג.","שומת השבחה נערכת אך ורק על פי מסמכי התכנון הקיימים וההיתר שאושר, ולא על פי טענות ממקורות חיצוניים שאינם בהלימה למסמכים אלה. שמאי מקרקעין אינו רשאי להתעלם מהבינוי או מהשימוש שאושרו בהיתר ולערוך שומה על בסיס שימוש נטען אחר.","שומת השבחה נערכת אך ורק על יסוד מסמכי התכנון וההיתר שאושר, ולא על פי טענות חיצוניות שאינן בהלימה למסמכים אלה; אין השמאי רשאי להתעלם מהבינוי או מהשימוש שאושרו בהיתר ולשום על בסיס שימוש נטען אחר."
|
||||
704ace88-3cff-4cad-ad46-d6f5ce4ef72e,1,accepted,0.857,"הוסרו השיקולים בדבר היחס בין הסעדים, התנהלות הצדדים ומורכבות ההליך — אינם עולים מהציטוט-התומך שמעגן רק זכאות להחזר ריאלי בכפוף למבחני סבירות ומידתיות.","צד שזכה בהליך זכאי להחזר הוצאות ריאלי בגין שכר טרחת עורך דין והוצאות משפט שהוציא, ובלבד שההוצאות סבירות ומידתיות לניהול ההליך; בקביעת שיעורן יש לשקול את היחס בין הסעדים שנתבקשו לאלו שאושרו בפועל, את התנהלות הצדדים ואת מורכבות ההליך.","צד שזכה בהליך זכאי להחזר הוצאות ריאלי בגין שכר טרחת עורך דין והוצאות משפט שהוציא, ובלבד שההוצאות סבירות ומידתיות לניהול ההליך."
|
||||
61b8c56e-d312-40d4-bdf3-0ca96fe2ad8a,1,accepted,0.8345,"הוסר רכיב 'הערות האזהרה' שאינו עולה מהציטוט-התומך, והגבלת היקף ההפקעה ל'דרוש באמת' עוגנה ישירות בנימוק; שאר העיקרון (כינון בחתימה+פרסום, חובת מידתיות) נשמר.","הפקעה נוצרת על-ידי שילוב חתימת השר והפרסום יחדיו, ועליה להיות מידתית באופן שהפרסום והערות האזהרה ישקפו מידתיות זו ויגדירו את המרחב המופקע בהתאם לצורך הציבורי שבבסיסה.","הפקעה מתכוננת בשילוב חתימת השר והפרסום, ומשאלה היוצרים אותה — עליהם לשקף את מידתיותה ולהגביל את היקף המופקע למה שדרוש באמת לצורך הציבורי שבבסיסה."
|
||||
0dd1ab4a-928b-4720-8d29-11d6e041cd1f,1,accepted,0.9232,"הניסוח הודק וצומצם תוך שמירה על אותם רכיבים המעוגנים בציטוט (אפשרות לשכנע בצורך בדיון בעל-פה והשלמת טיעון בכתב, ומניעות עקב אי-ניצול ההזדמנות); לא נוסף דין או סייג חדש.","זכות הטיעון אינה מחייבת בהכרח קיום דיון פרונטלי בעל-פה; רשות מנהלית רשאית במסגרת סמכותה ושיקול דעתה להורות כי השלמת הטיעון תיעשה בכתב, ובלבד שהעמידה לצדדים הזדמנות לשכנע בצורך בדיון בעל-פה ולהשלים טיעון בכתב. צד שנמנע מלנצל הזדמנויות אלו ולא התנגד לבירור על יסוד החומר הכתוב מנוע מלטעון לפגם בזכות הטיעון.","זכות הטיעון אינה מחייבת בהכרח דיון בעל-פה, ורשות מנהלית רשאית במסגרת שיקול דעתה להורות כי הטיעון יושלם בכתב, ובלבד שניתנה לצדדים הזדמנות לשכנע בצורך בדיון בעל-פה ולהשלים טיעונם בכתב; צד שנמנע מלנצל הזדמנויות אלו ולא התנגד לבירור על יסוד החומר הכתוב מנוע מלטעון לפגיעה בזכות הטיעון."
|
||||
0b47b8ef-41eb-488e-89b2-a93532bd7f1e,1,accepted,0.8731,"נוספו עקרונות השוויון, הצדק החלוקתי ואמון הציבור — שלושת היסודות שעליהם מעוגנת חובת הראיה הכוללת בציטוט-המקור — והם הושמטו בניסוח הקודם.","ועדת ערר הדנה בעררים על שומות שמאים מכריעים שונים באותו מרחב תכנון נדרשת לראיה כוללת של מכלול השומות והטענות — השמאיות והמשפטיות — ואינה רשאית להסתפק בבחינה פרטנית של כל שומה בנפרד, אגב התעלמות מהתמונה הרחבה ומהיחס שבין השומה הקונקרטית שבפניה לבין הערכות השווי בכל מרחבי התכנית.","ועדת ערר הדנה בעררים על שומות שמאים מכריעים שונים באותו מרחב תכנון נדרשת להתבונן במבט רחב על מכלול השומות שבאזור ולבסס את הכרעתה על ראיה כוללת זו, מתוך שקילת עקרונות השוויון, הצדק החלוקתי ואמון הציבור בהליכים; אין היא רשאית להסתפק בבחינה פרטנית של כל שומה בנפרד תוך התעלמות מהתמונה הרחבה ומהיחס שבין השומה הקונקרטית שבפניה לבין הערכות השווי בכלל מרחבי התכנית."
|
||||
ba0c6103-baa3-4559-a6de-8ac24cbbeef4,1,accepted,0.9355,"תוקן לניסוח הדוק יותר המעמיד את מבחן השימוש העתידי במרכז; כל הרכיבים מעוגנים בציטוט ובנימוק, ללא הוספת דין.","במסגרת בחינת הזכאות לפטור מהיטל השבחה לפי סעיף 19(ג) לתוספת השלישית, מוקד הבדיקה לקיום דרישת הזהות בין המחזיק במקרקעין לבין החייב בהיטל אינו השימוש שנעשה בנכס בעבר, אלא השימוש העתידי המיועד בדירה שתיבנה — קרי האם היא נועדה לשמש למגורי החייב בהיטל או קרובו.","בבחינת הזכאות לפטור מהיטל השבחה לפי סעיף 19(ג) לתוספת השלישית, דרישת הזהות בין המחזיק במקרקעין לבין החייב בהיטל נבחנת לפי השימוש העתידי המיועד בדירה שתיבנה — אם נועדה לשמש למגורי החייב או קרובו — ולא לפי השימוש שנעשה בנכס בעבר."
|
||||
0fa1e979-b737-436f-878c-cc8f263ccbf5,1,abstained,,no change proposed,"היקף זכות הטיעון והשימוע ומתכונתם אינם קבועים אלא נגזרים מהנסיבות הקונקרטיות של העניין; ככל שההחלטה המינהלית צפויה לפגוע בזכות חשובה יותר ובאופן חמור יותר, כך מתעצמת חובת הרשות להעניק זכות טיעון רחבה ומשמעותית יותר.","היקף זכות הטיעון והשימוע ומתכונתם אינם קבועים אלא נגזרים מהנסיבות הקונקרטיות של העניין; ככל שההחלטה המינהלית צפויה לפגוע בזכות חשובה יותר ובאופן חמור יותר, כך מתעצמת חובת הרשות להעניק זכות טיעון רחבה ומשמעותית יותר."
|
||||
20be9db3-5a84-40c5-aa0e-ecb5020b5ec3,1,accepted,0.9518,"איחוד שני המשפטים למשפט אחד רציף וצמצום מילולי; תוכן העיקרון, היקפו והנימוק זהים למקור ולא נוסף דין או סייג.","מימוש זכויות בדרך של מכר, בטרם הוצאת היתר בניה, אינו מקים חבות בהיטל השבחה. זאת מחמת היעדר ודאות והקושי לאמוד את שיעור ההשבחה בטרם ניתן היתר בניה בפועל.","מימוש זכויות בדרך של מכר, בטרם הוצאת היתר בניה, אינו מקים חבות בהיטל השבחה, מחמת היעדר ודאות והקושי לאמוד את שיעור ההשבחה בטרם ניתן היתר בניה בפועל."
|
||||
7ccde39d-90cd-40d9-a3a3-6109620ed2ba,1,drift_rejected,0.7768,drift 0.777 < floor 0.8,"בית המשפט לא ייזקק לבירור סוגייה שאיבדה את ממשותה והפכה לתיאורטית או אקדמית בלבד, ובכלל זה ערעור המופנה כנגד מעשה עשוי, אלא במקרים חריגים בלבד.","בית המשפט לא ייזקק לבירור סוגייה שאיבדה את ממשותה ונותרה בעלת אופי תיאורטי או אקדמי בלבד, אלא במקרים חריגים."
|
||||
ea79b5f3-efce-46c7-9ff9-1ae2f037c88d,1,accepted,0.901,"מבנה מחדש המעמיד את השיקול התכנוני (ההתגוננות האזרחית) כראש העיקרון והתוצאה כנגזרת ממנו, תוך הסרת כפל-לשון; כל הרכיבים מעוגנים בציטוט-המקור.","קיימת הצדקה תכנונית למתן הקלה המאפשרת בינוי הממצה את האפשרות להוספת ממ""ד, אף כאשר מדובר בחריגה חלקית מקו הבניין, וזאת נוכח החשיבות הציבורית של בניית ממ""ד לצורכי התגוננות אזרחית.","החשיבות הציבורית שבבניית ממ""ד לצורכי התגוננות אזרחית מהווה שיקול תכנוני המצדיק מתן הקלה המאפשרת בינוי הממצה את האפשרות להוספת ממ""ד, אף כאשר הדבר כרוך בחריגה חלקית מקו הבניין."
|
||||
3283130b-c38f-4141-abd7-680dfd6a4cae,1,accepted,0.8651,"אוחד הניסוח למשפט קנוני אחד וזוקק לרגיסטר נקי ('פוגע... באופן אישי', 'לתקוף את האישור בערר') תוך שמירה מלאה על העיגון בציטוט — פגיעה אישית במקרקעין/בנכס כתנאי-סף למעמד.",תנאי-סף למעמדו של עורר כנגד אישור בינוי הוא הצבעה על פגיעה אישית במקרקעין שבבעלותו או בנכסו; מי שלא הראה כי הבינוי המוצע משפיע עליו או על נכסו באופן אישי — אין לו מעמד להעלאת הערר.,"תנאי-סף למעמדו של עורר כנגד אישור בינוי הוא הצבעה על פגיעה אישית במקרקעין שבבעלותו או בנכסו; משלא הוראה כי הבינוי המוצע פוגע בו או בנכסו באופן אישי, אין לו מעמד לתקוף את האישור בערר."
|
||||
775e5cf5-e9a0-4560-80a2-4530e4310dad,1,accepted,0.914,"חודדה תכלית הסעיף — האיסור מוגבל לקירות בגבול חיצוני בלבד — בהתבסס על לשון הציטוט, ללא הוספת דין; הרגיסטר נוקה.","לועדה המקומית נתון מתחם שיקול דעת ביישום סעיף 2.23 לתוספת השלישית לתקנות בבתים דו-משפחתיים, בהתאם לנסיבות הקונקרטיות ולתנאי השטח; האיסור לקרוע חלונות ""בקו גבול צדדים או אחורי של נכס"" אינו חל על קיר הפונה לחלק הפנימי של החלקה עצמה.","לועדה המקומית נתון מתחם שיקול דעת ביישום סעיף 2.23 לתוספת השלישית לתקנות בבתים דו-משפחתיים, בהתאם לנסיבות הקונקרטיות ולתנאי השטח; האיסור לקרוע חלונות בקו גבול צדדי או אחורי של נכס מצומצם לקירות הפונים לגבול חיצוני, ואינו חל על קיר הפונה לחלקה הפנימית עצמה."
|
||||
07f6c67a-2c79-41c8-a63e-a403b3378160,1,accepted,0.8483,"הוחזר הדיוק שבמקור — ""התקפות טילים"" במקום ""התקפות"", ושופר מבנה המשפט; ללא הוספת דין.","התקנת מרחב מוגן דירתי (ממ""ד) מהווה צורך ציבורי ברור הנובע מהמצב הביטחוני, וחשיבותו נלמדת משורת תיקוני חקיקה שמטרתם עידוד ותמרוץ בנייתו כאמצעי יעיל להגנה מפני התקפות בעורף.","התקנת מרחב מוגן דירתי (ממ""ד) מהווה צורך ציבורי ברור הנובע מהמצב הביטחוני, וחשיבותו כאמצעי יעיל להגנה מפני התקפות טילים בעורף נלמדת משורה ארוכה של תיקוני חקיקה שמטרתם עידוד ותמרוץ בנייתו."
|
||||
58a97a51-3374-4b1a-89e8-f87409543cf2,1,accepted,0.9107,"הניסוח הקיים כבר מעוגן במלואו בציטוט-התומך וכללי דיו; נעשה ליטוש מינורי בלבד (השלמת שם החוק וצמצום קל), ללא הוספת דין, סייג או עובדת-תיק.","לצורך אומדן הפגיעה והפיצוי לפי סעיף 197 לחוק, מקום שתכנית פוגעת משנה ייעוד קרקע מבנייה לחקלאות, יש לאמוד את שווי הקרקע כמצבה עובר לתכנית הפוגעת אל מול שווייה כמצבה בעקבותיה, ולפצות את בעל הזכות בשיעור גריעת השווי שנגרמה כתוצאה מן השינוי.","לצורך אומדן הפגיעה והפיצוי לפי סעיף 197 לחוק התכנון והבנייה, מקום שתכנית פוגעת משנה את ייעוד הקרקע מבנייה לחקלאות, יש לאמוד את שווי הקרקע כמצבה עובר לתכנית הפוגעת אל מול שווייה כמצבה בעקבותיה, ולפצות את בעל הזכות בשיעור גריעת השווי שנגרמה מן השינוי."
|
||||
39d00376-a7d8-4b9b-af57-fe6a7b8b6ec7,1,accepted,0.8622,"הוצג ההיקף כפרמטר עצמאי (ולא רק 'שני'), הובהר היחס בין גודל השטח הבנוי לעוצמת הבחינה כעולה מהנימוק, והניסוח רוכך לכלל רב-תחולה; לא נוספו דין, חריג או מקורות חדשים.","פרמטר שני בבחינת בקשה לשימוש חורג הוא היקף השימוש החורג — להבדיל מן העצימות (הפער התכנוני), ההיקף מתייחס לשטח הבנוי שבגינו מתבקש השימוש; אין דין בקשה לשימוש חורג במבנה זעיר כדין בקשה לשימוש חורג במבנה רחב-היקף.","היקף השימוש החורג הוא פרמטר עצמאי בבחינת בקשה לשימוש חורג, הנבדל מן העצימות (הפער התכנוני) ומתמקד בשטח הבנוי שבגינו מתבקש השימוש; ככל שגדל היקף השטח הבנוי כן מתחזקת הבחינה הנדרשת, ואין דין בקשה במבנה זעיר כדין בקשה במבנה רחב-היקף."
|
||||
a1be8e43-e04f-4f24-96a1-a4b4feb8515e,1,accepted,0.9009,"שולב מבחן המהות-לא-השם העולה מהציטוט (""כל שם דומה"") כליבת העיקרון, ונשמר העיגון בסעיף 145 ללא הוספת דין או סייג.","היתר חפירה ודיפון מהווה ""היתר בניה"" כמשמעותו ומכוחו של סעיף 145 לחוק התכנון והבניה, ואין בשם השונה שניתן לו כדי לגרוע ממעמדו הנורמטיבי כהיתר בניה; פרשנות זו תואמת את לשון החוק ותכליתו.","היתר חפירה ודיפון, ויהא שמו אשר יהא, מהווה ""היתר בניה"" כמשמעותו בסעיף 145 לחוק התכנון והבניה; סיווגו נקבע על-פי מבחן מהותי ולא על-פי כותרתו, ואין בשם השונה שניתן לו כדי לגרוע ממעמדו הנורמטיבי כהיתר בניה."
|
||||
b557d6df-051c-42a7-897e-c128b4f590f7,1,accepted,0.953,ליטוש לשוני בלבד (תקיפת... במקום לתקוף; 'מקום שעולה'); תוכן העיקרון וגבולותיו זהים למקור-העיגון.,"דרך המלך לתקוף החלטה של ועדה מקומית או רשות רישוי מקומית ליתן היתר בנייה, כאשר עולה טענה של סטייה מתכנית, היא בהגשת ערר לועדת הערר; זאת להבדיל ממחלוקות בשאלות קנייניות או של שימוש וחזקה (הנדונות בערכאות האזרחיות) ומטענות לפגמים מינהליים שאינם תכנוניים, כגון ניגוד עניינים (הנדונות בבית המשפט לעניינים מינהליים).","דרך המלך לתקיפת החלטת ועדה מקומית או רשות רישוי מקומית ליתן היתר בנייה, מקום שעולה טענה לסטייה מתכנית, היא בהגשת ערר לועדת הערר; זאת להבדיל ממחלוקות קנייניות או בשאלות של שימוש וחזקה, הנדונות בערכאות האזרחיות, ומטענות לפגמים מינהליים שאינם תכנוניים, כגון ניגוד עניינים, הנדונות בבית המשפט לעניינים מינהליים."
|
||||
b7d0496a-1110-4ca7-97fc-ccd28b681085,1,accepted,0.8553,"הוסר המספר הקונקרטי 'עד 36 פעוטות' שהוא פרט-תיק ספציפי, כדי לזקק עיקרון רב-תחולה; גרעין השיקול נשמר כלשון הציטוט-התומך.","כאשר הוועדה המקומית מאשרת הפעלת מעון יום הכולל עד 36 פעוטות לפי תיקון החוק, השיקול היחיד שעליה להפעיל לגביו את שיקול דעתה הוא האם מתקיימת פגיעה מרחבית משמעותית שאינה ניתנת לתיקון.","כאשר הוועדה המקומית מאשרת הפעלת מעון יום מכוח תיקון החוק, השיקול היחיד שעליה להפעיל לגביו את שיקול דעתה הוא האם מתקיימת פגיעה מרחבית משמעותית שאינה ניתנת לתיקון."
|
||||
5743e389-c4b8-41e5-b156-2ecfa0252131,1,accepted,0.9481,"זוקק והודק הניסוח תוך עיגון מפורש בכך שעצם טענת הסטייה מקנה סמכות ומחייבת בירור מקדמי (כעולה מהנימוק והציטוט-התומך); לא נוספו דין, חריג או ציטוטי-תיקים.","למתנגד מוקנית זכות ערר לוועדת הערר על החלטת ועדה מקומית ליתן היתר בנייה, מקום שנטען כי ההיתר מהווה הקלה או שימוש חורג בסטייה מתכנית — וזאת אף אם הוועדה המקומית סברה כי ההיתר עולה בקנה אחד עם התכנון התקף. ועדת הערר אינה רשאית לדחות ערר כזה על הסף, אלא חייבת לבחון את טענת הסטייה מתכנית כטענה מקדמית, וככל שתמצא כי ההיתר סוטה מתכנית — תדון בהתנגדות לגופה.","למתנגד מוקנית זכות ערר לוועדת הערר על החלטת ועדה מקומית ליתן היתר בנייה, מקום שנטען כי ההיתר מהווה הקלה או שימוש חורג בסטייה מתכנית, אף אם הוועדה המקומית סברה כי ההיתר תואם את התכנון התקף. עצם טענת הסטייה מקנה לוועדת הערר את הסמכות ומחייבת אותה לברר את הטענה כשאלה מקדמית, בלא לדחות את הערר על הסף; ומשנמצא כי ההיתר סוטה מתכנית — תידון ההתנגדות לגופה."
|
||||
69d0ede6-ab2f-4047-9558-aaccae329827,1,accepted,0.8975,"צומצם וחודד הניסוח (הסרת כפל ""אינה שוללת ואינה גורעת"" ופישוט התחביר) תוך שמירה מלאה על העיקרון המעוגן בציטוט בדבר המסלולים המקבילים.","הסמכות הספציפית שהוקנתה לשרים לקבוע היטל השבחה מופחת לגבי מתחמי פינוי-בינוי אינה שוללת ואינה גורעת מסמכותם הכללית מכוח ""סעיף הסל"" ליתן פטור מלא מהיטל השבחה למתחמים מסוג זה; מדובר במסלולים מקבילים העומדים זה לצד זה.","הקניית סמכות ספציפית לקבוע היטל השבחה מופחת למתחמי פינוי-בינוי אינה גורעת מן הסמכות הכללית שמכוח ""סעיף הסל"" ליתן פטור מלא מהיטל השבחה למתחמים אלה; שני המסלולים מקבילים ועומדים זה לצד זה."
|
||||
40e3238d-9914-47bf-82f3-b187fbacafaa,1,accepted,0.8238,"מוקד הניסוח בעיקרון המעוגן ישירות בציטוט-התומך (נטרול הפוטנציאל מן המצב הקודם לפי הלכת לוסטרניק); הוסרה הסיפא בדבר המשקל לעסקאות 'תכנון בעתיד' שמקורה בנימוק היישומי ולא בציטוט, וכן תוקנה ההצגה הפסקנית.","פוטנציאל תכנוני הנובע מייעוד שנקבע בתוכנית מתאר נחשב חלק מן ההליך התכנוני של התוכנית המשביחה במובנו הרחב, ולפי הלכת לוסטרניק יש לנטרלו מהמצב הקודם בעת עריכת השומה; ממילא אין לייחס משקל בלעדי לעסקאות השוואה שנעשו בייעוד 'תכנון בעתיד'.","פוטנציאל תכנוני הנובע מייעוד שנקבע בתוכנית מתאר מהווה חלק מן ההליך התכנוני של התוכנית המשביחה במובנו הרחב, ולפי הלכת לוסטרניק יש להתעלם ממנו ולנטרלו מן המצב הקודם בעת עריכת שומת ההשבחה."
|
||||
43173db6-51aa-46d9-a655-e3e9dad9889b,1,abstained,,no change proposed,"שטחי שירות הנלווים באופן אינהרנטי לשימוש עיקרי (כגון מחסנים נלווים לדירות מגורים) ישומו כנגזרת משווי השימוש העיקרי, ולא לפי שימוש חלופי אחר; באין השימוש העיקרי אין הצדקה לשטחי השירות.","שטחי שירות הנלווים באופן אינהרנטי לשימוש עיקרי (כגון מחסנים נלווים לדירות מגורים) ישומו כנגזרת משווי השימוש העיקרי, ולא לפי שימוש חלופי אחר; באין השימוש העיקרי אין הצדקה לשטחי השירות."
|
||||
1c23018f-010b-4808-88e9-62e2e2ce6f37,1,accepted,0.8973,"הניסוח הקיים כבר מעוגן במלואו בציטוט-התומך, כללי ובלתי-תלוי-תיק; לא נמצא רכיב מעוגן להוספה או לזיקוק נוסף.","בחישוב היטל השבחה תובא במניין אך ורק ההשבחה הקשורה בקשר סיבתי ישיר לתכנית המשביחה; על השמאי לחלץ ולבודד את מרכיב השבחת התכנון מכלל הגורמים שהביאו לעליית שווי המקרקעין, ורק רכיב זה משמש בסיס לחיוב בהיטל.","בחישוב היטל השבחה תובא במניין אך ורק ההשבחה הקשורה בקשר סיבתי ישיר לתכנית המשביחה; על השמאי לחלץ ולבודד את מרכיב השבחת התכנון מיתר הגורמים שהביאו לעליית שווי המקרקעין, ורק רכיב זה משמש בסיס לחיוב בהיטל."
|
||||
0e483c66-c1fc-4380-98de-2475e1428539,1,abstained,,no change proposed,"ירידת ערך מקרקעין הנובעת מאישור התכנית ומביצועה ככתבה וכלשונה מגולמת בפיצוי לפי סעיף 197 לחוק התכנון והבניה, ועל כן לא ניתן לתבוע פיצוי בגין אותו נזק בהליך נזיקי — אף כלפי נתבע אחר וללא תלות בעילה הנזיקית שמכוחה נתבע הפיצוי.","ירידת ערך מקרקעין הנובעת מאישור התכנית ומביצועה ככתבה וכלשונה מגולמת בפיצוי לפי סעיף 197 לחוק התכנון והבניה, ועל כן לא ניתן לתבוע פיצוי בגין אותו נזק בהליך נזיקי — אף כלפי נתבע אחר וללא תלות בעילה הנזיקית שמכוחה נתבע הפיצוי."
|
||||
221e2af0-a6cd-47ba-b676-4b392e03c1bc,1,accepted,0.9166,"הידוק הניסוח סביב מאזן ההוראות הכולל וצמצום החזרתיות, תוך שמירה מלאה על העיגון בציטוט-המקור.",בהערכת השפעתה של תכנית על שווי המקרקעין יש לשקלל יחד את כל הוראות התכנית — המשביחות והפוגעות כאחד — ורק אם סך כל ההוראות מביא ליתרון על פני המצב התכנוני הקודם תיחשב התכנית למשביחה ותחויב בהיטל השבחה.,"בהערכת השבחתה של תכנית יש לשקלל יחד את כל הוראותיה המשפיעות על שווי המקרקעין, המשביחות והפוגעות כאחד, ותכנית תיחשב משביחה החייבת בהיטל השבחה רק אם מאזן הוראותיה הכולל מביא ליתרון על פני המצב התכנוני הקודם."
|
||||
6b1d0d8e-cd89-4bce-a7d5-d75ea0c4eaed,1,accepted,0.9666,"ניסוח קיים נשמר כמעט במלואו; הובהר ששיקול הדעת התכנוני הוא מקצועי ('אינה באה להחליף'), בעיגון מלא לציטוט התומך וללא הוספת דין.","הביקורת השיפוטית על החלטות מוסדות התכנון מתמקדת בבחינת חוקיות ההליכים ודרכי קבלת ההחלטה, ואינה מחליפה את שיקול הדעת התכנוני של הרשות; בית המשפט יתערב במשורה, רק מקום בו נפל בהחלטה פגם חוקי על-פי עילות הביקורת המינהלית, כגון חריגה מסמכות, שיקולים פסולים או חריגה קיצונית ממתחם הסבירות.","הביקורת השיפוטית על החלטות מוסדות התכנון מתמקדת בבחינת חוקיות ההליכים ודרכי קבלת ההחלטה, ואינה באה להחליף את שיקול הדעת התכנוני המקצועי של הרשות; בית המשפט יתערב במשורה, רק מקום בו נפל בהחלטה פגם חוקי לפי עילות הביקורת המינהלית, כגון חריגה מסמכות, שיקולים פסולים או חריגה קיצונית ממתחם הסבירות."
|
||||
17f3126b-dbc7-49f6-8bdb-15f5800d909a,1,accepted,0.9159,"הוספתי את ההבחנה המעוגנת במקור בין ההכרזה לבין תכנית פוגעת ('להבדיל מתכנית פוגעת'), והסרתי את הדוגמה הספציפית בסוגריים לטובת ניסוח כללי יותר.","הכרזה על קרקע (כגון הכרזה לשימור קרקע חקלאית) המגבילה בנייה ושימושים אינה מקימה כשלעצמה זכות לפיצוי בעל הזכות במקרקעין בגין הפגיעה בקניינו הנובעת מאותן הגבלות, אף אם הפגיעה בשווי הקרקע משמעותית ביותר.","הכרזה על קרקע המגבילה בנייה ושימושים אינה מקימה כשלעצמה, להבדיל מתכנית פוגעת, זכות לפיצוי בעל הזכות במקרקעין בגין הפגיעה בקניינו הנובעת מאותן הגבלות, אף אם הפגיעה בשווי הקרקע משמעותית."
|
||||
5ca099ed-136d-4c59-9a15-e548334a6c11,1,accepted,0.8679,"הוסרו הדוגמאות בסוגריים (משקלו המוגבל, חזקת החפות) שאינן עולות מפורשות מהציטוט-התומך המדבר על 'כל המגבלות הכרוכות בכך' באופן כללי; שאר העיקרון נשמר כמעוגן.","מוסד תכנון רשאי להביא בחשבון, במסגרת מכלול שיקוליו, את עצם הגשתו של כתב אישום ואת תוכנו כראיה מנהלית, ובלבד שייעשה כן בכפוף למגבלות הכרוכות בשימוש בכתב אישום שטרם הוכרע (משקלו המוגבל, חזקת החפות וכיו""ב).","מוסד תכנון רשאי להביא בחשבון, במסגרת מכלול שיקוליו, את עצם הגשתו של כתב אישום ואת תוכנו כראיה מנהלית, בכפוף למגבלות הכרוכות בהסתמכות על כתב אישום שטרם הוכרע."
|
||||
0c1cde3e-2caf-4d05-b684-9e53931111f3,1,drift_rejected,0.7924,drift 0.792 < floor 0.8,"אף אם ניתן לפרש את פסק דין ""קבוצת הירדן"" כך שאינו חל על העיר תל אביב-יפו, יש להחיל את דרך חישוב הפטור מהיטל השבחה המפורטת בו גם על תל אביב-יפו; הלכת קבוצת הירדן אינה מוגבלת גאוגרפית.",דרך חישוב הפטור מהיטל השבחה שנקבעה בהלכת קבוצת הירדן אינה מוגבלת גאוגרפית וחלה באופן אחיד על כל רשות מקומית.
|
||||
9d4f9cda-a169-4ac1-9c8b-7dc99fbe486b,1,accepted,0.9304,"חודד שהשלכת-הרוחב והתקדים נבחנים לפי מאפייני המבנה הקונקרטי (עולה מהנימוק והציטוט-התומך) ושהאישור אינו בר-הכללה, מבלי להוסיף דין או נסיבות שאינם במקור.","טענת ועדה מקומית כי אישור שימוש חורג ממגורים למסחר יעודד בקשות דומות, יביא להשלכות רוחב ולצמצום היצע יחידות הדיור, או יהווה תקדים — אינה מתקבלת מקום שאופי הבינוי של המבנה ייחודי ואינו נפוץ; במצב כזה האישור מוגבל למקרה המסוים ואין בו כדי לפרוץ אל מעבר לנסיבותיו.","טענת ועדה מקומית כי אישור שימוש חורג ממגורים למסחר יעודד בקשות דומות, יביא להשלכות רוחב, יצמצם את היצע יחידות הדיור או יהווה תקדים — אינה מתקבלת מקום שאופי הבינוי של המבנה ייחודי ואינו נפוץ; השלכת-הרוחב והתקדים נבחנים לפי מאפייני המבנה הקונקרטי, ובבינוי ייחודי האישור מוגבל לנסיבות המקרה ואינו בר-הכללה."
|
||||
3ca50208-ca74-4631-a2ef-758e97e30b95,1,accepted,0.9304,"זוקק וקוצר הניסוח (הסרת כפילות ""וועדת הערר"" והאיות הכפול); העיקרון נותר מעוגן בציטוט-התומך בדבר היעדר סמכות לערר על חידוש היתר.","החלטה בדבר חידוש או הארכת תוקפו של היתר בנייה לפי תקנות התכנון והבנייה (רישוי בנייה), תשע""ו-2016, אינה נמנית עם ההחלטות שעליהן ניתן לערור לוועדת הערר, ולפיכך וועדת הערר נעדרת סמכות לדון בערר המוגש על החלטה כאמור.","החלטה בדבר חידוש או הארכת תוקפו של היתר בנייה לפי תקנות התכנון והבנייה (רישוי בנייה), תשע""ו-2016, אינה נמנית עם ההחלטות הניתנות לערר לפני ועדת הערר, ועל כן ועדת הערר נעדרת סמכות לדון בערר המוגש עליה."
|
||||
ca7f25f9-40b7-4f75-928f-16f348f47d82,1,accepted,0.9003,"הידוק רגיסטרי בלבד — קוצרו כפילויות ('נקיטה בהליך של', 'אכן') והומר התנאי לניסוח תמציתי, ללא הוספת דין שאינו עולה מהמקור.","צורך תכנוני או חברתי חיוני ודחוף עשוי להצדיק נקיטה בהליך של שימוש חורג כפתרון ביניים, מאחר שאישור מהלך תכנוני שלם גוזל זמן ארוך; ואולם תנאי לכך הוא הוכחה כי אכן קיים צורך חיוני ודחוף וכי ההמתנה עד לאישור המהלך התכנוני השלם תגרום נזק.","צורך תכנוני או חברתי חיוני ודחוף עשוי להצדיק שימוש חורג כפתרון ביניים, נוכח משך הזמן הארוך הכרוך באישור מהלך תכנוני שלם; ובלבד שהוּכח קיומו של צורך חיוני ודחוף וכי ההמתנה לאישור המהלך התכנוני השלם תגרום נזק."
|
||||
4fb8c982-568b-4179-88a7-a5283f14cadc,1,accepted,0.8708,"נוסח מחדש כעיקרון איזון רב-תחולה — התועלת החברתית מול הפגיעה במתנגדים — תוך הוספת תנאי הגבירה העולה מן הנימוק, וללא הוספת דין מעבר למקורות.","הרווח החברתי לכלל הציבור עשוי להוות שיקול לאישור שימוש חורג גם מקום שבו השימוש כרוך בפגיעה במתנגדים, כאשר השימוש חיוני לציבור.","הרווח החברתי הצומח לכלל הציבור משימוש חורג החיוני לו עשוי להוות שיקול לאישור השימוש, אף כאשר הוא כרוך בפגיעה במתנגדים, ובלבד שהתועלת הציבורית גוברת על הפגיעה."
|
||||
a8b1836f-e0c5-493f-b4bf-8a51aab0450c,1,drift_rejected,0.7808,drift 0.781 < floor 0.8,"שטחים ציבוריים סטטוטוריים אינם 'על הנייר' בלבד — הרשות המקומית מחויבת בפיתוחם, ומבני ציבור שנבנו בפועל (בתי ספר, גני ילדים, בתי כנסת, שצ""פים מפותחים) נלקחים בחשבון כחלק מהתשתית הציבורית הקיימת בשכונה לצורך הערכת היתכנות הקלות.","הרשות המקומית מחויבת בפיתוח השטחים הציבוריים הסטטוטוריים שבתחומה; משכך, אין לראות שטחים אלה כקיימים 'על הנייר' בלבד מקום שמבני ציבור ושטחים ציבוריים פותחו ונבנו בפועל ומהווים חלק מהתשתית הציבורית הקיימת בשכונה."
|
||||
50313625-9da8-472d-8039-f6e810f27f65,1,accepted,0.9076,"ניסוח קומפקטי יותר באמצעות החלפת הניקודיים ("":"") בפסוקית-זיקה (""שלפיו"") ליצירת משפט אחד רציף; התוכן זהה ומעוגן בציטוט-התומך, ללא הוספת דין או סייג.","כאשר על המקרקעין קיימת בנייה הנגועה באי-חוקיות, יש להחיל את ""מבחן המגרש הריק"": השאלה הנשאלת היא האם נכון היה לאשר את הבקשה להיתר אילו לא הייתה קיימת על הקרקע אותה בנייה בלתי-חוקית.","כאשר על המקרקעין קיימת בנייה הנגועה באי-חוקיות, יש להחיל את ""מבחן המגרש הריק"", שלפיו נשאלת השאלה האם נכון היה לאשר את הבקשה להיתר אילו לא הייתה קיימת על הקרקע אותה בנייה בלתי-חוקית."
|
||||
505884b8-feab-4221-a723-f915d745435a,1,abstained,,no change proposed,"היטל השבחה מוטל אך ורק על ""השבחת-תכנון"" — עליית ערך המקרקעין הנובעת באופן ישיר מהחלת הפעולה התכנונית עליהם — ולא על עליית שווי הנובעת מגורמים אחרים.","היטל השבחה מוטל אך ורק על ""השבחת-תכנון"" — עליית ערך המקרקעין הנובעת באופן ישיר מהחלת הפעולה התכנונית עליהם — ולא על עליית שווי הנובעת מגורמים אחרים."
|
||||
c495b9be-4ee8-4585-b028-6854f9ce9f1c,1,accepted,0.9524,"הוספתי את אפיון התיקון כ""אקט מתקן שאינו פרסום חדש"" — מרכיב העולה מפורשות מהנימוק והציטוט-התומך — וחידדתי את הרגיסטר; הסייגים והמסקנות נותרו מעוגנים במקור.","הודעה בדבר תיקון טעות סופר בתכנית אינה מבטלת ואינה גורעת מתוקפה של ההודעה המקורית על אישור התכנית, ואינה מבטלת את תוקף התכנית עצמה; ככל שהיא רק מאזכרת את הפרסום הקודם, אין בה כדי לדחות את המועד הקובע.","הודעה על תיקון טעות סופר בתכנית היא אקט מתקן בלבד ואין בה משום פרסום חדש של אישור התכנית; היא אינה מבטלת ואינה גורעת מתוקף ההודעה המקורית על אישור התכנית ואף לא מתוקף התכנית עצמה, וככל שהיא רק מאזכרת את הפרסום הקודם אין בה כדי לדחות את המועד הקובע."
|
||||
2ae64fb2-81b5-41d3-9061-f9744048876c,1,accepted,0.8438,"הוסרה הסיפא בדבר תכנית מתאר ארצית שאינה מעוגנת בציטוט; נותר הגרעין המעוגן — כפיפות מתקן התשתית לתב""ע ואי-תחליפיות של מסמך סביבתי-בריאותי.","הקמת מתקן תשתית כפופה להוראות התכנית המקומית (התב""ע), ותכנית מתאר ארצית החלה אינה פוטרת מן הצורך בהתאמה להוראות התב""ע מקום שזו נדרשת.","הקמת מתקן תשתית כפופה להוראות התכנית המקומית (התב""ע), ואין במסמך סביבתי-בריאותי כדי לפטור מן ההתאמה להוראות התב""ע."
|
||||
1bc5a9bf-b0fb-4cc4-b2b9-d6d32ead2679,1,accepted,0.8543,"הוסר אופי הסיכום וצומצם הניסוח למשפט קנוני אחד נקי, תוך שמירה מלאה על העיקרון מהציטוט-התומך (סדר ייחוס הזכויות לפטור תחילה).","בעת חישוב היטל ההשבחה בפרויקט תמ""א 38 רואים בשלב הראשון את כל הזכויות כמנוצלות מכוח התמ""א (הפטורות), ורק זכויות עודפות מעבר לכך ייוחסו לתכנון הקיים החייב בהיטל.","בחישוב היטל השבחה בפרויקט תמ""א 38, בשלב הראשון רואים את מלוא הזכויות כמנוצלות מכוח התמ""א הפטורה, ורק זכויות עודפות מעבר לכך מיוחסות לתכנון הקיים החייב בהיטל."
|
||||
56ae6e2d-5623-442f-b0fc-897bab0bebe5,1,accepted,0.9055,זוקק וקוצר: הובהר שהעתקת הנטל פועלת ביחסים החוזיים בלבד (כעולה מהנימוק והציטוט) והוסר הסיפא העודפת על 'סטיית ההסכם מהדין' שאינה נדרשת לעיקרון הכללי.,"זהות החייב בהיטל השבחה נקבעת על פי החוק ואינה ניתנת לשינוי בהסכם בין הצדדים; הסכם המעתיק את נטל התשלום מן הבעלים החייב על פי דין אל צד אחר אינו משפיע על סמכות גורמי הרשות המקומית להטיל את ההיטל על החייב בו מכוח החוק, ומשהוטל החיוב על מי שאינו החייב לפי דין — סטה ההסכם מהוראות הדין.",זהות החייב בהיטל השבחה נקבעת על פי דין ואינה ניתנת לשינוי בהסכם בין הצדדים; הסכם המעתיק את נטל התשלום אל צד אחר מחייב ביחסים החוזיים בלבד ואינו גורע מסמכות הרשות להטיל את ההיטל על החייב בו מכוח החוק.
|
||||
00a587be-d0d3-433c-bb0a-0403dd5ce34a,1,accepted,0.9126,"ניסוח הודק לרגיסטר קנוני אחיד וסילוק הכפילות הדקדוקית, ללא הוספת דין שאינו עולה מהמקור.","פגם פרוצדורלי בהליך תכנוני שהוא תקלה טכנית בלבד ואינו פגם מהותי ניתן להחלת דוקטרינת הבטלות היחסית (דוקטרינת התוצאה היחסית), המאפשרת להימנע מביטול ההליך חרף הפגם.","פגם פרוצדורלי בהליך תכנוני שהוא תקלה טכנית בלבד ואינו פגם מהותי, מצדיק החלת דוקטרינת הבטלות היחסית (התוצאה היחסית) ומאפשר להימנע מביטול ההליך חרף הפגם."
|
||||
a9be7842-eaf6-4fca-941d-0d72936dbf70,1,accepted,0.8585,"זוקק לליבת העיקרון המעוגנת בציטוט (תנאי 'הדבר מה נוסף' + שלילת ההקניה האוטומטית); הוסר הזנב הטיעוני 'וטענה הפוכה נוגדת את הדין ואת פסיקת בתי המשפט' שאינו עולה מהמקור, וכן ההקשר הספציפי 'בפני ועדת הערר'.","הקניית מעמד של 'עורר ציבורי' מותנית בכך שהעורר יצביע על פגם מהותי בשלטון החוק העולה כדי 'דבר מה נוסף'; עצם העלאת טענה לפגיעה בחוקיות בפני ועדת הערר אינה מקנה כשלעצמה מעמד ציבורי, וטענה הפוכה נוגדת את הדין ואת פסיקת בתי המשפט.",מעמד של 'עורר ציבורי' מותנה בהצבעה על פגם מהותי בשלטון החוק העולה כדי 'דבר מה נוסף'; עצם העלאת טענה לפגיעה בחוקיות אינה מקנה כשלעצמה מעמד ציבורי.
|
||||
aedf265b-750b-4f74-84ac-cb02d4240126,1,abstained,,no change proposed,"בהיעדר תכנית כוללת שהוכנה בהתאם לדרישת תכנית מחוזית, ייעוד הקרקע נקבע על-פי התכנית המקומית החלה עליה, ולא על-פי הייעוד הנקוב בתכנית המחוזית.","בהיעדר תכנית כוללת שהוכנה בהתאם לדרישת תכנית מחוזית, ייעוד הקרקע נקבע על-פי התכנית המקומית החלה עליה, ולא על-פי הייעוד הנקוב בתכנית המחוזית."
|
||||
2522e80a-d953-46c9-8d66-067c8d6df1c2,1,drift_rejected,0.7697,drift 0.770 < floor 0.8,"אין לקבל ניסיון של בעל דין להבחין בין תקדים החל עליו לבין המקרה הנדון, מקום שההבחנה נשענת על טענה העומדת בסתירה לעמדה שאותו בעל דין עצמו טען בהליך הקודם.","בעל דין אינו רשאי להבחין בין תקדים החל עליו לבין עניינו, כאשר ההבחנה נשענת על טענה הסותרת את העמדה שטען אותו בעל דין עצמו בהליך הקודם."
|
||||
2a6fbc99-6c4f-4708-a404-4da36876466c,1,accepted,0.9109,"שמרתי את העיקרון המעוגן בציטוט (היררכיה מן הכללי אל המפורט והיתר הנסמך על תכנון מפורט במשבצת) ואת ההפניה הכללית לסעיף 145(ז), אך הסרתי את פירוט תוכן הסעיף ואת תאריך 1.1.96 שאינם עולים מהציטוט-התומך.","מערכת התכנון בנויה כהיררכיה של הסדרים ההולכים מן הכללי אל המפורט, ומתן היתר בנייה מחייב קיומה של תכנית מפורטת בדרגת פירוט סבירה לגבי המקרקעין נשוא ההיתר; דרישה זו קיבלה ביטוי סטטוטורי בסעיף 145(ז) לחוק התכנון והבניה, המתנה מתן היתר מכוח תכנית שהופקדה לאחר 1.1.96 באישור תכנית הקובעת הוראות בדבר פירוט ייעודי הקרקע, חלוקה למגרשים, קווי בניין, מספר קומות או גובה ושטחי בנייה מותרים.","מערכת התכנון בנויה כהיררכיה של הסדרי תכנון ההולכים מן הכללי אל המפורט ומסתיימים במתן היתר לביצוע עבודות הנסמך על התכנון המפורט במשבצת הקרקע; מכאן שמתן היתר בנייה מחייב קיומה של תכנית מפורטת בדרגת פירוט סבירה לגבי המקרקעין נושא ההיתר, דרישה שקיבלה עיגון סטטוטורי בסעיף 145(ז) לחוק התכנון והבניה."
|
||||
801ca0a5-62da-4af7-9081-412c72dbc678,1,accepted,0.874,חידוד ניסוח בלבד — הובהר שהבכורה של התשריט היא ביחס לפרשנות תקנונית סותרת; שני היסודות מעוגנים בציטוט ובנימוק.,אין לפרש את הוראות תקנון התכנית בסתירה לתשריט ולייעודי הקרקע הקבועים בה; התשריט וייעודי הקרקע שנקבעו בו גוברים בקביעת תכליתם של המקרקעין.,אין לפרש את הוראות תקנון התכנית בסתירה לתשריט ולייעודי הקרקע הקבועים בה; בקביעת תכליתם של המקרקעין גוברים התשריט וייעודי הקרקע שנקבעו בו על פרשנות תקנונית הסותרת אותם.
|
||||
eb6f7341-2b60-49c5-a14c-ed2000423994,1,accepted,0.9344,"הניסוח הודק לרצף לוגי אחד וזוקק לכלל פרשני כללי ('בהיעדר ניסוח מפורש'), תוך שמירה מלאה על העיגון בציטוט-התומך וללא הוספת דין.","'מניעה לפי דין' היא עילה הקבועה בדין ואינה עניין הנתון לשיקול דעתה של הרשות; שיקולים שבשיקול דעת, כגון שיקולי תכנון, אינם שקולים למניעה לפי דין ואינם מקימים אותה. אילו ביקש מתקין התקנות להחריג מקרים שבשיקול דעת היה קובע זאת במפורש.","'מניעה לפי דין' היא עילה הקבועה בדין ואינה נתונה לשיקול דעתה של הרשות; שיקולים שבשיקול דעת, ובכללם שיקולי תכנון, אינם שקולים למניעה לפי דין ואינם מקימים אותה, ובהיעדר ניסוח מפורש של חריג שבשיקול דעת אין להניח שמתקין התקנות התכוון להחריגם."
|
||||
98e8702c-958f-47c0-a483-8acccb26699c,1,accepted,0.9299,סדר-המשפט הומר כך שעיקרון-הסמכות עומד בראש והעיגון הכפול מובא כנימוק נלווה; התוכן זהה לציטוט-התומך ללא תוספת דין.,"ועדת הערר, הן מכוח סמכותה להיכנס בנעלי הוועדה המקומית והן כמוסד תכנון הניצב בהיררכיה גבוהה יותר מן הוועדה המקומית, מוסמכת להנחות את הוועדה המקומית באשר לאופן הפעלת שיקול דעתה בעת שתידון בפניה בקשה להיתר עתידית.","ועדת הערר מוסמכת להנחות את הוועדה המקומית באשר לאופן הפעלת שיקול דעתה בבקשה להיתר עתידית, וזאת הן מכוח סמכותה להיכנס בנעלי הוועדה המקומית והן ממעמדה כמוסד תכנון הניצב בהיררכיה גבוהה ממנה."
|
||||
fd5093f7-780f-441e-b258-f5df28c98b5c,1,accepted,0.944,הניסוח הודק והוסר הכפל ('הניתן לבעל זכויות... נתון לבעל הזכויות'); הליבה והעיגון בציטוט נשמרו ללא הוספת דין או סייג.,"הפטור מהיטל השבחה הניתן לבעל זכויות במקרקעין בגין דירת מגורים אינו מוגבל בהיקפו לפי שטח המקרקעין, ובהיעדר הגדרה מצמצמת בחוק יש להעדיף את הפרשנות שלפיה הפטור נתון לבעל הזכויות יהא שטח המקרקעין אשר יהא.","הפטור מהיטל השבחה בגין דירת מגורים אינו מוגבל בהיקפו לפי שטח המקרקעין, ובהיעדר הוראה מצמצמת בחוק יש להעדיף את הפרשנות שלפיה הפטור נתון לבעל הזכויות במקרקעין יהא שטח המקרקעין אשר יהא."
|
||||
ca990277-7bb5-4924-8769-cf69074fd653,1,accepted,0.8625,"נוסף הטעם המצטבר השני (התנהלות הוועדה המקומית כלפי בעלי הזכויות) המופיע במפורש בציטוט-התומך אך הושמט בניסוח הקיים, והוסר פרט-המקרה הספציפי (התייחסות מפורשת למועד) כדי להכליל.","שתי תכניות נפרדות העומדות כל אחת בפני עצמה — תכנית מקפיאה ותכנית משחררת — עשויות להיראות כתכנית אחת לצורך בחינת פיצויים לפי סעיף 197, מקום שמתקיים ביניהן קשר תכנוני הדוק (""רצף תכנוני""), כגון כאשר התכנית המקפיאה מתייחסת במפורש לתכנית המשחררת הצפויה ולמועדה, ובכך מלמדת שהיא הייתה מלכתחילה תכנית זמנית שנועדה להקפיא מצב קיים עד לביצוע התכנית המשחררת.","שתי תכניות נפרדות — תכנית מקפיאה ותכנית משחררת — עשויות להיחשב כתכנית אחת לצורך בחינת הפגיעה והפיצויים לפי סעיף 197 לחוק התכנון והבניה, מקום שמתקיימים שני טעמים מצטברים ושלובים: זיקה תכנונית הדוקה בין התכניות (""רצף תכנוני""), המלמדת שהתכנית המקפיאה נועדה להקפיא מצב קיים עד לאישור התכנית המשחררת כשלב במהלך תכנוני אחד; והתנהלות הוועדה המקומית ביחסיה עם בעלי הזכויות במקרקעין."
|
||||
|
62
docs/anti-hallucination-gate.md
Normal file
62
docs/anti-hallucination-gate.md
Normal file
@@ -0,0 +1,62 @@
|
||||
# שער anti-hallucination — הגנה משותפת מפני הזיות (INV-AH)
|
||||
|
||||
> **מקור-אמת אחד לכל הסוכנים.** כל סוכן נוגע-מהות מפנה לכאן (דרך [HEARTBEAT.md](.claude/agents/HEARTBEAT.md)
|
||||
> ובלוק "קרא לפני פעולה" שלו). אל תשכפל את הכללים בקובץ-סוכן — הפנה לכאן (G2 — בלי מסלולים מקבילים).
|
||||
> זהו המקבילה התוכנית ל-INV-AG1 (קריאת-ספ): כמו שאינך פועל "מהזיכרון" לגבי התנהגות-המערכת, אינך
|
||||
> מצטט פסיקה/חוק/הלכה/מספר "מהזיכרון".
|
||||
|
||||
## למה זה קיים
|
||||
כלי-AI משפטיים מובילים (Lexis+ AI, Westlaw) **הוזים פסיקה ב-17%–33%** גם עם RAG — זו לא בעיה
|
||||
שנעלמת מעצמה ("RAG ≠ hallucination-free"). בתחום מעין-שיפוטי, ציטוט-שווא של פסק-דין/סעיף/הלכה הוא
|
||||
כשל קריטי הניתן לביקורת שיפוטית. חמש הטכניקות למטה הן הקונצנזוס המקצועי להפחתת הזיות, מותאם לתחום.
|
||||
|
||||
---
|
||||
|
||||
## חמש הטכניקות הקשיחות (חלות על כל סוכן נוגע-מהות)
|
||||
|
||||
**AH-1 · עיגון-מקור (grounding) — אפס ציטוט מהזיכרון.**
|
||||
כל אזכור של פסק-דין / מספר-תיק / סעיף-חוק / הלכה / מקדם / "מתודה שמאית" / נתון כמותי חייב לבוא
|
||||
ממקור מאומת: **תוצאת כלי-אחזור** (`search_precedent_library`, `search_internal_decisions`,
|
||||
`search_case_documents`, `search_decisions`, `find_similar_cases`, `precedent_library_get`,
|
||||
`halacha_review`) **או מסמך בתיק**. אם לא הרצת חיפוש/לא קראת מסמך — אין לך את הפריט. *(Stanford RegLab / Magesh et al., JELS 2025; Anthropic — ground in retrieved sources.)*
|
||||
|
||||
**AH-2 · Quote-or-retract.**
|
||||
לכל אזכור-מקור צרף את הציטוט/מזהה המדויק שהמקור החזיר (`supporting_quote`/headnote/ציטוט מהמסמך).
|
||||
**אין ציטוט מאשר → הסר את האזכור.** *(Anthropic — retract if no supporting quote; RAGAS faithfulness — כל טענה חייבת להיות נתמכת ב-context.)*
|
||||
|
||||
**AH-3 · Abstention — "לא יודע" עדיף על המצאה.**
|
||||
לא נמצא מקור? כתוב מפורשות **"לא נמצא בקורפוס/בתיק — דורש אימות חיצוני"**. אסור לסגור פער בהשערה
|
||||
שנכתבת כעובדה. *(Anthropic — give the model an out.)*
|
||||
|
||||
**AH-4 · תיוג-ודאות.** סמן כל טענה לא-טריוויאלית:
|
||||
`[מאומת]` (מקור+ציטוט) · `[טעון-אימות]` (סביר/עולה מהמסמכים, אך לא אותר מקור מאשר) · `[ספקולציה]`
|
||||
(השערה אנליטית — מותרת רק כשאלה/הסתייגות, לא כקביעה). *(NIST AI RMF GenAI Profile — explainability/קליברציה; RAGAS — atomic-claim grounding.)*
|
||||
|
||||
**AH-5 · Chain-of-Verification (CoVe) — מעבר-אימות לפני סיום.**
|
||||
אחרי הטיוטה, פרק כל טענה עובדתית/אזכור לרשימה, ולכל אחת שאל "מאיזה מקור מאומת זה מגיע?".
|
||||
כל מה שאין לו עוגן — **הסר או הורד ל-`[ספקולציה]`**. *(Chain-of-Verification — Dhuliawala et al., arXiv:2309.11495, 2023.)*
|
||||
|
||||
> **ההבחנה שמכריעה הכל — "פער" מותר, "המצאה" אסורה:**
|
||||
> ✅ "אזכרתי את X — חיפשתי ולא מצאתי בקורפוס; דורש אימות." (פער לגיטימי) ·
|
||||
> ❌ "הנה תקדים Y רלוונטי" כש-Y לא הגיע מכלי-אחזור. (המצאה)
|
||||
|
||||
---
|
||||
|
||||
## יישום לפי תפקיד
|
||||
| סוכן | איך השער חל |
|
||||
|------|-------------|
|
||||
| **analyst / researcher** | מייצרי-מהות — עיגון-קורפוס מלא, log שאילתות + negative evidence, "מקור: כתבי טענות → דורש אימות". (כבר נהוג; כעת אחיד ומעוגן-מקור.) |
|
||||
| **writer** | **צרכן read-only** של פלט-המנתח המעוגן. **אסור** להוסיף פסיקה/סעיף/הלכה שלא הגיעו מהמנתח/הקורפוס. ציטוט בהחלטה = רק מ-`supporting_quote` מאומת. |
|
||||
| **qa** | **אוכף** את AH-1…AH-5 כשער-איכות: כל אזכור בטיוטה — האם מאומת-מקור? אם לא — `needs_revision`. |
|
||||
| **ceo** | מנתב ומסכם — לא ממציא מקורות; אם מצטט, מצטט ממה שהסוכנים אימתו. |
|
||||
| **proofreader** | תיקון-OCR בלבד — **אל "תתקן" לכיוון מונח משפטי סביר** (שם-תקדים/מספר-תיק/סכום): שמר את לשון-המקור; ספק → סמן, לא "תקן". |
|
||||
| **exporter** | מכני (DOCX) — אפס מהות חדשה. |
|
||||
| **hermes-curator** | הצעות בלבד (G10) — מעוגן-מקור, לא מזין שכבת-קול עם מהות (INV-LRN5). |
|
||||
| **שטן מליץ (Gemini)** | מימוש-הייחוס המלא של השער (`legal-analyst-gemini-critique.md`) — לידים-לא-הכרעות ליו"ר (human-in-the-loop, NIST). |
|
||||
|
||||
## מקורות מקצועיים
|
||||
1. Magesh, Surani, Dahl, Suzgun, Manning, Ho — *Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools*, J. Empirical Legal Studies (2025), Stanford RegLab/HAI — שיעורי-הזיה 17–33% גם עם RAG.
|
||||
2. Anthropic — *Reduce hallucinations* (docs.anthropic.com): allow "I don't know" · cite quotes/sources · retract-if-no-quote · chain-of-thought.
|
||||
3. Dhuliawala et al. — *Chain-of-Verification Reduces Hallucination in LLMs*, arXiv:2309.11495 (2023).
|
||||
4. Es et al. — *RAGAS: Automated Evaluation of RAG*, arXiv:2309.15217 — faithfulness = יחס הטענות הנתמכות-בקונטקסט.
|
||||
5. NIST — *AI RMF: Generative AI Profile* (NIST-AI-600-1, 2024) — human-in-the-loop oversight ב-high-stakes.
|
||||
@@ -320,10 +320,25 @@ Conclusion → Rule → Explanation → Application → Conclusion.
|
||||
**Content model:**
|
||||
- Types: narrative, citation-block
|
||||
- Elements: section-heading, numbered-para, blockquote (ציטוט מהוראות תכנית)
|
||||
- Sources: הוראות תכנית (PDF), נספחי בינוי, החלטות מרכזות
|
||||
- Sources: הוראות תכנית (PDF), נספחי בינוי, החלטות מרכזות, **מרשם-התכניות** (טבלת `plans` — זהות+תוקף קנוניים, מאושרי-יו"ר; ראה להלן)
|
||||
|
||||
**משפט-ציטוט-תכנית (קנוני — נוסח דפנה):**
|
||||
לכל תכנית, חלק **הזהות והתוקף** נכתב בנוסח אחיד ודטרמיניסטי הנגזר ממרשם-התכניות
|
||||
(`db.format_plan_citation`), כך שתאריך-הפרסום ומספר-הילקוט לעולם אינם מנוסחים מחדש
|
||||
(ובכך גם לא מהוזים — INV-AH). התבנית (רשומות בלבד; חלקים בסוגריים = לפי-זמינות):
|
||||
|
||||
> `{שם-התכנית} פורסמה למתן תוקף ברשומות ביום {D.M.YYYY}[, י"פ {מס'}][ — {ייעוד}].`
|
||||
|
||||
דוגמאות-אמת מהקורפוס: *"תכנית מי/820 פורסמה למתן תוקף ביום 9.8.2001 — משנה את הוראות
|
||||
תכנית מי/200…"* · *"תכנית הל/435 פורסמה למתן תוקף ביום 8.11.2007…"*. הניתוח התכנוני
|
||||
(ייעוד, פרשנות) מנוסח בסגנון דפנה; **תאריך-התוקף ומספר-הילקוט — מהמרשם, ככתבם.**
|
||||
תכנית שזוהתה בתיק אך **חסרה במרשם או טרם אושרה** מוזכרת בלי תאריך-תוקף (לא מנחשים).
|
||||
המרשם מוזן ע"י `extract_plans` / `backfill_plans_registry.py`, ונכנס לשימוש רק
|
||||
אחרי אישור-יו"ר (`plan_review`, review_status=approved — G10).
|
||||
|
||||
**Constraints:**
|
||||
- MUST: ציטוט ישיר מהוראות תכנית עם הדגשת (bold) מילים מכריעות
|
||||
- MUST: לזהות+תוקף של תכנית — להשתמש במשפט-הציטוט הקנוני מהמרשם (לעיל); אסור להמציא תאריך-פרסום/מס'-ילקוט
|
||||
- MUST NOT: ניתוח מעמיק (→ block-yod), הכרעה בין פרשנויות
|
||||
- Dependencies: block-chet (מספור), block-vav (הגדרות תכניות)
|
||||
- Condition: **אופציונלי** — רק כשיש מורכבות תכנונית (תכניות סותרות, תמ"א 38 + שימור, פרשנות)
|
||||
|
||||
70
docs/corpus-graph.md
Normal file
70
docs/corpus-graph.md
Normal file
@@ -0,0 +1,70 @@
|
||||
# מפת הקורפוס — גרף ציטוטים אינטראקטיבי (`/graph`)
|
||||
|
||||
תצוגת‑רשת אינטראקטיבית של קורפוס הפסיקה, בסגנון Obsidian Graph View, **מוטמעת נייטיב ב‑web‑ui**. כל פריט הוא נקודה, קישורים הם קווים, וגודל הנקודה משקף חשיבות — כך שאפשר להתמקד בנושא ולראות מה קשור אליו.
|
||||
|
||||
## למה נייטיב ולא Obsidian (G2)
|
||||
|
||||
הרעיון המקורי היה לייצא את הקורפוס ל‑Obsidian vault. **נדחה** — vault הוא **עותק מקביל של הקורפוס שמתיישן**, בדיוק כשל‑השורש ש‑[G2](spec/00-constitution.md) (מקור‑אמת יחיד, ללא מסלול מקביל) בא לייבש. הגרף הנייטיב קורא את ה‑DB החי → **אפס drift**, ומתחבר לדפים הקיימים (`/precedents`, `/missing-precedents`, `/digests`).
|
||||
|
||||
**התובנה המאפשרת:** כל קשתות הגרף כבר היו קיימות בטבלאות — הגרף רק חושף אותן. הוא **projection קריא‑בלבד** (SELECT בלבד), ולכן אינו יכול לסטות מהמקור. הוא **אינו מסלול אחזור** ([03-retrieval](spec/03-retrieval.md)) — מחזיר טופולוגיה (nodes+edges+מטריקות), לא תוצאות חיפוש מדורגות.
|
||||
|
||||
## שכבות (כולן opt‑in דרך toggles, מלבד הבסיס)
|
||||
|
||||
| שכבה | נקודות | קשתות | מקור הדאטה |
|
||||
|------|--------|-------|------------|
|
||||
| **בסיס** | פסיקה (`cl:`) · נושא (`tag:`) · תחום (`pa:`) | `cites` · `same_chain` · `tagged` · `in_area` | `case_law`, `precedent_internal_citations`, `case_law_relations`, `subject_tags` |
|
||||
| **הלכות** | הלכה (`hal:`) | `extracted_from` · `corroborates` · `equivalent` | `halachot`, `halacha_citation_corroboration`, `equivalent_halachot` |
|
||||
| **חוסרי מחקר** | gap (`gap:`) — חלול/מקווקו | `cites` (פסיקה→gap) | `precedent_internal_citations` (cited_case_law_id IS NULL) + העשרה מ‑`missing_precedents` |
|
||||
| **יומונים** | יומון (`dig:`) — טורקיז | `covers` (יומון→פסיקה/gap) | `digests` |
|
||||
|
||||
**גודל נקודה** = חשיבות: ציטוטים נכנסים (פסיקה), אזכורים (הלכה), מספר מצטטים (gap). **צבע** (color‑by, ברירת‑מחדל "סוג"): סוג · תחום · דרגת‑סמכות · **אשכול** (community) · עדכניות.
|
||||
|
||||
## אנליטיקה (Graph Analysis)
|
||||
|
||||
`metrics=true` מפעיל חישוב **in‑memory** (ללא DB) ב‑[`web/graph_metrics.py`](../web/graph_metrics.py) — pure, ללא תלויות (אין networkx):
|
||||
- **PageRank** (power‑iteration) — השפעה גלובלית.
|
||||
- **Betweenness** (Brandes) — "גשריות" (פסיקות שמחברות אשכולות).
|
||||
- **Community** (label‑propagation דטרמיניסטי + fallback ל‑connected‑components) — אשכולות תמטיים.
|
||||
|
||||
מחושב על **תת‑גרף הפסיקות בלבד** (cites/same_chain) — קשתות hub/gap/digest/halacha מוחרגות. ב‑UI: בוררי "צביעה לפי" / "גודל לפי" + פאנל דירוג ("המשפיעות" / "גשרים").
|
||||
|
||||
## ניווט וחוויה
|
||||
|
||||
- **Deep‑link** `/graph?focus=cl:<id>` — לינק שיתופי; כפתור **"הצג בגרף"** בכל דף פסיקה.
|
||||
- **Local graph** — לחיצה על נקודה → התמקדות בשכניה (BFS, סליידר עומק 1–3).
|
||||
- **ייצוא PNG** · פאנל עשיר (headnote/summary) · מקרא נקודות+קשתות · סינון מטא‑דאטה (בית‑משפט/דרגה/יו״ר/מחוז/שנים).
|
||||
|
||||
## API
|
||||
|
||||
קריאה‑בלבד, `response_model` מפורש (UI2). מוגדר ב‑[`web/app.py`](../web/app.py) (~`/api/graph/*`), לוגיקה ב‑[`web/graph_api.py`](../web/graph_api.py):
|
||||
|
||||
| endpoint | תיאור |
|
||||
|----------|-------|
|
||||
| `GET /api/graph/corpus` | הגרף המלא. params: `node_types` (csv), `metrics`, `practice_area`/`source`/`court`/`precedent_level`/`chair`/`district`/`year_from`/`year_to`, `min_citations`, `q`, `limit` (cap 400, max 1500) |
|
||||
| `GET /api/graph/node/{id}/neighborhood` | Local graph: צומת + שכנים בעומק 1–3 |
|
||||
| `GET /api/graph/facets` | ערכי סינון ייחודיים (courts/levels/chairs/districts) |
|
||||
|
||||
## קבצים
|
||||
|
||||
- **Backend:** [`web/graph_api.py`](../web/graph_api.py) (הרכבת nodes/edges, helpers `_edges_and_hubs`/`_gap_nodes_and_edges`/`_digest_nodes_and_edges`/`_halacha_nodes_and_edges`) · [`web/graph_metrics.py`](../web/graph_metrics.py) (מטריקות) · endpoints ב‑[`web/app.py`](../web/app.py).
|
||||
- **Frontend:** [`web-ui/src/app/graph/page.tsx`](../web-ui/src/app/graph/page.tsx) · [`web-ui/src/components/graph/`](../web-ui/src/components/graph/) (`graph-view` orchestrator · `graph-canvas` ציור react‑force‑graph‑2d · `graph-filter-panel` · `graph-node-panel`) · hooks ב‑[`web-ui/src/lib/api/graph.ts`](../web-ui/src/lib/api/graph.ts).
|
||||
|
||||
## איך מוסיפים שכבה חדשה
|
||||
|
||||
1. הוסף ערך ל‑`VALID_NODE_TYPES` ב‑`graph_api.py` (לא ל‑`DEFAULT_NODE_TYPES` אם רוצים שיהיה כבוי).
|
||||
2. כתוב `_X_nodes_and_edges(conn, prec_ids)` — SELECT בלבד; חבר nodes לפסיקות שבתצוגה.
|
||||
3. חבר בשתי פונקציות הבנייה (`build_corpus_graph` + `build_node_neighborhood`) מאחורי `if "X" in types`.
|
||||
4. **dangling‑edge invariant:** כל קשת — שני קצותיה חייבים להיות nodes בתצוגה (סנן מול `prec_ids`/קבוצת ה‑ids).
|
||||
5. Frontend: toggle ב‑`graph-filter-panel` · צבע/רינדור ב‑`graph-canvas` (`NODE_COLORS`/`colorForNode`/`linkColor`) · ענף בפאנל ב‑`graph-node-panel`.
|
||||
6. אם גדל מודל התגובה — אחרי deploy: `cd web-ui && npm run api:types`.
|
||||
|
||||
## Invariants
|
||||
|
||||
- **G2** — projection קריא‑בלבד דרך `db.get_pool()`; אפס כתיבות; מטריקות in‑memory. ללא store מקביל.
|
||||
- **G5** — כל פילטר server‑side, parameterized.
|
||||
- **UI2** — `response_model` מפורש בכל endpoint; **UI4** — שגיאות UI מוצגות, לא נבלעות.
|
||||
- **טופולוגיה ≠ אחזור** — מבנה הקורפוס, לא תוצאות חיפוש.
|
||||
|
||||
## היסטוריית מימוש
|
||||
|
||||
PR #113 (בסיס) · #118 (תיקון תוויות) · #126 (מטא‑דאטה) · #129 (אנליטיקה) · #131 (gaps) · #132 (יומונים) · #134 (ניווט) · #137 (הלכות) · #139 (api:types).
|
||||
146
docs/ia-audit-redesign.md
Normal file
146
docs/ia-audit-redesign.md
Normal file
@@ -0,0 +1,146 @@
|
||||
# IA-Audit & Redesign — מפת משטח-ההפעלה, כפילויות, וניווט-יעד
|
||||
|
||||
> **מה זה.** אבחון שיטתי של **משטח-ההפעלה** של המערכת (כל דף/טאב/drawer/פונקציה) — מה כל אחד עושה, מה כפול, מה מת, מה מציג נתון שגוי, ואיך הכול מסתנכרן — ו**תכנון-מחדש** של ארכיטקטורת-המידע (IA). נכתב לפי בקשת חיים (2026-06-11): *"המערכת מסובכת מדי לתפעול… כל הדפים האלה מפוזרים ואין לי מושג מה כל אחד עושה והאם יש כפילויות."*
|
||||
>
|
||||
> **היקף:** משטח-ההפעלה (1א). ה-backend נכלל רק היכן שהוא גורם לכפילות/נתון-שגוי ב-UI. תוצר-אחות: ספ-היעד [`docs/spec/X17-information-architecture.md`](spec/X17-information-architecture.md). יוזמה: TaskMaster `legal-ai` **#127**.
|
||||
>
|
||||
> **איך הופק:** סריקת-עומק רב-סוכנית (18 סוכנים, 6 אשכולות × 3 שלבים — קטלוג → אימות-אדוורסרי מול הקוד → תכנון-יעד מגובה-מקורות). כל ממצא אומת ב-`file:line`; כל עקרון-תכנון מגובה ב-≥3 מקורות סמכותיים (ראה [X17 §מקורות](spec/X17-information-architecture.md)).
|
||||
|
||||
## יחס למסמכים קיימים (דאבל-צ'ק — לא לכפול)
|
||||
- **[`ui-audit.md`](spec/ui-audit.md)** — ביקורת-קוד פר-רכיב (enums כפולים, טיפוסים, helpers → FU-10). **שכבה אחרת.** מסמך זה הוא בשכבת ה-**IA/הפעלה** (אילו משטחים, מה כל אחד עושה, סנכרון, ניווט). חופף נקודתית ב-UI-C1 (3 דפי-פסיקה חופפים) ו-UI-D2/D3 (שקיפות-מקור) — מורחב כאן.
|
||||
- **[`gap-audit.md`](spec/gap-audit.md)** — ממצאי-ארכיטקטורה (GAP→FU). מסמך זה ברמת-הדף.
|
||||
- **[`X6-ui-api-contract.md`](spec/X6-ui-api-contract.md)** — חוזה UI↔API (UI1–UI6). X17 מוסיף שכבת invariants מעל X6.
|
||||
|
||||
---
|
||||
|
||||
## 1. תקציר-מנהלים — 5 מחלות-השורש
|
||||
|
||||
הסריקה אימתה **37 ממצאים** על פני 34 משטחים. כולם נופלים ל-5 דפוסים:
|
||||
|
||||
| # | מחלת-שורש | כמה | מהות |
|
||||
|---|-----------|-----|------|
|
||||
| **D1** | **פערי-סנכרון ב-cache** | 16 | mutation מבטל רק את ה-queryKey המקומי, לא את ה-aggregator/האח/ה-namespace השני → מונה/נתון תקוע ב-0–60ש' בין דפים. זהו G2 בשכבת ה-TanStack-Query cache. |
|
||||
| **D2** | **משטחי-כתיבה/אישור כפולים** | 6 (dup) + 2 confusing | אותו datum נערך/מאושר ב-2 מקומות שכותבים ל-2 ערוצים. החריף: **שני שערי-למידה** (decision_lessons מול promote) ו-**מתודולוגיה** (PUT מול promote כותבים לאותה שורה — מירוץ lost-update). זו בדיוק ה"למה 2 שערים" של חיים. |
|
||||
| **D3** | **נתונים-שגויים/מטעים** | 6 | KPI סופר דגל אינפורמטיבי-בלבד (`applied_to_skill`/`findings_applied` — "מזויף"); `signature_phrases` עם תווית-קרדינליות שקרית; מונה-תור שמתעלם מחברה לא-זמינה. |
|
||||
| **D4** | **משטחים/פונקציות מתים** | 5 | endpoint `queue/pending` ללא צרכן; כפתור `applied_to_skill`; ז'רגון `T7/T15`; `AuthorityBadge` חסר בחיפוש. |
|
||||
| **D5** | **כפילות-ניווט** | — | הערות-יו"ר ב-2 דפים; `/operations`+`/diagnostics` אותו intent; `precedents` מול `precedent-library`. |
|
||||
|
||||
**התובנה המאחדת:** רוב המחלות הן ביטוי-UI אחד של עקרון-על מופר — **G2 (מקור-אמת יחיד / אין מסלולים מקבילים)** — שמעולם לא הורחב לשכבת-ה-UI (cache + משטחים). זה בדיוק מה שחיים חווה כ"מסובך לתפעול": אותו מספר בשני מקומות, שני שערים לאותה החלטה, ומספרים שלא מתעדכנים.
|
||||
|
||||
### ניווט-היעד (תמצית — מלא ב-X17)
|
||||
שלושה משטחי-**intent** עם בעלים-יחיד, במקום פיזור-לפי-פורמט:
|
||||
1. **`/approvals` = תיבת-ההחלטות-האנושית היחידה** — המקום היחיד שבו פועלים על שער. דפים אחרים **מצביעים** למונה, לא משכפלים אותו.
|
||||
2. **`/operations` = משטח-הקריאה-בלבד היחיד** ("מה המכונה עושה") — בולע את `/diagnostics`.
|
||||
3. **`/settings` = משטח-התצורה היחיד.**
|
||||
ובתוך-התחום: **החלטה=workspace אחד** · **למידה=תיבה+ערוץ+שער אחד** · **`/methodology`=עורך-הכללים היחיד** · **פסיקה=3 קורפוסים נפרדים אך מתפעלים אחיד**.
|
||||
|
||||
> **כל ההצעות שומרות 100% מהשערים-האנושיים (G10/INV-LRN1).** מסירים משטח/ערוץ **כפול**, לא שער. זו ההתאמה בין "פשטות-הפעלה" ל-G10.
|
||||
|
||||
---
|
||||
|
||||
## 2. ממצאים לפי אשכול
|
||||
|
||||
לכל אשכול: משטחים שקוטלגו · ממצאים מאומתים (file:line) · כיוון-היעד. הפירוט המלא (כל אלמנט + כל מקור) נשמר בפלט-הסריקה ([`data/audit/`](../data/audit/)).
|
||||
|
||||
### 2.1 תיקים (`/`, `/archive`, `/cases/[n]`, `/compose`)
|
||||
**3 משטחים · 2 ממצאים.** מחלה: תוכן-ההחלטה מפוצל ל-2 משטחי-כתיבה עצמאיים + עורך-compose שלישי.
|
||||
|
||||
| ID | סוג | ממצא | file:line | תיקון |
|
||||
|----|-----|------|-----------|-------|
|
||||
| CAS-1 | sync-gap | `DraftsPanel` (העלאת DOCX) לא מבטל `['decision-blocks']` → `DecisionBlocksPanel` מציג `source_of_truth='blocks'` תקוע; אזהרת-הסטייה לא מופיעה עד רענון ידני | exports.ts:103-107 מול decision-blocks.ts:46-49; app.py:2673 | add-invalidation |
|
||||
| CAS-2 | sync-gap | `useExportDocx` לא מבטל `['decision-blocks']` — אותו שורש | exports.ts:80-82 | add-invalidation |
|
||||
|
||||
**יעד:** workspace-החלטה אחד (block-editing + DOCX-פעיל) עם **מחוון-מקור-אמת אחד** בבעלות-המערכת ו-cache-slice משותף; אזור "השלמה והעברה" אחד לכל שערי-סיום-התיק.
|
||||
|
||||
### 2.2 אישורים + הערות-יו"ר (`/approvals`, `/feedback`)
|
||||
**3 משטחים · 6 ממצאים.** מחלה: `/api/chair/pending` גוזר 4 מונים, אך כל משטח-משימה מבטל רק את ה-cache שלו ולא את ה-aggregator → התיבה והתג-בסרגל תקועים עד 60ש'.
|
||||
|
||||
| ID | סוג | ממצא | file:line | תיקון |
|
||||
|----|-----|------|-----------|-------|
|
||||
| APR-1 | sync-gap | פתרון הערה ב-`/feedback` לא מבטל `['chair','pending']` → מונה `/approvals` והתג תקועים | feedback.ts:105; chair.ts:36; app-shell.tsx:336 | add-invalidation |
|
||||
| APR-2 | duplication | הערות-יו"ר ב-2 caches (`['feedback']` מול `['chair','pending']`) ללא הצלבה — שני endpoints על אותה `chair_feedback WHERE NOT resolved` | app.py:5650,5654 | add-invalidation |
|
||||
| APR-3 | wrong-data | דגימת-ההערות ב-`/approvals` יכולה להראות 5 ישנות בעוד המונה כבר 0 | app.py:5650-5654; chair.ts:36 | fix-data |
|
||||
| APR-4 | sync-gap | `ApprovalsBadge` בסרגל תקוע אחרי פתרון-הערה/אישור-הלכה/העלאת-פסיקה | app-shell.tsx:336; feedback.ts:105; missing-precedents.ts:256-258; precedent-library.ts:648,668 | add-invalidation |
|
||||
| APR-5 | sync-gap | אישור-הלכה לא מבטל `['chair','pending']` | precedent-library.ts:648,668; app.py:5619-5620 | add-invalidation |
|
||||
| APR-6 | sync-gap | העלאת/סגירת פסיקה-חסרה לא מבטל `['chair','pending']` | missing-precedents.ts:256-258; app.py:5636-5637 | add-invalidation |
|
||||
|
||||
**יעד:** `/approvals` = תיבת-הגייטים הקנונית היחידה; `['chair','pending']` = מקור-אמת יחיד ל"מה ממתין"; התג בסרגל = המונה היחיד; **הערות-יו"ר יורד מהניווט-הראשי** והופך לכרטיס-משימה מתוך התיבה.
|
||||
|
||||
### 2.3 פסיקה (`/precedents`, `/missing-precedents`, `/digests`, `/precedents/[id]`, `/graph`)
|
||||
**13 משטחים · 5 ממצאים.** מחלה: 3 קורפוסים אמיתיים ושונים — אך **מתפעלים שונה** ומבלבלים בשמות.
|
||||
|
||||
| ID | סוג | ממצא | file:line | תיקון |
|
||||
|----|-----|------|-----------|-------|
|
||||
| PRE-1 | confusing | שני namespaces כמעט-זהים: `/api/precedents/search` (typeahead לתיק) מול `/api/precedent-library/search` (חיפוש-קורפוס) | app.py:3109 מול 6057 | clarify (rename/label) |
|
||||
| PRE-2 | dead | `GET /api/precedent-library/queue/pending` — אפס צרכני-frontend (רק digests משתמש ב-queue/pending) | app.py:6282 | delete |
|
||||
| PRE-3 | wrong-data | `AuthorityBadge` (binding/persuasive, DERIVED) מוצג בתור-הביקורת אך **נשמט בחיפוש** | library-search-panel.tsx:26-73 מול halacha-review-panel.tsx:109 | fix-data |
|
||||
| PRE-4 | confusing | תג "ממתין" ב-`/digests` נראה לחיץ אך אינו (ב-`/precedents` הוא טאב-תור אמיתי) | digests/page.tsx:23-35 | clarify |
|
||||
| PRE-5 | dead | `HalachaCard` בחיפוש לא מרנדר authority אף שהשדה על החוט | library-search-panel.tsx:26-73 | fix-data |
|
||||
|
||||
**יעד:** 3 הקורפוסים נשארים נפרדים (גבול אמיתי — G2/INV-DIG1) אך **מתפעלים אחיד**: שם-חיפוש עקבי לכל קורפוס, תבנית-"ממתין" אחת, authority מוצג בכל מקום. מחיקת ה-endpoint המת.
|
||||
|
||||
### 2.4 למידה + סגנון (`/training` — 6 טאבים + CorpusDetailDrawer) ⚠️ האשכול הקריטי
|
||||
**8 משטחים · 10 ממצאים.** מחלה: "לקח" חי ב-2 namespaces ומאושר ב-2 מקומות שכותבים ל-2 ערוצי-כותב; 3 KPI על דגלים-ללא-צרכן.
|
||||
|
||||
| ID | סוג | ממצא | file:line | תיקון |
|
||||
|----|-----|------|-----------|-------|
|
||||
| LRN-1 | sync-gap | כפתור `applied_to_skill` ("אומץ לסקייל") **אינפורמטיבי-בלבד** — לא כותב ל-SKILL.md; היו"ר מאמין שהפעולה הושלמה | lessons-tab.tsx:12-14; app.py:1471-1475 | fix-data (להסיר) |
|
||||
| LRN-2 | confusing | למידה מפוצלת ל-`/api/learning` + `/api/training` לאותה ישות | learning.ts; training.ts; app.py:1448,4616 | clarify (לאחד) |
|
||||
| LRN-3 | confusing | **שני שערי-אישור ללא יחס אכוף** — `promote` מתעלם מ-`review_status` לגמרי | learning-panel.tsx:89-150; lessons-tab.tsx:168-179; app.py:4574 | clarify (שער אחד) |
|
||||
| LRN-4 | wrong-data | `StyleReportPanel`: "12 מתוך 487 שחולצו" — `signature_phrases` ו-`total_patterns` מחושבים עצמאית; אין יחס-תת-קבוצה | style-report-panel.tsx:87-90 | fix-data |
|
||||
| LRN-5 | wrong-data | `findings_applied` ("ממצאים שאומצו ל-SKILL: 42") סופר דגל-אינפורמטיבי → KPI "מזויף" | curator-portrait-panel.tsx:85-86; app.py:1300-1302 | fix-data |
|
||||
| LRN-6 | sync-gap | מחיקת-קורפוס לא מאפסת בחירת `ComparePanel` → submit מחזיר 404 | compare-panel.tsx:119-120; training.ts:172-174 | fix-data |
|
||||
| LRN-7 | keep | `FullTextLazy` ב-raw-fetch מחוץ ל-Query — שביר לעתיד, לא באג חי | corpus-detail-drawer.tsx:320-348 | keep |
|
||||
| LRN-8 | sync-gap | מחיקת-קורפוס מייתמת צ'אטים (`style_corpus_id→NULL`) בשקט, ללא אזהרה | corpus-panel.tsx:45-54; db.py:234 | add-invalidation |
|
||||
| LRN-9 | keep | סינון `PatternsForSubtype` stubbed (אין endpoint) — fallback חינני | corpus-detail-drawer.tsx:351-353 | keep |
|
||||
| LRN-10 | sync-gap | `usePromoteLearning` מבטל רק `learningKeys`, לא `lessonsKeys.forCorpus` → LessonsTab תקוע | learning.ts:104-115; training.ts:499-502 | add-invalidation |
|
||||
|
||||
**יעד:** תיבת-אישור-למידה אחת (מקובצת לפי זוג draft↔final) · **ערוץ-כותב אחד + סטטוס "זורם-לכותב" אחד** (`review_status='approved'`) · **הסרת `applied_to_skill`** (אוצרות SKILL.md = מעשה-git ידני, לא כפתור) · כל artifact תלוי בזוג שלו (progressive disclosure) · תיקון 2 ה-KPI.
|
||||
|
||||
### 2.5 מתודולוגיה (`/methodology` — 5 טאבים)
|
||||
**2 משטחים · 8 ממצאים.** מחלה: כללי-הכותב נערכים מ-2 משטחים שכותבים לאותה שורה `appeal_type_rules(_global, …, 'universal')` — מירוץ lost-update + פער-cache.
|
||||
|
||||
| ID | סוג | ממצא | file:line | תיקון |
|
||||
|----|-----|------|-----------|-------|
|
||||
| MET-1 | sync-gap | `promote` מבטל `['learning']` בלבד; `/methodology` (`['methodology',cat]`, staleTime 30ש') תקוע אחרי אישור | learning.ts:113; methodology.ts:26-28; app.py:4629-4631 | add-invalidation |
|
||||
| MET-2 | duplication | `discussion_rules['universal']` נכתב ב-2 מקומות (PUT מול promote) — כתיבה-שנייה דורסת בשקט | discussion-rules-panel.tsx:35-36; learning-panel.tsx:138-139; app.py:4491-4495,4629; db.py:290 | fix-data |
|
||||
| MET-3 | duplication | `transition_phrases['universal']` — אותו מירוץ | methodology/page.tsx:45-49; learning-panel.tsx:125-129; app.py:4631 | fix-data |
|
||||
| MET-4 | confusing | `universal` מוצג כדלי-תוצאה אח, אך בפועל **מוקדם (prepended)** לכל התוצאות — אין מודל-מנטלי | discussion-rules-panel.tsx:16-22; lessons.py:376-379 | clarify |
|
||||
| MET-5 | dead | ז'רגון `T15`/`T7` בטקסט-העזר — מזהי-משימות פנימיים חסרי-משמעות למפעיל | methodology/page.tsx:48,55 | fix-data |
|
||||
| MET-6 | wrong-data | עורך-צ'קליסטים מציג 5 סוגי-ערר ללא מיפוי איזה `appeal_type` צורך כל אחד | content-checklists-panel.tsx:17-31; app.py:4414 | clarify |
|
||||
| MET-7 | confusing | 3 מושגי-"כלל" מתערבבים (ratios/rules/checklists) ללא מודל-תחולה | methodology/page.tsx:16-19; block_writer.py:912-923 | clarify |
|
||||
| MET-8 | sync-gap | סדר-callbacks ב-promote → toast-הצלחה אחרי invalidation לא-מספק | learning.ts:112-113; learning-panel.tsx:138-143 | add-invalidation |
|
||||
|
||||
**יעד:** `/methodology` = העורך הקנוני **היחיד** (כל כתיבה דרך PUT אחד, עם תג-מקור "ידני/מאומץ-מלמידה"); הלמידה **מנותבת דרכו** (לא כותבת-במקביל) ומבטלת את שני ה-caches; explainer-תחולה inline; קופי בעברית-פשוטה (בלי T7/T15).
|
||||
|
||||
### 2.6 תפעול + אבחון + הגדרות (`/operations`, `/diagnostics`, `/settings`, `/skills`)
|
||||
**5 משטחים · 6 ממצאים.** מחלה: 4 משטחים שמריצים שאילתות-מקור זהות בלי cache משותף + נתונים-מתים/מטעים.
|
||||
|
||||
| ID | סוג | ממצא | file:line | תיקון |
|
||||
|----|-----|------|-----------|-------|
|
||||
| ADM-1 | sync-gap | `halacha_backlog` מוחזר מה-backend אך **נזרק** ב-frontend (אין בטיפוס, לא מרונדר) | app.py:2253; system.ts:21-32; diagnostics/page.tsx | fix-data (לרנדר/להסיר) |
|
||||
| ADM-2 | sync-gap | מוני-הלכות כפולים ב-`/operations` ו-`/approvals` ללא קישור-cache | operations.ts:60; chair.ts:36; app.py:6520,5619-5633 | add-invalidation (consolidate) |
|
||||
| ADM-3 | sync-gap | מוני-פסיקה-חסרה כפולים ב-`/operations` ו-`/approvals` | operations.ts:60; app.py:6521,5636-5647 | add-invalidation (consolidate) |
|
||||
| ADM-4 | confusing | `court_fetch`: "בתור" כולל failed, מטשטש pending מול queued | operations/page.tsx:286-304; app.py:6562 | clarify |
|
||||
| ADM-5 | sync-gap | עריכת env ב-Coolify לא מרעננת את ערך-ה-Container ולא מזהירה על staleness עד redeploy | env-var-row.tsx:76-96; settings.ts:135 | fix-data |
|
||||
| ADM-6 | wrong-data | מוני-סוכנים מסכמים רק חברות-Paperclip זמינות → עומק-תור מוקטן בשקט כשחברה לא-נטענת | app.py:6667-6689; operations/page.tsx:461-465 | clarify (להציג חלקיות) |
|
||||
|
||||
**יעד:** **`/approvals`=תיבת-ההחלטות** (כל גייט נפעל רק כאן; `/operations` מצביע ולא משכפל) · **`/operations`=משטח-קריאה יחיד** (בולע את `/diagnostics`, מרנדר `halacha_backlog`, מתקן queued/pending, מציג חלקיות) · **`/settings`=תצורה** (עריכת-env שמשלימה-את-עצמה: סימון-staleness + redeploy באותה שורה).
|
||||
|
||||
---
|
||||
|
||||
## 3. עדכוני-ספ מומלצים (מתועדים ב-X17)
|
||||
הסריקה זיהתה ש-X6 לא מכסה את שכבת-ה-UI-state, וש-07-learning מסנקצן בטעות שני-ערוצים. ההמלצות (כל אחת מגובת-מקורות ב-X17):
|
||||
1. **X6 — invariants חדשים בשכבת-UI:** (א) aggregate-נגזר = מקור-אמת; כל mutation לטבלת-מקור חייב לבטל את ה-queryKey שלו; אסור מונה-מתחרה client-side. (ב) למונה-גייט בעלים-משטח-יחיד; אחרים מצביעים. (ג) שדה ב-OpenAPI-response — לרנדר או להסיר (אסור לזרוק בשקט). (ד) אסור להציג aggregate מדויק כש-partial-failure השמיט תורם — להציג חלקיות.
|
||||
2. **07-learning §0.4/§0.6:** שער-אישור **אחד**, טרנזקציית-כותב **אחת**, `applied_to_skill` מוסר; לקחים-מאושרים נכתבים רק דרך מסלול-המתודולוגיה היחיד.
|
||||
3. **00-constitution G2 "הפרות ידועות":** להוסיף את תאום-המתודולוגיה (`discussion_rules['universal']` נכתב ע"י PUT וגם promote).
|
||||
|
||||
---
|
||||
|
||||
## 4. הבא — בקלוג-איחוד (פאזה F)
|
||||
מסמך זה **ממפה ומאבחן**; הוא אינו משנה קוד. הבקלוג המתועדף (TaskMaster, מקושר לכל ממצא) נגזר ב-#127.6 ומחולק ל-3 גלים:
|
||||
- **גל-1 (זול, גבוה-ערך):** הוספת-invalidation ל-16 פערי-הסנכרון + תיקון 6 הנתונים-השגויים + מחיקת המתים. תיקון מקומי, אין הגירת-IA.
|
||||
- **גל-2 (איחוד-משטחים):** תיבת-אישור אחת · ערוץ-למידה אחד (הסרת `applied_to_skill`, איחוד שני-השערים) · `/operations`⊇`/diagnostics`.
|
||||
- **גל-3 (ניווט):** הורדת `/feedback` מהראשי · שמות-חיפוש עקביים · X17 ל-canonical.
|
||||
|
||||
**הכרעת-יו"ר נדרשת לפני גל-2/3** (3א — עוצרים על המסמך).
|
||||
81
docs/legal-principles-redesign.md
Normal file
81
docs/legal-principles-redesign.md
Normal file
@@ -0,0 +1,81 @@
|
||||
# עיצוב-מחדש: עקרונות משפטיים (לשעבר "הלכות")
|
||||
|
||||
> **מקור-ההחלטה:** chaim, 2026-06-19. נולד תוך תכנון סינתזת-`canonical_statement`, כשהתגלה
|
||||
> שהקורפוס תפח ל-5,243 "הלכות" (18.8 לפסק, 1,820 מהחלטות הוועדה עצמה) — מודל מושגי שגוי.
|
||||
> מסמך זה הוא מקור-האמת ליוזמה עד שיוטמע ב-`docs/spec/`.
|
||||
|
||||
## 1. הבעיה
|
||||
|
||||
מערכת-החילוץ הקיימת תייגה כל פרופוזיציה-משפטית כ"הלכה" וחילצה ~18.8 לכל פסק, ללא תקרה,
|
||||
ללא הבחנת-מקור, ובאישור-אוטומטי חד-מודלי (confidence ≥0.80). תוצאה: 5,243 רשומות —
|
||||
מנופחות ומתויגות-שגוי. **ועדת ערר מיישמת דין; היא אינה יוצרת הלכה.** קריאה ל-1,820
|
||||
פרופוזיציות מהחלטות-הוועדה "הלכות" שגויה משפטית.
|
||||
|
||||
## 2. מודל-המושגים החדש
|
||||
|
||||
מטרייה: **עקרונות משפטיים**. שני תת-סוגים לפי מקור:
|
||||
|
||||
| מקור (`case_law.source_kind`) | מונח | מחייב? |
|
||||
|---|---|---|
|
||||
| פס"ד מחוזי/עליון (external, binding) | **הלכה** | תקדים מחייב |
|
||||
| החלטת ועדת-ערר (`internal_committee`) | **כלל פרשני** | לא-מחייב; פרשנות/כלל-החלה שהוועדה גיבשה |
|
||||
|
||||
## 3. אלגוריתם-החילוץ החדש (חל על שני המקורות)
|
||||
|
||||
```text
|
||||
1. 3 מודלים שונים (Claude מקומי + DeepSeek + Gemini) מנתחים לעומק את הפסק;
|
||||
כל מודל מציע מועמדים, כל מועמד עם ציון 0-1.
|
||||
2. התאמה סמנטית בין שלושת המודלים → סט-מועמדים מאוחד; לכל מועמד:
|
||||
votes = כמה מודלים זיהו/אימצו אותו (1-3)
|
||||
score = ממוצע הציונים של המצביעים בלבד
|
||||
3. דדופ מול הקורפוס (V41 lookup-before-insert, cosine ≥ HALACHA_CANONICAL_THRESHOLD):
|
||||
• מוכר → קישור ל-canonical קיים (instance/citation). לא נספר במכסה → משחרר סלוט.
|
||||
• חדש → מועמד לעיקרון חדש.
|
||||
4. כלל-אישור על מועמדים חדשים:
|
||||
votes = 3 → APPROVED מיידי (גם אם score < 0.85)
|
||||
votes ≥ 2 AND score ≥ 0.85 → APPROVED
|
||||
votes = 2 AND score < 0.85 → pending_review (שער-יו"ר, G10) [ברירת-מחדל]
|
||||
votes = 1 → DROP (לא עיקרון אמיתי) [ברירת-מחדל]
|
||||
5. תקרה: עד 5 עקרונות חדשים לפסק. אם >5 עוברים — בוחרים 5 לפי score יורד. [ברירת-מחדל]
|
||||
מקושרים-מוכרים (שלב 3) אינם נספרים בתקרה.
|
||||
```
|
||||
|
||||
**ברירות-מחדל הנדסיות (ניתנות-לכיול ב-config):** מקרה-גבול (2 הצבעות, score<0.85) → יו"ר ולא
|
||||
פח; בחירת 5 כש->5 עוברים → לפי score; הצבעה-יחידה → drop.
|
||||
|
||||
## 4. סינון רטרואקטיבי
|
||||
|
||||
אותו פאנל-3 + תקרת-5 + כלל-0.85 ירוץ על **5,243 הקיימים**, מקובצים לפי פסק-המקור:
|
||||
לכל פסק — להפעיל את האלגוריתם, לשמור את הניצולים (≤5), לסמן את השאר `rejected` (הפיך,
|
||||
גיבוי SQL/CSV ל-`data/audit/`). מודל על מהלך-הניקוי 2026-06-03 (`docs/halacha-strict-rubric.md`)
|
||||
ועל `halacha_panel_approve.py` הקיים.
|
||||
|
||||
## 5. תשתית קיימת לבנות עליה
|
||||
|
||||
- **פאנל תלת-מודלי:** `scripts/halacha_panel_approve.py` (Claude מקומי + DeepSeek + Gemini,
|
||||
KEEP_SYSTEM) — אותם 3 מודלים מ-gold-set (AC1=0.92). מקור-הצבעות.
|
||||
- **דדופ/קישור V41:** `db.nearest_canonical_halacha` (cosine), lookup-before-insert בחילוץ.
|
||||
- **ולידטורים:** `services/halacha_quality.py` (non_decision/application/thin/quote/NLI).
|
||||
- **רובריקה:** `docs/halacha-strict-rubric.md` (6 עילות-חיתוך).
|
||||
- **שער-מקור:** `db.EXTRACTION_ELIGIBLE_PREDICATE` (db.py:7171) — נקודת-הזרקת תקרת/תיוג.
|
||||
- **סינתזה:** `services/canonical_synthesis.py` + `backfill_canonical_synthesis.py` (כבר נבנו;
|
||||
יחולו על הניצולים בשם החדש — פאזה אחרונה).
|
||||
|
||||
## 6. פאזות-ביצוע (מוצע)
|
||||
|
||||
| # | פאזה | תוכן | תלות |
|
||||
|---|---|---|---|
|
||||
| **0** | עצירה | הקפאת ריצת-הסינתזה המלאה (בוצע) | — |
|
||||
| **A** | מודל-הצבעות משותף | שירות `panel_extraction` — 3 מודלים, התאמה סמנטית, votes+mean-score, כלל-אישור. מקור-יחיד ל-B ו-C (G2) | — |
|
||||
| **B** | רף להבא | חיבור A ל-`halacha_extractor`: תקרת-5, דדופ-משחרר-סלוט, תיוג הלכה/כלל-פרשני לפי מקור. מחליף auto-approve חד-מודלי | A |
|
||||
| **C** | סינון רטרואקטיבי | סקריפט-batch מריץ A על 5,243 לפי פסק; ניצולים≤5; השאר rejected (הפיך) | A |
|
||||
| **D** | שם | "הלכה"→הלכה/כלל-פרשני/עקרונות; UI + תיאורי-כלים + תיעוד. rename-DB מלא = אופציונלי-נפרד | — |
|
||||
| **E** | סינתזה | `canonical_synthesis` על הניצולים, בשם החדש | C, D |
|
||||
|
||||
**סדר-בנייה מומלץ:** A → (B ‖ D) → C → E. A הוא הליבה המשותפת; D (שם) עצמאי ובטוח להקדים.
|
||||
|
||||
## 7. Invariants
|
||||
|
||||
מקיים: INV-G10/INV-LRN1 (שער-יו"ר על מקרי-גבול), INV-AH (עיגון-מקור בחילוץ), INV-G2
|
||||
(מודל-הצבעות מקור-יחיד ל-B+C), INV-G9 (audit-trail להצבעות + לסינון), INV-G6 (רענון-embedding).
|
||||
מודל-הצבעות-היו"ר משתלב ב-active-learning הקיים (`halacha_panel_rounds`, [[project_active_learning_panel]]).
|
||||
203
docs/operations-runbook.md
Normal file
203
docs/operations-runbook.md
Normal file
@@ -0,0 +1,203 @@
|
||||
# Operations Runbook — עוזר משפטי
|
||||
|
||||
> תוכן תפעולי-עומק שהוצא מ-[`CLAUDE.md`](../CLAUDE.md) כדי לרזות את ההקשר הנטען בכל סשן (TaskMaster #107.1).
|
||||
> ה-CLAUDE.md מחזיק את **הכללים הקריטיים בקצרה**; כאן נמצאים הפרטים המלאים, הפקודות, וטבלאות-הייחוס.
|
||||
> כשעובדים על Deploy, Paperplip-ops, או adapters — לקרוא את הסעיף הרלוונטי כאן.
|
||||
|
||||
---
|
||||
|
||||
## שרת Nautilus (158.178.131.193)
|
||||
|
||||
| שירות | תפקיד | כתובת |
|
||||
|-------|--------|-------|
|
||||
| Coolify | ניהול containers | `http://158.178.131.193:8000` |
|
||||
| PostgreSQL + pgvector | בסיס נתונים ראשי | `legal-ai-postgres` (`localhost:5433`, user `legal_ai`) |
|
||||
| Redis | תור משימות | `legal-ai-redis` |
|
||||
| Gitea | מאגר קוד | `gitea.nautilus.marcusgroup.org/ezer-mishpati` |
|
||||
| ezer-mishpati-web | ממשק העלאת מסמכים (Docker/Coolify) | `legal-ai.nautilus.marcusgroup.org` |
|
||||
| Paperclip | סוכן AI — מריץ Claude Code agents (pm2, מקומי) | `localhost:3100` |
|
||||
| legal-chat-service | גשר claude CLI לטאב הצ'אט ב-/training (pm2, loopback) | `127.0.0.1:8770` |
|
||||
| Infisical | ניהול סודות | `secret.dev.marcus-law.co.il` |
|
||||
|
||||
---
|
||||
|
||||
## ארכיטקטורת Deploy — חובה לקרוא
|
||||
|
||||
שלושה מודלי-הרצה דרים יחד. ערבוב ביניהם הוא הטעות הנפוצה ביותר.
|
||||
|
||||
### עוזר משפטי (Legal-AI) — Docker container דרך Coolify
|
||||
- UUID: `gyjo0mtw2c42ej3xxvbz8zio` (build_pack: `dockerimage`, **לא** `dockerfile`)
|
||||
- שינוי קוד ב-`web/` או `web-ui/` **לא נכנס לתוקף** עד ש:
|
||||
1. עושים `git commit` + `git push origin main`
|
||||
2. Gitea Actions בונה image → דוחף ל-registry → מפעיל redeploy ב-Coolify (`mcp__coolify__deploy`)
|
||||
3. ממתינים ~2-4 דקות לבנייה
|
||||
- **אסור** לנסות להריץ uvicorn / `next dev` מקומית — אין סביבת Python על המכונה
|
||||
- ה-container מריץ Next.js (`:3000`, חשוף) + FastAPI (`:8000`, פנימי)
|
||||
- בדיקה: `curl https://legal-ai.nautilus.marcusgroup.org/api/health`
|
||||
- runbook מלא של ה-pipeline: `~/CI-CD-MIGRATION-GUIDE.md`
|
||||
|
||||
### Paperclip — מקומית דרך pm2
|
||||
- פורט: `localhost:3100`, DB: `localhost:54329` (Postgres embedded)
|
||||
- שינויי קוד נכנסים לתוקף אחרי `pm2 restart paperclip`
|
||||
- **אין צורך ב-Docker או Coolify** (מיגרציה ל-Coolify נוסתה 2026-04-04 והוחזרה 2026-04-08)
|
||||
- תרגום/RTL: `~/.paperclip/hebrew/` → `bash ~/.paperclip/hebrew/apply-hebrew.sh && pm2 restart paperclip`
|
||||
|
||||
### legal-chat-service — מקומית דרך pm2 (מאפריל 2026)
|
||||
- פורט: `127.0.0.1:8770` (loopback בלבד)
|
||||
- שירות aiohttp קצר שעוטף את `claude` CLI ב-streaming + session continuation, ומשרת את הטאב "שיחה" בדף `/training`. הקונטיינר משדל אליו proxy דרך `host.docker.internal:8770`.
|
||||
- קוד: [`mcp-server/src/legal_mcp/chat_service/`](../mcp-server/src/legal_mcp/chat_service/)
|
||||
- התקנה: `pm2 start /home/chaim/legal-ai/scripts/legal-chat-service.config.cjs && pm2 save`
|
||||
- בריאות: `curl http://127.0.0.1:8770/health` → `{"ok":true,...}`
|
||||
- שינויי קוד: `pm2 restart legal-chat-service`
|
||||
- **אפס עלות API** — claude CLI משתמש ב-claude.ai subscription של chaim. הנחת היסוד של `claude_session.py` (claude CLI מקומי בלבד) נשמרת.
|
||||
- Coolify dependency: ה-Service Definition של legal-ai חייב להכיל `extra_hosts: host.docker.internal:host-gateway` (אחרת ה-proxy יקבל ConnectError).
|
||||
|
||||
---
|
||||
|
||||
## מבנה תיקיות
|
||||
|
||||
```
|
||||
/home/chaim/legal-ai/
|
||||
├── CLAUDE.md ← אינדקס דק (כללים קריטיים + מצביעים)
|
||||
├── docs/operations-runbook.md ← הקובץ הזה (עומק תפעולי)
|
||||
├── Dockerfile ← Docker build
|
||||
├── docs/ ← תיעוד + לקחים
|
||||
│ ├── architecture.md ארכיטקטורה
|
||||
│ ├── block-schema.md 12 בלוקים (המסמך החשוב ביותר)
|
||||
│ ├── migration-plan.md תוכנית מעבר vault → DB
|
||||
│ ├── legal-decision-lessons.md לקחים מ-3 החלטות
|
||||
│ └── memory.md הקשר כללי — skills, פרויקטים
|
||||
├── skills/ ← כלי עבודה ומדריכים
|
||||
│ ├── decision/ מדריך סגנון + references + 12 בלוקים
|
||||
│ ├── assistant/ קטלוג מסמכים
|
||||
│ ├── docx/ עיצוב DOCX
|
||||
│ ├── dafna-decision-template/ export DOCX לפי תבנית Word של דפנה
|
||||
│ └── new-company-setup/ blueprint הוספת חברה חדשה
|
||||
├── .claude/
|
||||
│ └── agents/ ← הוראות סוכנים + HEARTBEAT.md (symlinks ב-Paperclip)
|
||||
│ ├── HEARTBEAT.md checklist הפעלה משותף לכל הסוכנים
|
||||
│ ├── legal-ceo.md תזמורן + בקרת זרימה
|
||||
│ ├── legal-writer.md כתיבת בלוקים בסגנון דפנה
|
||||
│ ├── legal-analyst.md ניתוח משפטי + חילוץ טענות
|
||||
│ ├── legal-researcher.md חיפוש תקדימים
|
||||
│ ├── legal-qa.md 7 שערי איכות
|
||||
│ ├── legal-proofreader.md תיקון OCR
|
||||
│ ├── legal-exporter.md ייצוא DOCX סופי
|
||||
│ └── hermes-curator.md סוכן Hermes לניתוח סגנון post-export
|
||||
├── data/
|
||||
│ ├── training/ ← 4 החלטות לאימון (DOCX)
|
||||
│ ├── exports/ ← טיוטות DOCX מיוצאות
|
||||
│ └── cases/{case-number}/ ← תיקי עררים (מבנה שטוח, סטטוס ב-DB)
|
||||
├── web/ ← FastAPI backend (Python): 75+ API endpoints
|
||||
│ ├── app.py ← API ראשי
|
||||
│ ├── paperclip_api.py ← אינטגרציית Paperclip: `pc_request()` + `emit_case_status_webhook()`
|
||||
│ ├── paperclip_client.py ← legacy client (ישן — השתמש ב-paperclip_api.py)
|
||||
│ └── gitea_client.py ← אינטגרציית Gitea
|
||||
├── web-ui/ ← Next.js frontend (TypeScript/React): ממשק המשתמש
|
||||
│ └── next.config.ts ← proxy: /api/* → FastAPI :8000
|
||||
├── mcp-server/ ← MCP server + services + tools
|
||||
├── adapters/ ← Paperclip external adapters
|
||||
│ └── deepseek-paperclip-adapter/ ← `deepseek_local` (Hermes-pinned ל-DeepSeek profile)
|
||||
└── scripts/ ← סקריפטים וכלי עזר (ראה scripts/SCRIPTS.md)
|
||||
└── .archive/ ← סקריפטים שהושלמו (לא להריץ)
|
||||
```
|
||||
|
||||
---
|
||||
|
||||
## Paperclip — כללי אינטגרציה (פירוט מלא)
|
||||
|
||||
> הכללים הקריטיים בתמצית נמצאים ב-[`CLAUDE.md`](../CLAUDE.md). כאן הפירוט המלא, הדוגמאות, וה-"למה".
|
||||
|
||||
### Wakeup API — תמיד דרך API, לעולם לא דרך DB
|
||||
- **הנתיב הנכון**: `POST /api/agents/{agent-id}/wakeup` (לא `/wake`!)
|
||||
- **⚠️ אסור**: `INSERT INTO agent_wakeup_requests` ישירות — זה יוצר רק רשומה בלי `heartbeat_run`, והסוכן **לא יתעורר לעולם**
|
||||
- **⚠️ חובה לשלוח `payload` עם `issueId`** — בלי זה הסוכן מתעורר בלי הקשר (בלי תיק, בלי issue, בלי cwd נכון)
|
||||
- דוגמה נכונה:
|
||||
```json
|
||||
{"source": "automation", "triggerDetail": "system", "reason": "...",
|
||||
"payload": {"issueId": "...", "mutation": "comment", "commentId": "..."}}
|
||||
```
|
||||
- **Board API Key**: שמור ב-DB (`board_api_keys`), auth: `Authorization: Bearer pbk_...`
|
||||
|
||||
### ניתוב comments דרך CEO
|
||||
- כשמשתמש כותב תגובה על issue ב-Paperclip, הפלאגין (`plugin-legal-ai`) מעיר את ה-CEO דרך `ctx.agents.invoke()`
|
||||
- ה-CEO קורא את ה-comment, מחליט על ניתוב, ויוצר issue לסוכן המתאים
|
||||
- כל הסוכנים חייבים לקרוא comments אחרונים לפני שהם מתחילים לעבוד (HEARTBEAT שלבים 2b-2c)
|
||||
|
||||
### קריאות API — תמיד דרך helper, לעולם לא `curl` ישיר
|
||||
- **bash (סוכנים):** `~/legal-ai/scripts/pc.sh <METHOD> <PATH> [BODY_JSON]` — מוסיף Authorization, X-Paperclip-Run-Id, Content-Type, base URL. ראה `HEARTBEAT.md §0`.
|
||||
- **Python (FastAPI):** `from web.paperclip_api import pc_request; await pc_request("POST", "/api/...", json={...})` — שימוש ב-board API key.
|
||||
- **אסור** `curl ... $PAPERCLIP_API_URL` ישיר ב-bash; **אסור** `httpx.AsyncClient` ישיר ל-Paperclip ב-Python.
|
||||
- **למה:** ה-skill הרשמי דורש `X-Paperclip-Run-Id` בכל קריאה משנה issue. אצלנו ה-audit trail עבד ממילא דרך JWT claims (`runId: runIdHeader || claims.run_id`), אבל ה-helper מבטיח עקביות + תאימות ל-board API keys (long-lived) שלא נושאות JWT claims.
|
||||
|
||||
### Cross-company agent sync — אחרי כל שינוי הגדרות
|
||||
- יש 14 סוכנים = 7 × 2 חברות (CMP=1xxx, CMPA=8xxx). Paperclip מחייב `agents.company_id NOT NULL` — אין shared agents.
|
||||
- **Master = CMP (1xxx)**, **Mirror = CMPA (8xxx)**.
|
||||
- אחרי כל שינוי ב-`adapter_config`, `runtime_config`, `budget_monthly_cents`, או skills של סוכן ב-master (UI, SQL, או API), **חובה להריץ:**
|
||||
```bash
|
||||
PAPERCLIP_BOARD_API_KEY=$(...infisical...) \
|
||||
python ~/legal-ai/scripts/sync_agents_across_companies.py --verify # לבדיקה
|
||||
PAPERCLIP_BOARD_API_KEY=$(...) \
|
||||
python ~/legal-ai/scripts/sync_agents_across_companies.py --apply # לסנכרן
|
||||
```
|
||||
- הסקריפט מסנן local skills שלא קיימים ב-CMPA (מציג אזהרה), משתמש ב-API (לא DB ישיר), יוצר revisions, idempotent.
|
||||
- שאלות ה-skill הרשמי של Paperclip — `paperclip` skill תחת `paperclipai/paperclip`.
|
||||
|
||||
### Webhook יוצא — עדכון סטטוס תיק לפלאגין
|
||||
כשסטטוס תיק משתנה דרך `PUT /api/cases/{case_number}`, הבקאנד שולח webhook אסינכרוני לפלאגין:
|
||||
|
||||
```
|
||||
PUT /api/cases/{case_number} → emit_case_status_webhook() [BackgroundTask]
|
||||
→ POST /api/plugins/marcusgroup.legal-ai/webhooks/case-status
|
||||
→ plugin-legal-ai/onWebhook()
|
||||
→ comment בעברית על issue + CEO wakeup (כשסטטוס = qa_failed)
|
||||
```
|
||||
|
||||
- הקוד ב-`web/paperclip_api.py` (`emit_case_status_webhook`), fire-and-forget, timeout 5s
|
||||
- הפלאגין שומר idempotency key ב-state עם TTL 5 דקות למניעת spam על retry
|
||||
- `GET /api/cases/stale?days=N` — תיקים שלא עודכנו N ימים; מוחרגים: `new`, `final`, `exported`
|
||||
- `GET /api/chair-feedback/weekly-summary` — סיכום פידבק YU"R לשבוע האחרון
|
||||
|
||||
### Scheduled Jobs (plugin-legal-ai)
|
||||
| Job | לוח זמנים | מה עושה |
|
||||
|-----|-----------|---------|
|
||||
| `stale-case-reminder` | יומי 08:00 | שולח comment אזהרה על תיקים תקועים >3 ימים |
|
||||
| `weekly-feedback-analysis` | ראשון 19:00 | מעיר CEO לניתוח פידבק YU"R ועדכון `docs/legal-decision-lessons.md` |
|
||||
| `sync-case-status` | כל 30 דק' | מסנכרן סטטוסי תיקים בין legal-ai ל-Paperclip |
|
||||
|
||||
CEO שמתעורר מ-`weekly-feedback-job` כותב לקובץ בלבד — **אין לו issueId, אל תנסה לפרסם comment או לסגור issue**.
|
||||
|
||||
### External adapters — `deepseek_local`
|
||||
- מיקום ה-package: [`adapters/deepseek-paperclip-adapter/`](../adapters/deepseek-paperclip-adapter/) (לא ב-`node_modules`).
|
||||
- רישום ב-Paperclip: רשומה ב-`~/.paperclip/adapter-plugins.json` (נטען אוטומטית ב-startup דרך `buildExternalAdapters`). אין צורך בעריכת `node_modules`.
|
||||
- **מה ה-adapter עושה**: spawnל-`hermes chat` עם `HERMES_HOME=/home/chaim/.hermes/profiles/deepseek` כך שה-CLI טוען את `config.yaml` (`base_url=https://api.deepseek.com/v1`, `provider=custom`, `key_env=DEEPSEEK_API_KEY`) ואת `.env` (שמכיל את ה-key).
|
||||
- **מודלים זמינים** (lookup ב-DeepSeek `/v1/models`): `deepseek-v4-pro` (default), `deepseek-v4-flash`. יופיעו כדרופ-דאון ב-UI.
|
||||
- **התקנה מחדש / עדכון**: `curl -X POST -H "Authorization: Bearer pcapi_legal_install_key_2026" -H "Content-Type: application/json" -d '{"packageName":"/home/chaim/legal-ai/adapters/deepseek-paperclip-adapter","isLocalPath":true}' http://localhost:3100/api/adapters/install`. לעדכון hot — `POST /api/adapters/deepseek_local/reload`.
|
||||
- **⚠ Cross-company sync**: `sync_agents_across_companies.py` **מדלג** על סוכנים עם `adapter_type` שונה בין CMP ל-CMPA. כשעוברים סוכן ל-`deepseek_local` חובה להחיל ידנית בשתי החברות לפני sync.
|
||||
- **תוספת adapters עתידיים** (OpenAI ישיר, Anthropic ישיר, וכו'): אותו דפוס. ה-package הראשי חייב לייצא `createServerAdapter()` שמחזיר `{ type, label, models, agentConfigurationDoc, execute, testEnvironment, sessionCodec, listSkills, syncSkills, ... }`. ראה את [`adapters/deepseek-paperclip-adapter/dist/index.js`](../adapters/deepseek-paperclip-adapter/dist/index.js) כתבנית.
|
||||
|
||||
### External adapters — Hermes Curator (`curator-cmp` / `curator-cmpa`)
|
||||
- פרופילי Hermes נפרדים לסוכן `hermes-curator` — מנתח החלטות סופיות ומציע עדכוני SKILL.md/lessons.md
|
||||
- מיקום: `~/.hermes/profiles/curator-cmp/` + `~/.hermes/profiles/curator-cmpa/`
|
||||
- מופעל אחרי export סופי; אינו מעדכן קבצים ישירות
|
||||
- **תהליך אישור הצעות:** הצעות ה-curator מגיעות כ-comment ב-Paperclip → חיים בוחן ומאשר ידנית → commits ל-`SKILL.md` ו-`docs/legal-decision-lessons.md`
|
||||
|
||||
---
|
||||
|
||||
## הערות יו"ר (Chair Feedback)
|
||||
|
||||
מנגנון לתיעוד הערות דפנה על טיוטות:
|
||||
- **DB**: טבלת `chair_feedback` (case_id, block_id, feedback_text, category, lesson_extracted)
|
||||
- **API**: `GET/POST /api/feedback`, `PATCH /api/feedback/{id}/resolve`
|
||||
- **MCP tools**: `record_chair_feedback`, `list_chair_feedback`
|
||||
- **UI**: דף ניהול ב-`/feedback` (ב-Next.js)
|
||||
- **קטגוריות**: missing_content, wrong_tone, wrong_structure, factual_error, style, other
|
||||
|
||||
---
|
||||
|
||||
## ניהול משימות — TaskMaster AI (פירוט)
|
||||
|
||||
- קובץ המשימות הקנוני: `~/legal-ai/.taskmaster/tasks/tasks.json` (יחסי ל-project root, **לא** `~/.taskmaster/tasks/tasks.json`). מכיל את כל ה-tags של legal-ai (`master`, `legal-ai`).
|
||||
- פקודות עיקריות: `get_tasks`, `next_task`, `add_task`, `update_task`, `expand_task`
|
||||
- לפני התחלת עבודה → `next_task`; אחרי סיום → `update_task` עם status=done; משימה מורכבת → `expand_task`
|
||||
- **⚠️ מלכוד cwd ב-CLI:** הדגל `--tag` בוחר קבוצה לוגית *בתוך* הקובץ — הוא **לא** בוחר לאיזה `tasks.json` לכתוב. ה-CLI מאתר את הקובץ לפי ה-cwd. תמיד `cd ~/legal-ai` לפני `task-master add-task` או כל פקודה משנה, ואז אמת ב-MCP `get_tasks`. כשלא בטוחים — לערוך את `~/legal-ai/.taskmaster/tasks/tasks.json` ישירות.
|
||||
@@ -230,3 +230,48 @@ pm2 start paperclip && pm2 save # reuse ל-cache המת
|
||||
- **תוקן ב-start script** ע"י `ensure_patched_before_run()` (06/06/26) — שער סינכרוני שמחלץ+מתקן לפני exec.
|
||||
- **הערה מטעה תוקנה**: ההערה הישנה בראש ה-script טענה ש-`npx run` מחלץ-מחדש בכל הפעלה (לכן הסתמכו על לולאת-הרקע בלבד) — זה לא נכון, npx עושה reuse ל-cache תקין; הסכנה היא cache **מחוק**.
|
||||
- **לקח כללי**: כל patch שה-target שלו הוא assert בזמן-startup חייב להיות מוחל לפני `exec`, לא בלולאת-רקע.
|
||||
|
||||
---
|
||||
|
||||
## 6. `issue.comment.created` — מזהה-ה-issue ב-`entityId`, לא ב-`payload.issueId`
|
||||
|
||||
### מה קורה
|
||||
|
||||
ל-event `issue.comment.created` שה-host שולח לפלאגין, **מזהה-ה-issue נמצא ב-`event.entityId`** (ה"ישות הראשית" של ה-event), ולא ב-`payload`. ה-`payload` נושא דווקא:
|
||||
- `commentId` — מזהה התגובה
|
||||
- `bodySnippet` — גוף **קצוץ** (לא הטקסט המלא)
|
||||
- `reopened` / `reopenedFrom` — נדלקים כשהתגובה פתחה-מחדש issue ב-`done`
|
||||
|
||||
**אין** `payload.issueId` ו**אין** `payload.body` מלא. מקור-אמת: `@paperclipai/plugin-sdk` `index.d.ts` — `issueId: event.entityId`.
|
||||
|
||||
### ראיה אמפירית — תיק 8124-09-24, CMPA (17/06/26)
|
||||
|
||||
תגובת-משתמש על sub-issue של המנתח המשפטי (במצב `done`) **לא הגיעה ל-CEO**. הניתוב ב-`plugin-legal-ai/src/worker.ts` קרא `payload.issueId` (תמיד `undefined`) ולכן דילג בשקט:
|
||||
|
||||
```
|
||||
WARN [plugin] issue.comment.created event missing issueId in payload, skipping
|
||||
{ entityId: "6eb905ea-…", ← זה ה-issue id האמיתי
|
||||
payload: { commentId: "31e35676-…", bodySnippet: "…", reopened: true,
|
||||
reopenedFrom: "done", identifier: "CMPA-94", … } } ← אין issueId
|
||||
```
|
||||
|
||||
### ההשפעה על הצינור שלנו
|
||||
|
||||
הניתוב **"תגובת-משתמש → CEO"** (CLAUDE.md §"ניתוב comments דרך CEO") היה **מת בשקט** — כל תגובה דולגה. במקרה של תגובה על issue בבעלות ה-CEO זה "עבד" רק במקרה דרך מנגנון reopen-on-comment הנייטיב של Paperclip (פותח-מחדש `done` ומעיר את הסוכן-המשויך). על sub-issue של סוכן אחר, ה-wake הנייטיב כיוון לסוכן הלא-נכון וריצת-ה-CEO בתור בוטלה עם `errorCode: issue_assignee_changed` ("the new owner will be woken instead" — וה"בעלים" ב-`done` ⇒ כלום).
|
||||
|
||||
### תיקון — בצד שלנו (PR ezer-mishpati/plugin-legal-ai#2)
|
||||
|
||||
ב-handler של `issue.comment.created`:
|
||||
1. `issueId = event.entityId` (fallback ל-`payload.issueId` לעמידות מול גרסאות-host).
|
||||
2. גוף-תגובה מלא: התאמת `payload.commentId` מתוך `listComments` (ה-payload נושא רק snippet); fallback ל-latest/snippet.
|
||||
3. **guard לדה-דופ:** אם התגובה פתחה-מחדש issue **שכבר משויך ל-CEO** (`issue.assigneeAgentId === ceoAgentId && payload.reopened`), ה-wake הנייטיב כבר מטפל — מדלגים כדי לא להריץ את ה-CEO פעמיים. לכל issue אחר עדיין מנתבים ל-CEO.
|
||||
|
||||
### אימות (17/06/26)
|
||||
|
||||
תגובת-בדיקה על אותו sub-issue של המנתח (`543f997b`, `done`) לאחר deploy → לוג `Routed user comment to CEO agent` עם `runId`, וריצת-CEO `succeeded` (לא `cancelled`).
|
||||
|
||||
### סטטוס
|
||||
|
||||
- **תוקן בצד שלנו** (PR #2, נפרס דרך `npm run build` + `pm2 restart paperclip` — הפלאגין נטען מ-`/home/chaim/plugin-legal-ai` לפי `package_path`).
|
||||
- **לקח כללי**: ל-events של הפלאגין — מזהה-הישות-הראשית הוא תמיד `event.entityId`; אל תניח ששדות נמצאים ב-`payload` בלי לאמת מול ה-`.d.ts` של ה-SDK או מול לוג חי.
|
||||
- TaskMaster: `legal-ai` #149.
|
||||
|
||||
123
docs/research/hermes-nous-feasibility.md
Normal file
123
docs/research/hermes-nous-feasibility.md
Normal file
@@ -0,0 +1,123 @@
|
||||
# מחקר-היתכנות: Hermes של Nous Research — האם להטמיע, והאם זה יעזור ללולאת רכישת-הסגנון
|
||||
|
||||
> **TaskMaster #123** (tag `legal-ai`) · תאריך: 2026-06-11 · סטטוס: מחקר הושלם → המלצה להכרעה
|
||||
> **שאלת-העל:** האם הסוכן/מסגרת ה-self-learning של Nous Research — שחיים התכוון אליו במקור בהקמת מנהל-הידע — ניתן ורצוי להטמעה אצלנו, והאם ישפר את לולאת רכישת-הסגנון מעבר לקיים.
|
||||
> **הכרעה בתמצית:** **לדחות אימוץ-מסגרת; לאמץ רעיון אחד ממוקד — GEPA/DSPy (אבולוציית-פרומפט רפלקטיבית) כ-*מַצִּיע* בתת-מערכת רכישת-הסגנון, נמוך-עדיפות, לכשיצטברו זוגות draft↔final.**
|
||||
>
|
||||
> **המשך:** מה אנחנו *באמת* מריצים מ-Hermes היום (ה-CLI כ-runtime, ה-self-learning כבוי), חקירה פורנזית של ה-state, ו-playbook להפעלה-מלאה עתידית → [hermes-runtime-and-self-learning-state.md](hermes-runtime-and-self-learning-state.md) (#126).
|
||||
|
||||
---
|
||||
|
||||
## 0. הרקע — מה חשבנו שזה, ומה זה באמת
|
||||
|
||||
הסוכן "הרמס" אצלנו הוא **שם-פרסונה בלבד**: בפועל זהו `deepseek_local` (DeepSeek-V4-Pro) עם פרומפט-קבוע ([hermes-curator.md](../../.claude/agents/hermes-curator.md)), שמנתח החלטות סופיות ו**מציע** עדכוני-לקחים. קוד של Nous מעולם לא שולב (grep=0). הנחת-המוצא של המשימה הייתה שצריך לבדוק אם ה-"self-learning" של Nous הוא מנגנון fine-tuning שמתנגש באילוץ "מודל סגור".
|
||||
|
||||
**הממצא המרכזי הופך את ההנחה:** ה-self-learning של Nous **אינו** fine-tuning, ובמבנה-הממשל שלו הוא **מתכנס כמעט במדויק לארכיטקטורה שכבר בנינו** (propose-only, human-review, semantic-preservation). השאלה האמיתית אינה "האם זה תואם" אלא "**האם זה מוסיף משהו שאין לנו**". התשובה: רעיון אחד — אופטימיזציית-פרומפט אבולוציונית-רפלקטיבית (GEPA).
|
||||
|
||||
---
|
||||
|
||||
## א. מה Hermes-agent של Nous *באמת* עושה (מאומת מול ה-repos, לא מהזיכרון)
|
||||
|
||||
יש **שני** repos נפרדים תחת `NousResearch`, שניהם **MIT**:
|
||||
|
||||
### א.1 `NousResearch/hermes-agent` — מסגרת-סוכן (agent framework)
|
||||
"The self-improving AI agent… the only agent with a built-in learning loop." רכיבים (מאומת מ-README + docs):
|
||||
|
||||
| רכיב | מה זה |
|
||||
|------|-------|
|
||||
| **Closed-loop skill learning** | מזקק "Skills" לשימוש-חוזר אוטומטית בסיום כל משימה, שומר בזיכרון מתמיד. תואם תקן פתוח `agentskills.io` (Skills Hub — portable/shareable). |
|
||||
| **Three-layer memory** | זיכרון רב-שכבתי שזוכר העדפות/הרגלים לאורך סשנים. |
|
||||
| **Dialectic user modeling (Honcho)** | בונה מודל מתפתח של "מי אתה" לרוחב סשנים. |
|
||||
| **Agent-curated memory + periodic nudges** | הסוכן "מנדנד" לעצמו לשמר ידע; חיפוש-סשנים FTS5 + סיכום-LLM. |
|
||||
| **Orchestration** | 40+ כלים, מספר terminal backends (local/Docker/SSH/Modal/Daytona), תת-סוכנים מבודדים, scheduler/cron מובנה, ריבוי-פלטפורמות-הודעות (Telegram/Discord/Slack/WhatsApp/Signal/CLI). |
|
||||
| **Model-agnostic** | "Use any model you want — switch with `hermes model`, no code changes." עובד מול Nous Portal / OpenRouter (200+) / OpenAI / **Anthropic** / HF / endpoint מותאם. **אין דרישה למודל פתוח, אין fine-tuning של משקולות.** |
|
||||
|
||||
המסקנה: זוהי **מסגרת-תזמור-סוכנים מלאה** (orchestrator + memory + scheduler + ערוצי-הודעות + skill-hub) — מתחרה מבנית ל-Paperclip, **לא** רכיב-למידה נקודתי.
|
||||
|
||||
### א.2 `NousResearch/hermes-agent-self-evolution` — לב ה-"self-learning"
|
||||
זהו ה-repo שעושה את האבולוציה-העצמית (מאומת מ-README):
|
||||
|
||||
- **מה הוא ממטב:** קבצי-skill (`SKILL.md`), תיאורי-כלים, מקטעי-system-prompt, וקוד-מימוש-כלים. (Phase 1 = קבצי-skill.)
|
||||
- **אלגוריתם:** **DSPy + GEPA** (Genetic-Pareto Prompt Evolution). GEPA מנתח **traces של ריצה**, מבין *סיבות-כשל* ברפלקציה בשפה-טבעית, ומציע שיפורים ממוקדים — לא רק מזהה כשל.
|
||||
- **דרישות-אימון:** **אין GPU, אין fine-tuning.** הכול דרך קריאות-API ("mutating text, evaluating results, selecting best variants"). עלות מוערכת **$2–10 לריצת-אופטימיזציה**.
|
||||
- **הערכת-מועמדים (guardrails):** כל variant חייב לעבור — מערך-בדיקות מלא, מגבלת-גודל (skills ≤15KB), תאימות-caching, **שימור-סמנטי של המטרה המקורית**, ו**סקירת-PR אנושית**.
|
||||
- **החלת-שינויים:** **אין auto-apply.** כל variant עובר "**human review, never direct commit**" ומוצע כ-PR נגד `hermes-agent`.
|
||||
|
||||
**זו ההפתעה:** המודל התפעולי של Nous (propose → guardrails → human-PR → never auto-commit, עם שימור-סמנטי) הוא **שחזור כמעט-מילה-במילה של INV-LRN1/G10 + INV-LRN5 שלנו.** לא צריך "להתאים" אותו — הוא כבר חושב כמונו.
|
||||
|
||||
---
|
||||
|
||||
## ב. טבלת-תאימות מול ארבעת האילוצים (פסיקה לכל אחד)
|
||||
|
||||
| # | אילוץ | אימוץ-מסגרת (`hermes-agent`) | אימוץ-רעיון (GEPA כמַצִּיע) | פסיקה |
|
||||
|---|-------|------------------------------|-----------------------------|-------|
|
||||
| 1 | **מודל-סגור** (Opus/DeepSeek/Gemini, לא fine-tuning — [project_style_acquisition_goal]) | ✅ model-agnostic, ללא fine-tuning | ✅ GEPA ממטב **טקסט** (פרומפט/skill), לא משקולות; API-only, $2–10 | ✅ **תואם** — זהו בדיוק ה-"prompt-optimization במקום weight-update" שהמשימה זיהתה כהכי-תואם |
|
||||
| 2 | **G12 — שער-הפלטפורמה** ([X15](../spec/X15-agent-platform-port.md), INV-PORT1) | ❌ **מתנגש** — מסגרת-תזמור שלמה (memory/scheduler/ערוצים/subagents) = פלטפורמת-סוכנים מקבילה ל-Paperclip → drift-רוחב, בדיוק מה ש-G12/G2 מייבשים | ✅ חי בשכבת-האינטליגנציה/רכישת-הסגנון, מזין את שער-היו"ר; **אינו** פלטפורמה, אינו נוגע ב-Port | ❌ למסגרת / ✅ לרעיון |
|
||||
| 3 | **INV-LRN1/G10 — אין auto-commit** | ⚠️ ה-memory האוטו-נדנד + יצירת-skill אוטונומית מפרים *אם* ב-auto-commit | ✅ self-evolution **תוכנן** propose-only (human-PR) — זהה למודל שלנו | ✅ **תואם** (הרעיון); ⚠️ המסגרת דורשת גידור |
|
||||
| 4 | **INV-LRN5 — טוהר-הקול** (אין מהות ספציפית) | ⚠️ 3-layer memory + dialectic modeling שומרים תוכן-משתמש ספציפי לרוחב סשנים → זיהום שכבת-הקול | ⚠️ תקין **רק אם** מטריקת-ההערכה היא **מרחק-סגנון** (לא שחזור-מהות), והפלט הוא סגנון/שיטה. יש לנו את המטריקה (`style_distance`, שלב [7] MEASUREMENT) | ⚠️ **בר-ניהול** — חייב metric=style-distance + distillation שמפריד במקור (כבר קיים) |
|
||||
|
||||
---
|
||||
|
||||
## ג. מה זה יפתור שלא קיים? (מול מה שכבר בנינו)
|
||||
|
||||
| יכולת ב-Nous | מקבילה אצלנו | פער-אמיתי? |
|
||||
|--------------|--------------|-------------|
|
||||
| Closed-loop skill distillation | `hermes-curator` + `ingest_final_version` (Opus distillation) + `final_learning_pipeline` | לא — קיים, ומגודר טוב יותר (פאנל דו/תלת-מודלי, #121) |
|
||||
| Three-layer memory / FTS5 recall | קורפוס-סגנון + pgvector + RAG ([03-retrieval](../spec/03-retrieval.md)) | לא — האחזור שלנו עשיר יותר ומכוון-דומיין |
|
||||
| Skill-Hub (agentskills.io) | `skills/decision` + `legal-decision-lessons.md` | לא — שיתוף-קהילתי לא רלוונטי לדומיין-סגור |
|
||||
| Dialectic user modeling | פרופיל-סגנון של דפנה (`/methodology`) | לא — ובמכוון: INV-LRN5 אוסר מידול-מהות |
|
||||
| **GEPA reflective prompt-evolution** | **אין מקבילה** — אנו מתקנים פרומפטים ידנית, ללא אופטימיזציה שיטתית מול eval | ✅ **כן — זה הפער היחיד** |
|
||||
|
||||
**הפער היחיד שמוסיף ערך:** אנו אוספים זוגות `draft↔final` (`draft_final_pairs`, INV-LRN4) אבל **לא ממנפים אותם כ-eval-set שיטתי לשיפור פרומפטי-הכתיבה/פרופיל-הסגנון.** GEPA הוא בדיוק הכלי לכך: לוקח traces (טיוטות שלנו), reflects על *למה* הן רחוקות מהסופי של דפנה, ומציע שיפורי-פרומפט — מדיד מול `style_distance`.
|
||||
|
||||
---
|
||||
|
||||
## ד. חלופות קוד-פתוח שקולות (≥3 מקורות סמכותיים)
|
||||
|
||||
| גישה | מה היא | התאמה לאילוץ מודל-סגור | רלוונטיות לנו |
|
||||
|------|--------|------------------------|---------------|
|
||||
| **GEPA** (Agrawal et al., arXiv:2507.19457, **ICLR 2026 oral**) | אבולוציית-פרומפט רפלקטיבית; reflects על traces בשפה-טבעית | ✅ מושלמת — טקסט בלבד | **גבוהה** — מנצח GRPO (RL) ב-6–20% עם פי-35 פחות rollouts; מנצח MIPROv2 ב-10%+. `pip install gepa` / `dspy.GEPA` |
|
||||
| **DSPy (MIPROv2)** | אופטימיזציית-פרומפט מבוססת-מטריקה | ✅ טובה | בינונית — GEPA עדיף לפי המאמר |
|
||||
| **Reflexion** (Shinn et al., NeurIPS 2023) | "verbal RL" — רפלקציה מילולית בזיכרון-אפיזודי | ✅ טובה | נמוכה — per-task, לא משפר artifact מתמשך |
|
||||
| **Voyager** (Wang et al., 2023) | skill-library מצטברת (Minecraft, lifelong) | ✅ טובה | נמוכה — כבר יש לנו skill-library מגודרת; הרעיון מובנה |
|
||||
| **Generative Agents** (Park et al., 2023) | memory-stream + reflection + retrieval | ✅ | נמוכה — INV-LRN5 אוסר מידול-מהות מתמשך |
|
||||
| **LangGraph long-term memory** | checkpointing + store | ✅ | כבר ב-[X16](../spec/X16-pipeline-durability.md) (התשתית קיימת) |
|
||||
|
||||
**מסקנת-ההשוואה:** מבין כל החלופות, **GEPA היא היחידה שמציעה יכולת חדשה תואמת-אילוץ** (אופטימיזציה שיטתית של artifacts-טקסט מול eval, ללא משקולות). השאר או מובנים כבר אצלנו, או מתנגשים ב-INV-LRN5, או per-task ולא-מתמשכים.
|
||||
|
||||
---
|
||||
|
||||
## ה. המלצה מנומקת
|
||||
|
||||
### דחה: אימוץ מסגרת `hermes-agent` כפלטפורמה
|
||||
**נימוק:** זוהי פלטפורמת-תזמור-סוכנים מלאה (orchestrator/memory/scheduler/ערוצים) המתחרה מבנית ב-Paperclip. אימוצה = **מסלול-פלטפורמה מקביל** המפר G12/INV-PORT1 ([X15](../spec/X15-agent-platform-port.md)) ויוצר את drift-הרוחב שכל הספ מייבש. כבר הכרענו (יוזמת X15/X16): Paperclip = מעטפת ניתנת-להחלפה מאחורי Port; אין מקום לפלטפורמה שנייה.
|
||||
|
||||
### דחה: אימוץ שכבת-ה-memory/dialectic-modeling
|
||||
**נימוק:** שמירת תוכן-משתמש ספציפי לרוחב סשנים מתנגשת ב-INV-LRN5 (טוהר-הקול). פרופיל-הסגנון שלנו במכוון מופשט.
|
||||
|
||||
### ✅ אמץ-רעיון: GEPA/DSPy כ-*מַצִּיע* בתת-מערכת רכישת-הסגנון
|
||||
**הרעיון הספציפי:** אופטימיזציית-פרומפט רפלקטיבית-אבולוציונית של **פרומפטי-הכתיבה ו/או פרופיל-הסגנון**, ממוטבת מול eval-set של זוגות `draft↔final` (INV-LRN4), עם **מטריקה = `style_distance`** (שלב [7] MEASUREMENT, [07-learning §0.3](../spec/07-learning.md)).
|
||||
|
||||
**למה זה נכנס נקי (לא מסלול-מקביל):**
|
||||
1. **מודל-סגור** ✅ — טקסט בלבד, Opus/DeepSeek דרך adapter, $2–10/ריצה.
|
||||
2. **G12** ✅ — חי ב-`mcp-server/src` / style-acquisition; אינו פלטפורמה; אם צריך wakeup → דרך ה-Port.
|
||||
3. **INV-LRN1/G10** ✅ — מַצִּיע בלבד: GEPA מפיק *variant מוצע* → שער-יו"ר (כמו ה-curator היום). **אין auto-commit.** זה גם המודל של Nous עצמם (human-PR).
|
||||
4. **INV-LRN5** ✅ (מגודר) — eval=style-distance, output=סגנון/שיטה; ה-distillation הקיים מפריד מהות במקור.
|
||||
|
||||
### כיצד זה נכנס דרך ה-Port (אם/כשמאשרים) — תת-משימות מוצעות
|
||||
1. **תנאי-סף (gate על הכדאיות):** לאסוף **N≥~15–20 זוגות `draft↔final` מנותחים** (`analyzed`/`lessons_folded`) — eval-set מינימלי ל-GEPA. כיום הקורפוס ~48 החלטות אך זוגות-מנותחים מעטים → **לכן עדיפות נמוכה כעת**; לפתוח כשהפנקס מתמלא.
|
||||
2. **PoC מבודד:** `scripts/gepa_style_optimize.py` (מקומי, כמו `final_learning_pipeline`) — `dspy.GEPA` ממטב את פרומפט-הכתיבה מול `style_distance`; פלט = variant מוצע + דו"ח-שיפור.
|
||||
3. **שער-יו"ר:** ה-variant מוצג ב-`/training` / כ-comment (דרך ה-Port), דפנה/חיים מאשרים → commit ידני ל-skill/prompt. אכיפת INV-LRN1.
|
||||
4. **מדידה:** השוואת `style_distance` לפני/אחרי על holdout — לאמת שיפור-אמת לפני קיבוע.
|
||||
|
||||
**עדיפות:** נמוכה (priority=low במשימה תואם). זהו שדרוג-איכות עתידי לרכישת-הסגנון, לא חוסר קריטי. **להחליט להפעיל רק כשמצטבר eval-set של זוגות.** הכרעת-תקציב/עדיפות — של חיים.
|
||||
|
||||
---
|
||||
|
||||
## מקורות
|
||||
- `NousResearch/hermes-agent` (README + https://hermes-agent.nousresearch.com/docs/) — מסגרת-הסוכן, MIT, model-agnostic.
|
||||
- `NousResearch/hermes-agent-self-evolution` (README) — DSPy+GEPA, API-only, propose-only/human-PR, MIT.
|
||||
- Agrawal et al., **"GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning"**, arXiv:2507.19457 (ICLR 2026 oral) — 6–20% מעל GRPO, פי-35 פחות rollouts.
|
||||
- `dspy.GEPA` (dspy.ai) · `CerebrasResearch/gepa` (standalone `pip install gepa`).
|
||||
- Shinn et al., **Reflexion** (NeurIPS 2023) · Wang et al., **Voyager** (2023) · Park et al., **Generative Agents** (2023) — להשוואה.
|
||||
- ספ-פנימי: [07-learning.md](../spec/07-learning.md) (INV-LRN1/4/5) · [X15](../spec/X15-agent-platform-port.md) (G12) · [X16](../spec/X16-pipeline-durability.md) · [hermes-curator.md](../../.claude/agents/hermes-curator.md).
|
||||
106
docs/research/hermes-runtime-and-self-learning-state.md
Normal file
106
docs/research/hermes-runtime-and-self-learning-state.md
Normal file
@@ -0,0 +1,106 @@
|
||||
# Hermes כ-runtime אצלנו, וה-self-learning האינרטי — חקירה + playbook להפעלה מלאה
|
||||
|
||||
> **TaskMaster #126** (המשך ל-[#123](hermes-nous-feasibility.md)) · תאריך: 2026-06-11
|
||||
> **למה המסמך קיים:** כדי שאם אי-פעם נרצה להפעיל את **סוכן ה-Hermes המלא** (עם לולאת ה-self-learning), לא נצטרך לחזור על החקירה הזו. מתעד מה אנחנו מריצים בפועל היום, מה דלוק-אך-אינרטי, ומה צריך כדי להדליק אותו נכון.
|
||||
|
||||
---
|
||||
|
||||
## 1. מה אנחנו מריצים בפועל היום
|
||||
|
||||
הסוכן "הרמס" אצלנו = ה-adapter `deepseek_local` שמריץ את **ה-CLI האמיתי של Nous Hermes** כ-runtime, מכוון ל-DeepSeek:
|
||||
|
||||
```
|
||||
hermes chat -q "<prompt>" -Q -m deepseek-v4-pro --provider custom -t <toolsets> --source tool --yolo
|
||||
```
|
||||
|
||||
| רכיב | ערך | מקור |
|
||||
|------|-----|------|
|
||||
| בינארי | `hermes` (`HERMES_CLI`) | `adapters/deepseek-paperclip-adapter/dist/shared/constants.js:9` |
|
||||
| תווית-adapter | **"DeepSeek (via Hermes)"** (`deepseek_local`) | `constants.js:5-6` |
|
||||
| מודל | `deepseek-v4-pro` (provider `custom` → `api.deepseek.com/v1`) | `config.yaml` של הפרופיל |
|
||||
| `HERMES_HOME` | `~/.hermes/profiles/curator-cmp` (CMP) · `curator-cmpa` (CMPA) | adapterConfig.env (per-company) |
|
||||
| invocation | חד-פעמי `-q ... -Q` (quiet, non-interactive), ללא gateway חי | `dist/server/execute.js:240-249` |
|
||||
| חיבור MCP | `mcp_servers.legal-ai` בקונפיג → ה-CLI יכול לקרוא לכלי-MCP שלנו | `config.yaml` |
|
||||
|
||||
**מסקנה חשובה:** Hermes כאן הוא ה-**runtime/harness** (terminal + לולאת-כלים + provider→DeepSeek + MCP), **לא** "המוח הלומד". ההצהרה ב-#123 "grep=0, קוד Nous לא שולב" נכונה לגבי **לולאת ה-self-learning** — לא לגבי ה-CLI כ-runtime, שכן משמש.
|
||||
|
||||
### זהות הסוכן ב-Paperclip
|
||||
- שם-הסוכן ב-Paperclip כבר **"מנהל ידע"** (role `qa`) — **לא** "Hermes".
|
||||
- ה-wakeup הוא לפי **UUID** (`CURATOR_AGENTS[company_id]` ב-`web/paperclip_client.py:50-53`: CMP=`60dce831…`, CMPA=`d6f7c55d…`) — **לא לפי שם**. ⇒ שינוי-שם-תצוגה אינו שובר את ה-wakeup.
|
||||
- ה-persona "Hermes" יושב רק ב: שדה ה-`description` ("Knowledge Curator (Hermes…)"), טקסט ה-system-prompt ב-[hermes-curator.md](../../.claude/agents/hermes-curator.md), שם-הקובץ, ופרוזה בתיעוד.
|
||||
|
||||
---
|
||||
|
||||
## 2. ה-self-learning דלוק ב-config — אבל אינרטי
|
||||
|
||||
ב-`~/.hermes/profiles/curator-cmp/config.yaml` ו-`curator-cmpa/config.yaml` (שורות ~296-328) הפיצ'רים **דלוקים כברירת-מחדל**:
|
||||
|
||||
```yaml
|
||||
memory:
|
||||
memory_enabled: true # זיכרון 3-שכבתי
|
||||
user_profile_enabled: true # מידול-משתמש (dialectic / Honcho)
|
||||
nudge_interval: 10
|
||||
skills:
|
||||
creation_nudge_interval: 15 # נדנוד ליצירת-skills
|
||||
curator:
|
||||
enabled: true # ה-curator הפנימי של Hermes (אוצר זיכרון, כל 168 שעות)
|
||||
```
|
||||
|
||||
**אבל הם לא רצים בפועל**, כי:
|
||||
- ה-adapter מפעיל את ה-CLI **חד-פעמית** (`-q … -Q`) בכל יקיצה ואז יוצא — אין gateway/דמון חי.
|
||||
- ה-curator-הפנימי (interval 168h), flush-הזיכרון (`flush_min_turns`), ונדנוד-ה-skills תלויים בתהליך מתמשך/רב-תור — שלא קיים.
|
||||
|
||||
### עדות פורנזית (state.db של ה-curator-ים)
|
||||
`~/.hermes/profiles/curator-cmp/state.db` (15M) · `curator-cmpa/state.db` (4.6M). טבלאות:
|
||||
|
||||
| יש | אין |
|
||||
|----|-----|
|
||||
| `messages` (555 / 159) — תמלילי-ריצה | ❌ `memories` (זיכרון מזוקק) |
|
||||
| `sessions` (60 / 5) — מטא + billing | ❌ `user_profile` (מודל-דפנה) |
|
||||
| `messages_fts*` — אינדקס FTS5 | ❌ `skills` שנוצרו אוטומטית |
|
||||
|
||||
- התוכן היחיד = **תמלילי-הריצות של ה-curator** (קרא טיוטה↔סופי, רשם ממצאים, הציג interaction) — בדיוק הפלט שכן צרכנו (comments + `decision_lesson`).
|
||||
- סשנים ללא כותרות, `$0.00` עלות מתועדת, חלקם 0-2 הודעות (יקיצות-סרק).
|
||||
- טווח-פעילות: **2026-05-05 → 2026-05-26** (CMP), עד 8.6 (CMPA). רדום מאז.
|
||||
|
||||
**שורה תחתונה:** משלושת הדיפרנציאטורים של Hermes (memory / user-model / skill-acquisition) נוצרו **אפס שורות**. מה ש"לא צרכנו" = לוגים תמימים, לא ידע מזוקק. ⇒ מ-self-learning מקבלים **אפס** ערך; מנצלים את ה-harness בלבד.
|
||||
|
||||
---
|
||||
|
||||
## 3. ההחלטה (מיושמת ב-#126)
|
||||
|
||||
| פעולה | נימוק |
|
||||
|------|-------|
|
||||
| **כיבוי self-learning** בשני config.yaml (`memory_enabled/user_profile_enabled/curator.enabled=false`, skill-nudge off) | מסיר config-מת, הופך את "אנחנו לא מריצים self-learning" לאמיתי, מיישר ל-INV-LRN1/LRN5. הפיך (גיבוי שמור). |
|
||||
| **ניקוי persona** Hermes→Curator בטקסט-הפרומפט + description + תיעוד | השם נעשה כן: סוכן **Curator/אוצֵר-ידע** שרץ על runtime DeepSeek-via-Hermes. |
|
||||
| **שמירת** `HERMES_HOME`/`HERMES_CLI`/"via Hermes" | זה ה-runtime ונכון — סריקה עיוורת של "hermes" הייתה שוברת את ה-adapter. |
|
||||
|
||||
ה-learning האמיתי שלנו נשאר הצינור הדטרמיניסטי המגודר (`final_learning_pipeline` + פאנלים + שער-יו"ר), לא ה-self-learning של Hermes.
|
||||
|
||||
---
|
||||
|
||||
## 4. ⭐ Playbook: איך להפעיל את סוכן ה-Hermes המלא (אם נרצה בעתיד)
|
||||
|
||||
זה מה שיידרש כדי להפוך את ה-curator מ"runtime דק" ל-"סוכן Hermes לומד" — ולמה לא עשינו זאת:
|
||||
|
||||
### 4.1 שכבת-ה-runtime (טכני)
|
||||
1. **gateway מתמשך במקום one-shot.** היום `hermes chat -q … -Q` יוצא אחרי תור אחד. צריך תהליך-Hermes חי (`hermes gateway`/דמון) או `--resume` עקבי עם session מתמשך כך שה-memory-flush, ה-curator-הפנימי, ונדנוד-ה-skills יוכלו לרוץ. ⇒ שינוי ב-`deepseek-paperclip-adapter` (לא רק config).
|
||||
2. **session persistence.** לוודא ש-`persistSession` + `sessionId` נשמרים בין יקיצות-ה-curator של אותו תיק/חברה (ה-adapter תומך — `execute.js:251-252,376-378` — אך תלוי שמירת `sessionParams` ב-Paperclip).
|
||||
3. **הדלקת הפיצ'רים** ב-config.yaml: להחזיר `memory_enabled/user_profile_enabled/curator.enabled=true` + לכוון `nudge_interval`/`flush_min_turns`. (Honcho ל-dialectic-modeling דורש הגדרת `honcho:` — כרגע ריק.)
|
||||
|
||||
### 4.2 שכבת-הממשל (חובה לפני — אחרת מפר את החוקה)
|
||||
4. **INV-LRN1/G10 (אין auto-commit):** memory/skills של Hermes שמשנים את עצמם אוטומטית **אסורים** כשער-ידע. כל פלט-למידה חייב להישאר *הצעה* לשער-יו"ר. ⇒ אם מדליקים, לגדר כך שה-memory/skills של Hermes לא יוזרקו לכתיבה בלי אישור.
|
||||
5. **INV-LRN5 (טוהר-הקול):** ה-3-layer memory + user-model שומרים תוכן-תיק ספציפי. אסור שמהות (הלכה/עובדה) תדלוף לשכבת-הקול. ⇒ צריך distillation שמפריד סגנון↔מהות *לפני* שנכנס לזיכרון-Hermes, או לבודד את זיכרון-Hermes מהקורפוס.
|
||||
6. **G12 (שער-הפלטפורמה):** Hermes כ-runtime מותר (מאחורי ה-adapter/Port). אבל אם מפעילים את ה-orchestration/scheduler/ערוצים שלו — זו פלטפורמת-סוכנים מקבילה ל-Paperclip ⇒ אסור (ראה [#123 §ב](hermes-nous-feasibility.md)).
|
||||
|
||||
### 4.3 ההכרעה הנוכחית
|
||||
**לא להפעיל.** הסיבה (מ-#123 + החקירה כאן): ה-self-learning של Hermes מתנגש בממשל שלנו (4-6), והערך שלו מושג כבר ע"י הצינור המגודר שלנו + רעיון-GEPA (#123). ה-runtime נשאר; ה-"מוח" כבוי.
|
||||
|
||||
---
|
||||
|
||||
## 5. מקורות-קוד / הפניות
|
||||
- runtime: `adapters/deepseek-paperclip-adapter/dist/{shared/constants.js,server/execute.js}` · `~/.hermes/profiles/curator-{cmp,cmpa}/config.yaml`
|
||||
- זהות+wakeup: `web/paperclip_client.py:50-53` (CURATOR_AGENTS), `:1188-1245` (wake_curator_for_final)
|
||||
- persona/prompt: `.claude/agents/hermes-curator.md`
|
||||
- ספ: [07-learning.md](../spec/07-learning.md) (INV-LRN1/4/5) · [X15](../spec/X15-agent-platform-port.md) (G12) · [#123 feasibility](hermes-nous-feasibility.md)
|
||||
- זיכרון: `reference_hermes_home_gotcha`
|
||||
@@ -78,13 +78,14 @@
|
||||
|
||||
אלה החוקים החוצים את כל המערכת — לב החוקה. הם נחלקים לשני סוגים לפי **מקור-הסמכות**:
|
||||
|
||||
- **G1–G10 — invariants הנדסיים** (תכנון/בניית האפליקציה): כל אחד מגובה ב-**≥3 סמכויות
|
||||
- **G1–G10, G12 — invariants הנדסיים** (תכנון/בניית האפליקציה): כל אחד מגובה ב-**≥3 סמכויות
|
||||
טכניות מוכרות** (נספח §8). ביחד הם מייבשים את כשל-השורש החוזר: מסלולים/קורפוסים
|
||||
מקבילים שמתפצלים (drift) בלי שכבה שמגדירה ואוכפת "תקין".
|
||||
מקבילים שמתפצלים (drift) בלי שכבה שמגדירה ואוכפת "תקין". (G12 — שער-הפלטפורמה — מוסף
|
||||
במחזור-3; ראה [X15](X15-agent-platform-port.md).)
|
||||
- **G11 — invariant תוכן-משפטי:** הסמכות עליו היא **היו"ר (דפנה) + מסמכי-הפרויקט**, לא
|
||||
מקורות חיצוניים, ואינו כפוף לפרוטוקול ≥3-המקורות.
|
||||
|
||||
### 5א. Invariants הנדסיים (G1–G10)
|
||||
### 5א. Invariants הנדסיים (G1–G10, G12)
|
||||
|
||||
### INV-G1: מזהה קנוני מנורמל בכתיבה
|
||||
**כלל:** לכל ישות יש מזהה קנוני יחיד, **מנורמל בנקודת-הכתיבה** (לא תיקון-סלחני בקריאה
|
||||
@@ -108,6 +109,11 @@ Fowler (Canonical Data Model) · SSOT (Single Source of Truth) | סטטוס: ver
|
||||
`ingest_internal_decision`) שמתפצלים — לדוגמה: המסלול החיצוני מתזמן חילוץ metadata
|
||||
(`request_metadata_extraction`), והמסלול הפנימי לא — ולכן ערן סופר 8046/24 נקלטה בלי
|
||||
metadata → ממצא ל-[audit](../audit-report.md).
|
||||
**הפרה ידועה (תאום-מתודולוגיה, MET-2/3 — מותנה בגל-2 #131):** `discussion_rules['universal']`
|
||||
ו-`transition_phrases['universal']` ב-`appeal_type_rules` נכתבים ע"י **שני** מסלולים — עורך-המתודולוגיה
|
||||
(PUT, overwrite) ו-promote-הלמידה (append). **מותן:** ה-append רץ בטרנזקציה אחת נעולה (FOR UPDATE) +
|
||||
promote מבטל את ה-cache של /methodology (גל-1 MET-1), כך שעורך-המתודולוגיה הוא העורך-הקנוני שעורך
|
||||
תמיד מצב פוסט-append. שאריות (עריכה בטאב באמת-stale) מקובלות בכלי-יחיד-משתמש; ראה [X17 INV-IA3](X17-information-architecture.md), [ia-audit-redesign.md](../ia-audit-redesign.md) §2.5.
|
||||
|
||||
### INV-G3: ingest אחיד ו-idempotent
|
||||
**כלל:** קליטה היא **אחידה ו-idempotent** — upsert על מפתח דטרמיניסטי. קליטה חוזרת של
|
||||
@@ -196,6 +202,22 @@ Hellyer (Law Library Journal 110:4, 2018, open-access) — טיפול-שיפוט
|
||||
**הפרה ידועה:** 10/19 הלכות מאושרות, התגלה במקרה — שער ידני שקוף בלי נראות backlog →
|
||||
ממצא ל-[audit](../audit-report.md).
|
||||
|
||||
### INV-G12: שער-הפלטפורמה — Paperclip מאחורי Port יחיד
|
||||
**כלל:** פלטפורמת-הסוכנים (Paperclip) נגישה אך-ורק דרך **ה-Platform Port**
|
||||
(`web/agent_platform_port.py` + `.claude/agents/HEARTBEAT.md` לפרומפטים). שכבת-האינטליגנציה
|
||||
— `mcp-server/src` וה-skills של ההחלטה/הסגנון — מכילה **אפס** סמלים ספציפיים-לפלטפורמה
|
||||
(שם-מוצר, wakeup/heartbeat, pc.sh/pc_request, X-Paperclip-Run-Id, enums של הפלטפורמה).
|
||||
פרומפטי-הסוכנים אינם משכפלים את פרוטוקול-הריצה — הם מצביעים ל-HEARTBEAT.md בלבד. כל מגע
|
||||
חדש עם הפלטפורמה עובר דרך ה-Port — כך המעטפת נשארת ניתנת-להחלפה בלי לגעת באינטליגנציה.
|
||||
**מקורות:** Alistair Cockburn — *Hexagonal Architecture (Ports & Adapters)* · Robert C.
|
||||
Martin — *Clean Architecture* (The Dependency Rule) · Eric Evans — *Domain-Driven Design*
|
||||
(Anti-Corruption Layer) | סטטוס: verified
|
||||
**אכיפה:** רשימת-ה-Port + leak-guard ב-[scripts/spec-guard.sh](../../scripts/spec-guard.sh)
|
||||
(מול baseline) + fitness-test ב-CI על `mcp-server/src` + הצהרת-G12 בתבנית-ה-PR; מפורט ב-
|
||||
[X15-agent-platform-port.md](X15-agent-platform-port.md).
|
||||
**הפרה ידועה:** `web/app.py` קורא ל-`pc_*` inline בלוגיקת מחזור-חיים; 10 פרומפטי-סוכנים
|
||||
משכפלים את פרוטוקול-הריצה במקום להצביע ל-HEARTBEAT (baseline ב-[X15](X15-agent-platform-port.md) §3 → R1–R4).
|
||||
|
||||
### 5ב. Invariant תוכן-משפטי (G11)
|
||||
|
||||
### INV-G11: תוכן החלטה מנומקת
|
||||
@@ -227,11 +249,11 @@ Hellyer (Law Library Journal 110:4, 2018, open-access) — טיפול-שיפוט
|
||||
|
||||
## 7. אינדקס הספ
|
||||
|
||||
> הערה: כל קבצי הספ (00, 01–07, X1–X12) קיימים. החוקה היא שער-הכניסה; כל קובץ-תחום כפוף לה.
|
||||
> הערה: כל קבצי הספ (00, 01–07, X1–X17) קיימים. החוקה היא שער-הכניסה; כל קובץ-תחום כפוף לה.
|
||||
|
||||
| קובץ | תפקיד | אוכף invariants |
|
||||
|------|--------|-----------------|
|
||||
| [00-constitution.md](00-constitution.md) | חוקה — ייעוד, invariants גלובליים, כללי-הנדסה, אינדקס | G1–G11 |
|
||||
| [00-constitution.md](00-constitution.md) | חוקה — ייעוד, invariants גלובליים, כללי-הנדסה, אינדקס | G1–G12 |
|
||||
| [01-ingest.md](01-ingest.md) | קליטה מאוחדת: מסמכי-תיק / פסיקה חיצונית / החלטות-ועדה — חוזה מסלול-יחיד | G2, G3 |
|
||||
| [02-data-model.md](02-data-model.md) | אחסון: ישויות (cases, case_law, documents, chunks, halachot…) + חוזה-שלמות לכל ישות | G1, G4, G6 |
|
||||
| [03-retrieval.md](03-retrieval.md) | 3 קורפוסים + כלי-חיפוש · hybrid/RRF · attribution · eval harness | G4, G5, G6, G7, G8, G9 |
|
||||
@@ -252,6 +274,10 @@ Hellyer (Law Library Journal 110:4, 2018, open-access) — טיפול-שיפוט
|
||||
| [X11-citation-corroboration.md](X11-citation-corroboration.md) | citator פנימי — תיקוף הלכות בטיפול-שיפוטי מצטבר · תיקון-G10 מבוקר · סף-corroboration · התאמה-להלכה | G9, G10 |
|
||||
| [X12-digests-radar.md](X12-digests-radar.md) | יומונים כשכבת-גילוי (radar) — מקור-משני המצביע על הפסק המקורי · לא קורפוס-ציטוט רביעי · לא מצוטט/לא מחלץ-הלכות | G2, G4, G9 |
|
||||
| [X13-court-fetch.md](X13-court-fetch.md) | אחזור-פסיקה אוטומטי מנט המשפט — 3 שכבות (עליון/מנהלי/skip) · שירות-מארח · reCAPTCHA · שער-אנושי | G2, G3, G4, G5, G9, G10 |
|
||||
| [X14-storage-minio.md](X14-storage-minio.md) | אחסון-אובייקטים (MinIO/S3) · `storage.py` כמסלול-I/O יחיד · git=טקסט/MinIO=בינאריים · WORM סופי | G2, G9 |
|
||||
| [X15-agent-platform-port.md](X15-agent-platform-port.md) | שער-הפלטפורמה — Paperclip מאחורי Port יחיד · baseline-דליפה · R0–R4 · leak-guard | G2, G12 |
|
||||
| [X16-pipeline-durability.md](X16-pipeline-durability.md) | עמידות-פייפליין — LangGraph כספרייה · checkpointing/replay · `_pipeline_runtime.py` משותף | G3 |
|
||||
| [X17-information-architecture.md](X17-information-architecture.md) | ארכיטקטורת-מידע — משטח-ההפעלה (דפים/תורים/ניווט/cache) · INV-IA1–IA6 מרימים G2/G10 לשכבת-UI · #127/#130–132 | G2, G10 |
|
||||
|
||||
> **X6–X10 (מחזור-2):** מכסים את 8 משטחי-האפליקציה שמחוץ לצינור-הליבה (אינטגרציה, web-ui, מילוי-שדות,
|
||||
> אחסון-ניתוחים, כלי-MCP, deploy/env). הממצאים ב-[gap-audit.md](gap-audit.md) (GAP-24..62 → FU-9..15)
|
||||
|
||||
@@ -30,6 +30,7 @@
|
||||
| `chair_feedback` | הערת-יו"ר על טיוטה | `id`; FK→`cases` | `block_id`, `feedback_text`, `category`, `lesson_extracted`, `resolved` (`db.py:452-462`) |
|
||||
| `missing_precedents` | תקדים חסר שהתבקש ולא נמצא | `id` | (`db.py:806`) — backlog ל-quality-at-source |
|
||||
| `style_corpus` | קורפוס-סגנון של דפנה (אימון) | `id`; FK→`documents` | `decision_number`, `full_text`, `practice_area`, `appeal_subtype` (`db.py:118-131`) |
|
||||
| `plans` | מרשם-תכניות — זהות+תוקף של תב"ע, שימוש חוזר בין תיקים (V38) | `plan_number` מנורמל (`UNIQUE`) | `display_name`, `aliases`, `plan_type`, `gazette_date`, `yalkut_number`, `purpose`, `citation_formatted`, `review_status`, provenance (`source_case_number`/`source_document_id`/`model_used`), `discrepancies` (SCHEMA_V38) |
|
||||
|
||||
> שכבות-עזר נוספות (`document_image_embeddings`, `precedent_image_embeddings` — multimodal,
|
||||
> `db.py:707,726`; `case_law_relations` — שרשרת-תיק, `db.py:754`; `precedent_internal_citations`
|
||||
@@ -87,6 +88,7 @@ proceeding_type)`. לכן המזהה הקנוני הוא **(`case_number` מנו
|
||||
| `legal_arguments` (+`legal_argument_propositions`) | OPUS (`aggregate_claims_to_arguments`) | **חסר** (בניגוד ל-halachot) | `cited_precedents TEXT[]` (לא-FK) |
|
||||
| `appraiser_facts` | OPUS (`extract_appraiser_facts`) | — | `document_id` (FK); `appraiser_side` default `''` |
|
||||
| `halachot` | OPUS (`halacha_extractor`) | **`review_status`** ✓ | `case_law_id` (FK); `quote_verified` |
|
||||
| `plans` | claude-local (`plans_extractor`) / ידני-יו"ר (`plan_upsert`) | **`review_status`** ✓ (כמו halachot, INV-DM5/G10) | `source_document_id` (FK); `source_case_number`; `discrepancies` (סתירת-תוקף מול שורה מאושרת — לא-דורס, §6) |
|
||||
| `decision_blocks` / `decision_paragraphs` | Opus/script (`write_block`) | `status` | `model_used` + audit-event provenance (FU-7); `citations JSONB` ללא-FK |
|
||||
|
||||
---
|
||||
@@ -155,6 +157,14 @@ RAG freshness (Lewis et al., 2020, NeurIPS) | סטטוס: verified
|
||||
**אכיפה:** CHECK על enums; FK על `cited_precedents`/`decision_paragraphs.citations`; איחוד `case_precedents`↔`case_law`.
|
||||
**הפרה ידועה:** 20+ enums כ-TEXT חופשי; `legal_arguments.cited_precedents TEXT[]` ללא-FK (הזיות-LLM נבלעות); `case_precedents` מול `case_law` מקבילות ([gap-audit GAP-40/42/43](gap-audit.md)).
|
||||
|
||||
### INV-DM7: סיווג-הלכה — סמכות (נגזרת) ⊥ תפקיד-כלל (מסווג). שני צירים, לא enum אחד
|
||||
**כלל:** ל-`halachot` שני צירי-סיווג **אורתוגונליים** שאסור לערבב בשדה אחד:
|
||||
- **סמכות (`authority`) — נגזרת בלבד, לא מאוחסנת, לא מנוחשת ע"י LLM.** `binding` (מקור מחייב את הוועדה: עליון/מנהלי) מול `persuasive` (מקור משכנע: ועדת-ערר אחרת). נגזרת דטרמיניסטית מ-`case_law.precedent_level` (`עליון`/`מנהלי`→binding; `ועדת_ערר_מחוזית`→persuasive). מקור-אמת יחיד — מחושבת בקריאה, אין עמודה כפולה ([G1](00-constitution.md#inv-g1-נרמול-במקור-לא-תיקון-בקריאה)/[G2](00-constitution.md#inv-g2-מקור-אמת-יחיד--אין-מסלולים-מקבילים-מתפצלים)).
|
||||
- **תפקיד-כלל (`rule_type`/rule_role) — מסווג ע"י ה-LLM.** `holding` (עיקרון מהותי הכרחי להכרעה — ratio/Wambaugh) · `interpretive` (פרשנות חוק/מונח/תכנית) · `procedural` (סדר-דין: סמכות/מועדים/נטל) · `application` (החלה תלוית-עובדות — לרוב לא-הלכה) · `obiter` (אמרת-אגב). **`binding`/`persuasive` אינם ערכי תפקיד** — הם סמכות-מקור.
|
||||
**הנדסי.** מופע של [G1](00-constitution.md#inv-g1-נרמול-במקור-לא-תיקון-בקריאה) (נרמול במקור: המחלץ מסווג תפקיד, לא ממציא סמכות נגזירה) ו-[G2](00-constitution.md#inv-g2-מקור-אמת-יחיד--אין-מסלולים-מקבילים-מתפצלים).
|
||||
**מקורות:** OASIS LegalRuleML v1.0 (`appliesAuthority`/`Strength` כ-metadata אורתוגונלי, נפרד מלוגיקת-הכלל) · SemEval-2023 Task 6 LegalEval (rhetorical-roles לפי תפקיד, סמכות נשמרת בנפרד) · Bluebook signals (משקל-סמכות = ציר נפרד מהפרופוזיציה) | סטטוס: verified (≥3 מקורות).
|
||||
**ההפרה שתוקנה:** `halacha_extractor` סיווג `rule_type` לפי bindingness-של-המקור (`_coerce_halacha(is_binding)`, ברירת-מחדל `binding`/`persuasive`, guard binding→persuasive) — כלומר חישב **סמכות** במסווה של **תפקיד**. אומת אמפירית על מדגם-הזהב: `binding` שימש 19/19 פסקים חיצוניים ו-0 ועדות; `persuasive` 13/13 ועדות ו-0 חיצוניים → סיווג-לפי-מקור, התאמה לתיוג-אנושי 58% בלבד. התיקון מעביר סמכות לציר-נגזר ומשחרר את ה-LLM לסווג תפקיד נטו.
|
||||
|
||||
---
|
||||
|
||||
## 4. מצב קיים מול יעד — audit-findings
|
||||
|
||||
@@ -72,6 +72,13 @@
|
||||
— שם §4. **טיוטת-ביניים** (Pre-Ruling Draft) בוחרת תת-קבוצת בלוקים (ו, ט, ז, ח) —
|
||||
block-schema.md §7; שלב-החילוץ השמאי שלה (`extract_appraiser_facts`) מזין את בלוק ט.
|
||||
|
||||
> **ציטוט-תכנית קנוני (בלוק ט):** הזהות והתוקף של תכנית (תאריך פרסום למתן תוקף
|
||||
> ברשומות + מס' ילקוט-הפרסומים) נכתבים בנוסח אחיד **דטרמיניסטי** מ**מרשם-התכניות**
|
||||
> (`plans`, [02-data-model](02-data-model.md)) דרך `db.format_plan_citation` — לא
|
||||
> מנוסחים מחדש ע"י ה-LLM, ובכך לא מהוזים ([anti-hallucination-gate](../anti-hallucination-gate.md),
|
||||
> INV-AH). הנוסח עצמו הוא תוכן-משפטי באחריות היו"ר ([block-schema.md](../block-schema.md)
|
||||
> בלוק ט); המרשם נכנס לשימוש רק אחרי אישור-יו"ר (`review_status`, G10).
|
||||
|
||||
> **התמקדות לפי feedback היו"ר:** הסיוע מתמקד בבלוקים המהותיים (ו–יב); בלוקים א–ד
|
||||
> ממולאים מ-template ואינם דורשים ניתוח. ראה `MEMORY.md` → "התעלם מכותרות".
|
||||
|
||||
|
||||
@@ -43,7 +43,9 @@
|
||||
`mark-final` → [1] INTAKE (snapshot של הטיוטה) → [2] PAIRING (בלוק↔בלוק) → [3] ALIGNMENT (diff פר-בלוק) → [4] DISTILLATION (מפריד סגנון↔מהות) → [5] CURATION (Hermes + שער-יו"ר) → [6] FEEDBACK (ניתוב לערוץ A/B/C) → [7] MEASUREMENT (מדד-מרחק-סגנון).
|
||||
|
||||
### 0.4 ניהול ב-UI
|
||||
`/methodology` = **עורך-הפרופיל** (declarative: יחסי-זהב, כללי-דיון, צ׳קליסטים, ביטויי-מעבר, אנטי-דפוסים, voice-invariants). `/training` = **שולחן-הלמידה** (קורפוס, פורטרט-סגנון, השוואת draft↔final, curator, מדד-מרחק, פנקס-התאמה).
|
||||
`/methodology` = **עורך-הפרופיל היחיד** (declarative: יחסי-זהב, כללי-דיון, צ׳קליסטים, ביטויי-מעבר, אנטי-דפוסים, voice-invariants). `/training` = **שולחן-הלמידה** (קורפוס, פורטרט-סגנון, השוואת draft↔final, curator, מדד-מרחק, פנקס-התאמה).
|
||||
|
||||
**שער-אישור אחד · טרנזקציית-כותב אחת (INV-IA3 → [X17](X17-information-architecture.md)):** ל-`decision_lesson` יש **סטטוס-יחיד** שקובע "זורם-לכותב" — `review_status='approved'` (INV-LRN1/G10). הדגל `applied_to_skill` **הוסר** (היה אינפורמטיבי-בלבד, נכתב-לשומקום → בלבל את היו"ר ב"שני שערים"; גל-2 #131). לקח שהיו"ר מחבר ידנית נוצר כבר כ-`approved`; לקח-פאנל נוצר כ-`proposed` וממתין לשער. promote של זוג draft↔final מטמיע את הלקחים/הביטויים שהיו"ר בחר **דרך appeal_type_rules בטרנזקציה אחת נעולה (FOR UPDATE)** — מסלול-כתיבה-יחיד, ללא read-modify-write מתפצל מול עורך-המתודולוגיה (MET-2/3, להלן G2 הפרות-ידועות).
|
||||
|
||||
### 0.5 Invariants חדשים
|
||||
**INV-LRN4 (ניגוד-אמת → G10/G9):** למידת-קול מבוססת **pairing draft↔final ברמת-בלוק**, לא קריאת-final בלבד. כל החלטה אינה "סגורה" עד שהושוותה מול הסופי; כל סופי מנותח מול הטיוטה. נשמר פנקס-התאמה (`draft_final_pairs`) עם מצב-חיים `draft_done → final_received → analyzed → lessons_folded`.
|
||||
@@ -52,6 +54,18 @@
|
||||
**INV-LRN5 (טוהר-הקול → G4/G11):** שכבת-ידע-הקול (voice-fingerprint, style_patterns, exemplars) **לא תכיל הלכות/עובדות ספציפיות** — רק סגנון ושיטה. מהות מנותבת ל-precedent_library/halacha. ה-distillation מפריד במקור.
|
||||
*מקורות:* quality-at-source (Data Mesh) · separation-of-concerns. *סטטוס: verified.*
|
||||
|
||||
### 0.6 מסלול-העלאת-סופי נקי + פאנלים אוטומטיים (מדורג)
|
||||
היו"ר מעלה את **ההחלטה החתומה שלה** דרך מסלול ייעודי — `POST /api/cases/{case}/final/upload` (כפתור "העלאת החלטה סופית של היו"ר" בלשונית-הטיוטות). **נבדל** מ-`exports/upload` (גרסה-מתוקנת-שלנו+retrofit) ומ-`mark-final` (סימון export-שלנו), ולכן אינו מסלול-מקביל (G2) אלא יכולת חסרה.
|
||||
הקליטה (סינכרונית ב-endpoint) מבצעת את **לולאת-צמיחת-הקורפוס** (§1.3) במלואה:
|
||||
1. **קורפוס-הסגנון** (voice) תחת ה-`case_number` **המלא** (בל"מ≠ערר — מונע התנגשות-מספר) + פתיחת `draft_final_pairs` (`final_received`, INV-LRN4).
|
||||
2. **ספריית-הפסיקה** — ההחלטה נכנסת ל-`case_law` כ-`internal_committee` **תמיד** (כדי שתהיה ברת-ציטוט בהחלטות עתידיות). `chair_name` נקבע **דטרמיניסטית** (תיק → ברירת-מחדל-ועדה, לעולם לא ריק — אילוץ `case_law_internal_chair_check`); לא נשען על חילוץ-LLM. מטה-דאטה נוסף (תאריך/צדדים) מועשר אסינכרונית ע"י מחלץ-Gemini.
|
||||
3. **בדיקת-ציטוטים** — `extract_internal_citations` מקשר את הפסיקה שההחלטה מצטטת לספרייה; כל ציטוט שאינו בספרייה **מסומן אוטומטית** כ-`missing_precedent` (open) להעלאה ע"י היו"ר.
|
||||
4. הציטוטים-המקושרים מזינים את **לולאת-ה-corroboration** (X11): ציטוט-נכנס מההחלטה שלנו מחזק את ההלכות של התקדים המצוטט (`corroboration_rebuild`).
|
||||
ואז שני שלבים אוטומטיים נפרדים (`run-learning` / `run-halacha`) המעירים worker מקומי (claude/DeepSeek/Gemini מקומיים בלבד):
|
||||
- **למידה:** `ingest_final_version` (Opus distillation) → **פאנל-סגנון דו-סוכני** (DeepSeek+Gemini, "למידה כפולה") שמצביע על כל לקח-style_method; הסכמה 2/2 → `decision_lesson` (`source=panel:deepseek+gemini`); פיצול → ליו"ר.
|
||||
- **הלכות:** `extract_internal_citations` → `precedent_extract_halachot` → `corroboration_rebuild` → **פאנל-הלכות תלת-סוכני** (`halacha_panel_approve.py --apply`).
|
||||
שני הפאנלים **הפיכים** (גיבוי-CSV ל-`data/audit/`) ומסלימים מחלוקות. ההטמעה הסופית ל-`SKILL.md`/`legal-decision-lessons.md` נשארת **אישור-יו"ר ידני** (INV-LRN1/G10) — הפאנל יוצר *הצעות* בלבד.
|
||||
|
||||
---
|
||||
|
||||
## 1. שלוש לולאות-המשנה
|
||||
@@ -193,6 +207,48 @@ Dimensions for Data Quality* (2013) · ISO 8000 (Data quality) | סטטוס: ver
|
||||
(`lessons.py:355, 309`). עקיבוּת-מקור קושרת ל-[X5-audit-provenance.md](X5-audit-provenance.md).
|
||||
**הפרה ידועה:** —
|
||||
|
||||
### INV-LRN6: סינתזת-עיקרון-קנוני מעוגנת ומגודרת-שער (V41 Phase 4 → G10/INV-AH/G9)
|
||||
**כלל:** סינתזת ה-`canonical_statement` של עיקרון-הלכה קנוני (מיזוג/זיקוק ניסוחי-המופעים
|
||||
לניסוח אחד כללי) חייבת לקיים שלושה תנאים: **(א) עיגון** — הניסוח נובע מ-`supporting_quote`
|
||||
של המופעים בלבד, ללא הוספת דין/סייג/ציטוט-תיק שאינו במקור; חוסר-עיגון → **הימנעות**
|
||||
(`grounded=false`, נשמר הניסוח הקיים) ולא המצאה ([INV-AH](../anti-hallucination-gate.md), AH-1/2/3).
|
||||
**(ב) שער-drift** — הניסוח המסונתז מוטמע-מחדש ומושווה (cosine) לניסוח-המקור; מתחת לרצפה
|
||||
(`HALACHA_CANONICAL_SYNTH_DRIFT_FLOOR`=0.80) הסינתזה **נדחית** (נשמר המקור) — הטמעה
|
||||
מהוזה/סוטה-נושא לא תדרוס עיקרון תקין בשקט. **(ג) שער-יו"ר** — סינתזה אף פעם אינה מאשרת:
|
||||
היא מקדמת `review_status` מ-`pending_synthesis` ל-`pending_review` בלבד; ההכרעה הסופית
|
||||
היא של היו"ר בפאנל ([INV-LRN1](#inv-lrn1-עדכון-ידע-דורש-אישור-יור-ידני--אין-auto-commit-governance-g10)/G10).
|
||||
כל ניסיון-סינתזה (התקבל / נשמר-מקור / נמנע) **מתועד** (CSV ב-`data/audit/` + log), ובהטמעה
|
||||
מתעדכן ה-embedding יחד עם הניסוח כדי ש-lookup-before-insert (cosine) לא יסחף ([INV-G6](00-constitution.md#inv-g6-re-index-בכל-שינוי-תוכן)).
|
||||
**מסלול-יחיד (G2):** כל הקוראים (backfill, כלי-MCP `canonical_synthesize_pending`, דריינר-לילה)
|
||||
עוברים דרך `services/canonical_synthesis.py::synthesize_canonical` — אין נתיב-סינתזה מקביל.
|
||||
**מקורות:** Stanford RegLab/Magesh et al. (JELS 2025 — grounding מול הזיה) · Dhuliawala et al.
|
||||
*Chain-of-Verification* (arXiv:2309.11495, 2023) · RAGAS faithfulness (atomic-claim grounding) | סטטוס: verified
|
||||
**אכיפה:** `services/canonical_synthesis.py` (עיגון בפרומפט, `_new_citations`, שער-drift);
|
||||
`db.apply_canonical_synthesis` (סטטוס→pending_review אטומי + רענון-embedding); הפאנל הקנוני
|
||||
(`/precedents`, PR#300) לאישור-יו"ר; CSV-audit ב-`data/audit/canonical-synthesis-*.csv`.
|
||||
**הפרה ידועה:** — (חדש)
|
||||
|
||||
### INV-LRN7: חילוץ-עקרונות מגודר-פאנל + טרמינולוגיה נכונה (#152 → G2/G10/INV-AH)
|
||||
**כלל:** חילוץ עקרונות-משפטיים מפסיקה (להבא ורטרואקטיבית) עובר משטר-פאנל אחיד:
|
||||
**3 מודלים עצמאיים** (Claude מקומי + DeepSeek + Gemini) מנתחים לעומק כל החלטה,
|
||||
מציעים מועמדים עם ציון, המועמדים מותאמים בין-מודלית (cosine), ולכל אחד `votes`
|
||||
(# מודלים) ו-`score` (ממוצע-המצביעים). **כלל-אישור:** 3 קולות→אישור · 2 וציון≥0.85→
|
||||
אישור · 2 ו<0.85→`pending_review` (יו"ר, G10) · ≤1→נדחה. **תקרה:** עד
|
||||
`HALACHA_PANEL_MAX_NEW`=5 עקרונות חדשים לכל החלטה (לפי ציון); עיקרון מוכר מקושר
|
||||
ל-canonical קיים (cosine, V41) ואינו נספר בתקרה. **טרמינולוגיה (מהות, לא קוסמטיקה):**
|
||||
ועדת-ערר **מיישמת** דין ואינה יוצרת הלכה — עיקרון מפס"ד מחוזי/עליון מחייב = **הלכה**,
|
||||
מהחלטת ועדת-ערר = **כלל פרשני**, מפסיקה משכנעת = **עיקרון**; המטרייה = **עקרונות
|
||||
משפטיים**. הסיווג נגזר מ-`first_established_in` (source_kind/is_binding), ללא עמודה חדשה.
|
||||
**מקור-יחיד (G2):** extractor (`_extract_via_panel`), סינון רטרואקטיבי (`cull_principles.py`),
|
||||
ושני הם דרך `services/panel_extraction` + `panel_judges` — אין נתיב-פאנל מקביל.
|
||||
**מקורות:** gold-set tri-model consensus (AC1=0.92, [[project_goldset_tri_model_consensus]]) ·
|
||||
LegalBench (gemini-2.5-flash) · Trust-or-Escalate (ICLR 2025) | סטטוס: verified
|
||||
**אכיפה:** `services/panel_extraction.py` (panel_extract/panel_keep_score/classify/apply_cap),
|
||||
`services/panel_judges.py`, `halacha_extractor._extract_via_panel`, `db.store_panel_principles`,
|
||||
`scripts/cull_principles.py`, `services/principles.py` (תווית). config `HALACHA_PANEL_*`.
|
||||
החלטת-יו"ר 2026-06-19; מקור-אמת: [`../legal-principles-redesign.md`](../legal-principles-redesign.md).
|
||||
**הפרה ידועה:** — (חדש)
|
||||
|
||||
---
|
||||
|
||||
## 4. הג'ובים המתוזמנים (תמיכת-תשתית ללולאה)
|
||||
|
||||
@@ -3,10 +3,12 @@
|
||||
זהו מקור-האמת הקנוני ל"מהו תקין" במערכת. שער-הכניסה: [00-constitution.md](00-constitution.md).
|
||||
כל invariant מגובה ב-≥3 מקורות סמכותיים; פריט לא-מאומת מסומן ⚠ UNVERIFIED ומועלה ליו"ר.
|
||||
|
||||
מבנה: 00 חוקה · 01–07 מחזור-חיים · X1–X13 חוצי-שלבים. ראה אינדקס מלא בחוקה.
|
||||
מבנה: 00 חוקה · 01–07 מחזור-חיים · X1–X17 חוצי-שלבים. ראה אינדקס מלא בחוקה.
|
||||
- X1–X5: מזהים · רב-חברתי · אינטגרציה+deploy · סוכנים · audit.
|
||||
- X6–X10 (מחזור-2, 8 משטחי-האפליקציה): חוזה UI↔API · לקוח-Paperclip · מילוי-שדות · חוזה כלי-MCP · deploy/env/secrets.
|
||||
- X11–X13 (הרחבות-תחום): citator פנימי (תיקוף-הלכות) · יומונים כשכבת-גילוי (radar) · אחזור-פסיקה אוטומטי מנט המשפט (שירות).
|
||||
- X11–X14 (הרחבות-תחום): citator פנימי (תיקוף-הלכות) · יומונים כשכבת-גילוי (radar) · אחזור-פסיקה אוטומטי מנט המשפט (שירות) · אחסון-אובייקטים (MinIO/S3, הגירת `data/`).
|
||||
- X15–X16 (ארכיטקטורת-יסוד): שער-הפלטפורמה (Paperclip מאחורי Port — G12, מיישם G2) · עמידות-פייפליין (LangGraph כספרייה — checkpointing/replay, מחזק G3).
|
||||
- X17 (ארכיטקטורת-מידע): [X17-information-architecture.md](X17-information-architecture.md) — משטח-ההפעלה (דפים/תורים/ניווט/cache); INV-IA1–IA6 מרימים את G2 ו-G10 לשכבת-ה-UI. מיישם feedback_operational_simplicity.
|
||||
|
||||
מפות-ממצאים: [gap-audit.md](gap-audit.md) (GAP-01..62 → FU-1..15; מחזור-1 ✅ הושלם, מחזור-2 פתוח) · [ui-audit.md](ui-audit.md) (ביקורת 13 דפי-UI).
|
||||
מפות-ממצאים: [gap-audit.md](gap-audit.md) (GAP-01..62 → FU-1..15; מחזור-1 ✅ הושלם, מחזור-2 פתוח) · [ui-audit.md](ui-audit.md) (ביקורת 13 דפי-UI, שכבת-קוד) · [ia-audit-redesign.md](../ia-audit-redesign.md) (34 משטחים, 37 ממצאים, שכבת-IA/הפעלה → X17, #127).
|
||||
בסיס-עיצוב: docs/superpowers/specs/2026-05-30-system-spec-design.md
|
||||
|
||||
@@ -37,6 +37,26 @@
|
||||
> (`cases.proceeding_type`, `db.py:912`). כך "ערר 8137/24" ו-"בל\"מ 8137/24" הם שתי
|
||||
> רשומות מובחנות בעלות אותו `case_number=8137-24` ו-`proceeding_type` שונה.
|
||||
|
||||
### 1א. אורך-הסידורי — אות לסוג-ההליך (נוהל-יו"ר, 2026-06-11)
|
||||
|
||||
מבנה ה-`case_number` הוא `<סידורי>-<חודש>-<שנה>` (serial-month-year). **אורך הסידורי מקודד
|
||||
את סוג-ההליך:**
|
||||
|
||||
| אורך סידורי | סוג-הליך | דוגמה | הערה |
|
||||
|-------------|----------|-------|------|
|
||||
| 4 ספרות | **ערר** | `1230-04-26` | הליך עיקרי |
|
||||
| 5 ספרות | **בל"מ** | `85074-09-24` | בקשה להארכת מועד |
|
||||
|
||||
- **הספרה הראשונה ממשיכה לקודד את התחום בשני האורכים** — `1→רישוי`, `8→היטל השבחה`,
|
||||
`9→פיצויים ס'197` (INV-DM/practice_area). תיק בל"מ `85074` → תחום היטל-השבחה.
|
||||
- **הכלל חד-כיווני:** סידורי בן 5 ספרות **הוא** בל"מ (אות אוטומטי, `is_blam_by_number`,
|
||||
`practice_area.py`). סידורי בן 4 ספרות **אינו** מחייב ערר — בל"מ-מורשת בן 4 ספרות עדיין
|
||||
מזוהה מהנושא (`is_blam_subject`). הרקע: ירושלים אימצה מספור 5-ספרתי לבל"מ רק עכשיו; ת"א
|
||||
מזה זמן (למשל `81002-01-21`).
|
||||
- **פתיחת תיק חדש מחייבת את צורת serial-month-year המלאה** (כולל חודש) — ולידציית-הכתיבה
|
||||
(`web-ui/src/lib/schemas/case.ts`) דוחה את צורת המורשת ללא-חודש. ההתאמה-הסלחנית-בקריאה
|
||||
(§3) עדיין בולעת רשומות-מורשת בנות שתי-חוליות לצורך *חיפוש*, לא לצורך *יצירה*.
|
||||
|
||||
**נרמול-בכתיבה הוא המנגנון הראשי; התאמה-סלחנית-בקריאה היא נוחות משנית בלבד.** כלל-ההנדסה
|
||||
"נרמול לא תיקון-תסמין" (חוקה §6) קובע: מתקנים את הנתון במקור, לא מטליאים בקריאה. אם רשומה
|
||||
נשמרה בצורה לא-קנונית — היעד הוא לנרמל אותה במיגרציה/בכתיבה, **לא** לסמוך על מנוע-קריאה
|
||||
|
||||
@@ -44,6 +44,26 @@
|
||||
`underlying_date` (מתן הפסק) שונה מ-`digest_date` (גיליון היומון) — מקור-באגים נפוץ; חילוץ-המטא-דאטה
|
||||
מבחין ביניהם מפורשות.
|
||||
|
||||
**`digest_kind` (סיווג-גיליון, V32):** רוב הגיליונות הם `decision` (סיכום פס"ד → `underlying_citation`),
|
||||
אך חלקם `announcement` — עדכון/הודעה ללא הכרעה (חקיקה, נוהל, ברכת-שנה) שאין לו מראה-מקום. החילוץ
|
||||
מסווג כל גיליון ותמיד מחלץ `concept_tag`/`headline`/`summary` (קיימים לכל סוג); `underlying_citation`
|
||||
רק ל-`decision`. **שימוש קריטי:** הגדרת-"כשל" של ה-drain self-heal היא `completed` **עם
|
||||
`digest_kind=''`** (מעולם לא סווג) — כך הודעה (kind=`announcement`, בלי citation) **אינה** נחשבת כשל
|
||||
ואינה מנוסה-מחדש לנצח. ההיוריסטיקה הישנה ("שני השדות ריקים") טיפלה בהודעות בטעות כ-retry אינסופי.
|
||||
|
||||
### 2.1 מקור שני ל-radar — העלון החודשי "עו"ד על נדל"ן"
|
||||
|
||||
פרסום **נפרד** מהיומון היומי: עלון חודשי ממוספר (משרדי צבי שוב + רונית אלפר), **רב-נושאי** — מאמר-עומק,
|
||||
עדכוני-חקיקה, וסט מצביעי-פסיקה מקובצים לפי נושא. נקלט **לאותה טבלת `digests`** (לא קורפוס מקביל — G2),
|
||||
מובחן ע"י `publication='עו"ד על נדל"ן'` (מול `'כל יום'`). עלון אחד **מתפצל ל-N שורות** דרך
|
||||
`bulletin_splitter` (LLM, local-only) → `bulletin_library.ingest_bulletin`:
|
||||
- **מצביעי-פסיקה** → `digest_kind='decision'` — מצטרפים ל-radar ומקושרים לפסק (autolink + X13 כמו היומון).
|
||||
- **מאמרים** → `digest_kind='article'` — טקסט-מלא + embedding לחיפוש-עומק; **רקע בלבד, INV-DIG1 חל** (לא מצוטט).
|
||||
- **עדכוני-חקיקה — לא נקלטים** (החלטת יו"ר).
|
||||
|
||||
מפתח-הדדאפ לפריט-עלון הוא **`content_hash` (per-פריט)**, כי `yomon_number` ריק (ה-upsert על yomon-number
|
||||
לא חל; `uq_digests_content_hash` תופס re-runs). אידמפוטנטי. סקריפט: `scripts/ingest_bulletins.py`.
|
||||
|
||||
---
|
||||
|
||||
## 3. למה זה לא קורפוס-ציטוט רביעי (הקושיה המרכזית — G2)
|
||||
@@ -113,8 +133,10 @@ Fowler — Bounded Context / Canonical Data Model | סטטוס: verified
|
||||
**אכיפה:** טבלה פיזית נפרדת `digests`; `ingest_digest` עושה reuse לשירותים אטומיים בלבד
|
||||
(`extractor.extract_text`, `embeddings.embed_texts`) ולא ל-`ingest.ingest_document`; ביקורת-
|
||||
ארכיטקטורה. אוכף את [G2](00-constitution.md#inv-g2-מקור-אמת-יחיד--אין-מסלולים-מקבילים-מתפצלים)
|
||||
+ כלל-הנדסה "סימטריה" (§6).
|
||||
**הפרה ידועה:** — (תת-מערכת חדשה)
|
||||
+ כלל-הנדסה "סימטריה" (§6). **מקור-אמת יחיד:** מצב-הקליטה נשמר אך-ורק בטבלת `digests` (סטטוס +
|
||||
`content_hash` ל-idempotency); תיקיות-קבצים (`incoming/`) הן staging בלבד, **לא** state.
|
||||
**הפרה ידועה (תוקנה 2026-06-07):** `ingest_digests_batch.py` העביר קבצים ל-`data/digests/processed/`
|
||||
— state מבוסס-תיקיות מקביל ל-DB. הוסר; הסקריפט מסתמך על dedup ב-content_hash (G2).
|
||||
|
||||
### INV-DIG3: קישור-לפסק-המקורי הוא הגשר — חוסר-קישור הוא פער גלוי
|
||||
**כלל:** לכל `digest` שדה `linked_case_law_id` (FK ל-`case_law`, nullable). כשהפסק המקורי בקורפוס —
|
||||
|
||||
@@ -17,29 +17,52 @@
|
||||
**הבחנת-מקור קריטית:** רק **פסקי-דין של בתי-משפט** ניתנים לאחזור ציבורי. **החלטות ועדת-ערר**
|
||||
אינן זמינות ציבורית (נדרש נבו) — מסומנות כפער ולא נשלחות לאחזור.
|
||||
|
||||
**שתי דרכי-מקור ציבוריות:**
|
||||
- **עליון** (עע"מ/בג"ץ/ע"א/רע"א/בר"מ/דנ"א) → `supremedecisions.court.gov.il` — הורדה ישירה (httpx), ללא CAPTCHA.
|
||||
- **מנהלי/מחוזי/שלום** (עת"מ/עמ"נ/...) → מציג-התיקים של **נט המשפט** — ASP.NET WebForms
|
||||
(`__doPostBack`/VIEWSTATE), anti-bot של F5, reCAPTCHA על החיפוש הציבורי, מסמכים כ-S3 cleared URLs.
|
||||
מחייב **דפדפן-אמת** (host-side), ולכן שירות-מארח ב-pm2 (כדפוס `legal-chat-service`).
|
||||
**דרכי-מקור ציבוריות (ניתוב לפי זמינות-פורמט-נט, לא לפי ערכאה):**
|
||||
- **נט המשפט** (מציג-התיקים) משרת **כל הערכאות** — מחוזי/שלום *וגם עליון* — כל עוד יש מספר
|
||||
בפורמט תיק-חודש-שנה. ASP.NET WebForms (`__doPostBack`/VIEWSTATE), anti-bot של F5, מסמכים
|
||||
בצופה-עמודים (turn.js). מחייב **דפדפן-אמת** (host-side) → שירות-מארח ב-pm2 (כדפוס
|
||||
`legal-chat-service`). **זהו המסלול הראשי המאומת.**
|
||||
- **עליון בפורמט-סדרתי** (עע"מ/בג"ץ NNNN/YY, ללא חודש — לא ניתן לחיפוש בנט) → `supremedecisions.court.gov.il`
|
||||
(httpx, ללא CAPTCHA, ללא דפדפן). **פוענח ואומת (2026-06-08):** `POST Home/SearchVerdicts` עם
|
||||
`document` מובנה (`{Year:"YYYY", CaseNum, OldMainNumFormat:true, SearchText:[…]}`) + כותרת
|
||||
**`X-Requested-With: XMLHttpRequest`** → רשומות; `GET Home/Download?path=&fileName=&type=4` → PDF.
|
||||
בוחר מסמך best-first (פסק-דין→מספר-עמודים) ומדלג על מסמכי published-report החסומים (`s`-prefix).
|
||||
תיקים ישנים-מאוד שלא דיגיטצו (למשל 389/87) → `manual`.
|
||||
|
||||
> **אומת end-to-end (2026-06-07) על עת"מ 46111-12-22** — פס"ד 34 עמ' הורד **אוטונומית מלא,
|
||||
> נטו קוד-פתוח, ללא כרטיס-חכם וללא פתרון-CAPTCHA**. ממצאי-המפתח מהכיול:
|
||||
> - **החיפוש והניווט לתיק — ללא reCAPTCHA כלל.** מסלול: דף-בית → `btnExternalSearchCases`
|
||||
> → מילוי `BamaCaseNumberTextBoxH`(=מס' תיק) + `BamaMonthYearTextBoxHT`(="MM-YY") →
|
||||
> `CaseDetails.aspx` → לשונית "פסקי דין" → `DecisionList.aspx` → צופה `NGCSViewerPage.aspx`.
|
||||
> - **reCAPTCHA קיים רק בצופה ורק על שמירה/הדפסה מפורשת** — *לא* על הצגת המסמך. הצופה
|
||||
> מגיש את העמודים כ-PNG דרך PageMethod **`GetImages`** (4 עמ'/batch) **ללא CAPTCHA**.
|
||||
> אחזור = לכידת `documentNumber` מהקריאה הראשונה + משיכת כל ה-batches ב-`fetch` עם הכותרת
|
||||
> **`X-Requested-With: XMLHttpRequest`** (חובה — ה-WAF חוסם AJAX בלעדיה) → הרכבת PDF (Pillow).
|
||||
> - דפדפן: **Camoufox דרך חבילת-הפייתון** (`camoufox.async_api`, in-process — לא שרת-Node).
|
||||
> על שרת ללא-מסך נדרש **Xvfb** (אחרת Firefox קורס). פותר-ה-reCAPTCHA האודיו (Whisper) נשמר
|
||||
> כ-fallback למסלול-השמירה-המפורש בלבד; מסלול-התמונות אינו זקוק לו.
|
||||
|
||||
---
|
||||
|
||||
## 1. ארכיטקטורה — שלוש שכבות (tiered)
|
||||
|
||||
```
|
||||
underlying_citation → [classifier] → tier ∈ {supreme, admin, skip}
|
||||
skip(ערר/בל"מ) → missing_precedent (נבו ידני) — לא אחזור
|
||||
supreme → Tier 0: httpx בקונטיינר → supremedecisions — אוטונומי מלא
|
||||
admin → Tier 1: legal-court-fetch-service (host/pm2) — אוטונומי-first
|
||||
→ Camoufox stealth browser → external-search → reCAPTCHA(audio/Whisper)
|
||||
→ download cleared PDF
|
||||
→ Tier 2 fallback: VNC ידני / missing_precedent + התראה — שער-אנושי
|
||||
(כל ה-tiers) → precedent_library_upload(source_type=court_ruling) → ingest_precedent
|
||||
→ chunks+embeddings+halachot(pending) → relink digest / close gap
|
||||
underlying_citation → [classifier] → {tier, האם יש פורמט-נט (תיק-חודש-שנה)}
|
||||
skip(ערר/בל"מ) → missing_precedent (נבו ידני) — לא אחזור
|
||||
── ניתוב לפי זמינות-פורמט-נט, לא לפי קידומת (נט המשפט משרת כל הערכאות) ──
|
||||
פורמט-נט קיים (עמ"נ/עת"מ/עליון-בפורמט-נט כמו בר"מ 72182-06-25)
|
||||
→ Tier 1: legal-court-fetch-service (host/pm2 + Xvfb) — אוטונומי, מאומת
|
||||
→ Camoufox(python) → external-search → CaseDetails → פסקי דין
|
||||
→ NGCSViewerPage → GetImages(X-Requested-With) → PNGs → PDF
|
||||
עליון סדרתי-בלבד (בג"ץ/בר"מ NNNN/YY, בלי חודש)
|
||||
→ Tier 0: httpx → supremedecisions (SearchVerdicts+Download) — מפוענח ומאומת
|
||||
כשל אוטונומי → Tier 2: missing_precedent + התראה (VNC עתידי) — שער-אנושי
|
||||
(כל ה-tiers) → precedent_library_upload(source_type=court_ruling) → ingest_precedent
|
||||
→ chunks+embeddings+halachot(pending) → relink digest / close gap
|
||||
```
|
||||
|
||||
מצב-העבודה מנוהל בטבלת-תור `court_fetch_jobs` (idempotent, נצפה, retryable).
|
||||
מצב-העבודה מנוהל בטבלת-תור `court_fetch_jobs` (idempotent, נצפה, retryable). הניקוז
|
||||
האוטומטי: `legal-court-fetch-drain` (pm2 cron שעתי) → `orchestrator.drain_pending`.
|
||||
|
||||
---
|
||||
|
||||
@@ -59,7 +82,7 @@ underlying_citation → [classifier] → tier ∈ {supreme, admin, skip}
|
||||
לא נזרק בשקט. `except: pass` אסור.
|
||||
**מקור-סמכות:** פרויקטלי-תפעולי — מיישם את [G4](00-constitution.md#inv-g4) וכלל-ההנדסה "אין בליעה שקטה" (§6).
|
||||
**אכיפה:** טבלת `court_fetch_jobs` (status+error+attempts) + לוג-warning בכל כישלון + Tier-2 gate.
|
||||
**הפרה ידועה:** הפער הקיים ב-X12 — `try_autolink` שנכשל מחזיר `None` בשקט (יתוקן ע"י טריגר זה).
|
||||
**הפרה ידועה:** ~~הפער ב-X12 — `try_autolink` שנכשל מחזיר `None` בשקט~~ → **תוקן**: `try_autolink` שנכשל על ציטוט פס"ד-בימ"ש מזניק job ל-`court_fetch_jobs` (status=pending); `court_fetch_drain` מנקז (סדרתי) ומקשר את היומון חזרה בהצלחה.
|
||||
|
||||
### INV-CF3: אוטונומי-first, שער-אנושי חובה ב-fallback
|
||||
**כלל:** האחזור מנסה אוטונומית; אך כש-N נסיונות נכשלים, **שער-אנושי** (VNC לפתרון-CAPTCHA
|
||||
@@ -138,8 +161,8 @@ Service / responsible automation) | סטטוס: verified
|
||||
| proxy בקונטיינר | `web/court_fetch_proxy.py` | שכפול `web/chat_proxy.py` |
|
||||
| pm2 | `scripts/legal-court-fetch-service.config.cjs` | שכפול `legal-chat-service.config.cjs` |
|
||||
| אורקסטרטור+תור | `services/court_fetch_orchestrator.py` + `db.py` (SCHEMA_Vxx) | דפוס-תור קיים |
|
||||
| כלי-MCP | `tools/court_fetch.py` (`court_verdict_fetch`) | חוזה-envelope [X9](X9-mcp-tool-contract.md) |
|
||||
| טריגר | `services/digest_library.py` (`try_autolink` fail-path) | X12 |
|
||||
| כלי-MCP | `tools/court_fetch.py` (`court_verdict_fetch` / `court_fetch_status` / `court_fetch_drain`) | חוזה-envelope [X9](X9-mcp-tool-contract.md) |
|
||||
| טריגר אוטומטי | `services/digest_library.py` (`try_autolink` fail → `_enqueue_court_fetch`) → drain ע"י `orchestrator.drain_pending` | X12 |
|
||||
| סוד | `COURT_FETCH_SHARED_SECRET` (Infisical + Coolify) | דפוס `LEGAL_CHAT_SHARED_SECRET`, [X10](X10-deploy-env-secrets.md) |
|
||||
|
||||
---
|
||||
@@ -149,3 +172,9 @@ Service / responsible automation) | סטטוס: verified
|
||||
- F5/anti-bot עלול לחסום IP → politeness סדרתי + Camoufox (INV-CF4).
|
||||
- שבירות מול שינויי-אתר → ריכוז selectors במקום אחד + בדיקות-עשן תקופתיות.
|
||||
- גבול-ToS על אתר .gov → INV-CF7 + שיקול-יו"ר.
|
||||
- ~~**Tier-0 (supremedecisions) טרם מפוענח**~~ → **פוענח ומאומת (2026-06-08)** — עליון בפורמט-סדרתי
|
||||
(בג"ץ/בר"מ NNNN/YY) יורד אוטומטית דרך `Home/SearchVerdicts`+`Home/Download`. מגבלה שנותרה: תיקים
|
||||
ישנים-מאוד שלא דיגיטצו בפורטל (0 רשומות) → `manual`. גם `backfill_missing_precedents.py` מזין את
|
||||
ה-`missing_precedents` הפתוחים (עליון+נט-format) לתור-האחזור.
|
||||
- **דליפת-זיכרון מדפדפנים יתומים** (fetch שנתקע/נהרג משאיר `camoufox-bin`) → שלוש שכבות-הגנה:
|
||||
(א) `async with` סוגר את הדפדפן בכל exception; (ב) `asyncio.wait_for` קשיח (`COURT_FETCH_HARD_TIMEOUT_S`, ברירת-מחדל 180ש') מבטל hang + reap; (ג) reaper של `camoufox-bin` יתומים (`ppid=1`) לפני/אחרי כל fetch + דמון `legal-reaper` (pm2) + תקרת `max_memory_restart`. סדרתיות (INV-CF4) מבטיחה שכל דפדפן `ppid=1` הוא שארית בטוחה-להריגה. **הערה:** הדליפה הגדולה בפועל בשרת היא `task-master-mcp` (כלי נפרד), שגם אותו ה-reaper מנקה.
|
||||
|
||||
146
docs/spec/X14-storage-minio.md
Normal file
146
docs/spec/X14-storage-minio.md
Normal file
@@ -0,0 +1,146 @@
|
||||
# X14 — אחסון-אובייקטים (Object Storage: MinIO / S3)
|
||||
|
||||
קובץ-תחום זה כפוף ל-[חוקת המערכת](00-constitution.md) והוא ה-deep-dive על **אחסון קבצים בינאריים** —
|
||||
מסמכי-מקור, נגזרים, וייצוא — והגירתם ממערכת-קבצים מקומית (`data/`) ל-**MinIO** (object store תואם-S3).
|
||||
הוא מגדיר את חוזה-האחסון (שכבה יחידה), סכמת-הדליות-והמפתחות, מודל-האי-שינויוּת המשפטי, ותוכנית-ההגירה.
|
||||
|
||||
> **invariant הנדסי + תפעולי-משפטי.** INV-STG1/2/5/6 נשענים על עקרונות מוכרים (S3 API, 12-Factor, presigned-URL,
|
||||
> separation blob↔metadata) — ≥3 מקורות (docs.min.io, AWS S3 spec, minio-py). INV-STG3/4/7 הם תפעוליים/משפטיים
|
||||
> של *מערכת זו* (גבול-ממשל, WORM להחלטות חתומות, git=טקסט) ונקשרים ל-[G2](00-constitution.md) (מסלול-אחסון יחיד).
|
||||
|
||||
---
|
||||
|
||||
## 1. מצב קיים (מאומת מול הקוד וה-infra, 2026-06-08)
|
||||
|
||||
### 1.1 מלאי-הדיסק (`data/`, ללא `backups/`)
|
||||
| קטגוריה | נפח | תוכן | סוג |
|
||||
|---|---|---|---|
|
||||
| `data/cases/{case}/` | 1.2GB | `documents/{originals,extracted,proofread,research,backup}`, `drafts/`, `exports/`, `thumbnails/{doc_uuid}/pNNN.jpg`, `.git` per-case | מקור + נגזר |
|
||||
| `data/digests/{reference,incoming}/` | 251MB | יומונים (X12) | מקור |
|
||||
| `data/training/{cmp,cmpa}/{raw,proofread}/` | 157MB | קורפוס-קול + `.git` | מקור |
|
||||
| `data/precedent-library/{appeals_committee,court_ruling,other}/` | 105MB | פסיקה + `thumbnails/` | מקור |
|
||||
| `data/internal-decisions/{region}/` | 45MB | החלטות-פנים לפי מחוז | מקור |
|
||||
| `data/exports/` | 216KB | legacy (הוחלף ב-per-case) | נגזר |
|
||||
| `data/{audit,eval,logs}/` | ~52MB | CSV/JSON תפעוליים — **לא מסמכים, נשארים בדיסק** | תפעולי |
|
||||
|
||||
ספירה (ללא backups): ~9,449 קבצים — 2,473 JPG (thumbnails נגזרים), 883 PDF, 250 TXT (extracted), 155 DOCX, 54 DOC.
|
||||
|
||||
### 1.2 הקונטיינר (Coolify)
|
||||
legal-ai (`gyjo0mtw2c42ej3xxvbz8zio`) רץ עם **bind-mounts**: host `data/`→`/data`, host `data/cases/`→`/cases`.
|
||||
האחסון היום = תיקייה על המארח, חשופה ישירות.
|
||||
|
||||
### 1.3 MinIO — **כבר פרוס ובריא** ✅ (שירות Coolify `minio`, `bx2ykvw94xbutsex41hz4vv8`, 2026-06-08)
|
||||
- **API:** `https://s3.nautilus.marcusgroup.org` (9000) · **Console:** `https://minio.nautilus.marcusgroup.org` (9001)
|
||||
- **Credentials:** `SERVICE_USER_MINIO` / `SERVICE_PASSWORD_MINIO` (סודות מנוהלי-Coolify)
|
||||
- **אחסון:** named-volume `minio-data`→`/data` — **Single-Node Single-Drive**; versioning/object-lock **לא** מופעלים עדיין
|
||||
- **רשת:** רשת-Docker משלו (`bx2ykvw...`, external), **לא** משותפת ל-legal-ai → דרושה קישוריות (§4 שלב 0)
|
||||
|
||||
### 1.4 הקוד — **אין שכבת-אחסון מרכזית** (כשל-השורש שהתחום מייבש)
|
||||
ה-I/O מפוזר על ~8 שירותים, נתיבים נבנים inline:
|
||||
- העלאה: `tools/documents.py:54` (originals), `:152` (training)
|
||||
- חילוץ + thumbnails: `services/processor.py:43,153`
|
||||
- staging פסיקה/יומונים/החלטות: `services/ingest.py:69`
|
||||
- ייצוא DOCX: `services/docx_exporter.py:462`
|
||||
- הגשה (FileResponse): `web/app.py` — 6 endpoints
|
||||
- git per-case: `services/git_sync.py` (`git add .` + push ל-Gitea, sweep כל 30ש׳)
|
||||
|
||||
### 1.5 עמודות-DB המאחסנות נתיבים (schema inline ב-`db.py`, ללא migrations)
|
||||
`documents.file_path` · `cases.active_draft_path` · `case_law.source_document_path` · `digests.source_document_path`
|
||||
· `document_image_pages.image_thumbnail_path` · `precedent_image_pages.image_thumbnail_path` · `draft_final_pairs.final_path`
|
||||
|
||||
### 1.6 Paperclip — צרכן-API בלבד
|
||||
הפלאגין ניגש דרך `listDocuments`/`getDocumentText` ל-API (`plugin-legal-ai/src/legal-api.ts:89`). אינו נוגע בדיסק →
|
||||
**הגירה שקופה אליו** כל עוד ה-API יציב.
|
||||
|
||||
---
|
||||
|
||||
## 2. Invariants של התחום
|
||||
|
||||
### INV-STG1: שכבת-אחסון יחידה — כל I/O דרך `storage.py`
|
||||
**כלל:** קיים מודול-אחסון **יחיד** (`services/storage.py`) שכל קריאה/כתיבה של קובץ בינארי עוברת דרכו
|
||||
(`put/get/presign_get/presign_put/delete/list`). אסור `open()`/`shutil.copy()`/`Path.write_bytes()` ישיר על
|
||||
נתיב-אחסון מחוץ למודול. **מקיים [G2](00-constitution.md)** — מבטל את ה-I/O המפוזר (§1.4) שהוא מסלול-מקביל-מתפצל.
|
||||
|
||||
### INV-STG2: מפתח-אובייקט אטומי; שם עברי במטא בלבד
|
||||
**כלל:** מפתח-האובייקט הוא ASCII/UUID (`cases/{case}/originals/{uuid}.pdf`). שם-הקובץ העברי המקורי נשמר ב-DB
|
||||
(`*_filename`) וכ-`x-amz-meta-filename` + מוגש דרך `Content-Disposition` ב-presigned-GET. **למה:** תקציב-מפתח
|
||||
1024 bytes (255/segment), עברית=2B/תו, ובעיות percent-encoding/XML — נמנעות.
|
||||
|
||||
### INV-STG3: דליות לפי גבול-ממשל, prefix לפי קטגוריה/תיק
|
||||
**כלל:** versioning/object-lock/replication הם per-bucket → מה שדורש ממשל שונה יושב בדלי נפרד. שלוש דליות
|
||||
קבועות (§3.1); תיקים/קטגוריות הם prefixes, **לא** דלי-לכל-תיק.
|
||||
|
||||
### INV-STG4: "סופי" = WORM (Object-Lock COMPLIANCE)
|
||||
**כלל:** החלטה חתומה/סופית נכתבת לדלי `legal-immutable` עם Object-Lock **COMPLIANCE** + versioning — בלתי-ניתנת
|
||||
לשינוי/מחיקה ע"י איש (כולל root) עד תום-תקופת-השמירה. טיוטות חיות בדלי רגיל ו"מקודמות" (copy) לדלי-הסגור עם החתימה.
|
||||
**(הכרעת-יו"ר 2026-06-08: סופי בלבד; מסמכי-מקור — versioning ללא נעילה קשיחה.)**
|
||||
|
||||
### INV-STG5: pgvector נשאר מקור-האמת לטקסט/embeddings; MinIO = blob בלבד
|
||||
**כלל:** טקסט-מחולץ + embeddings נשארים ב-Postgres/pgvector (מקור-אמת לאחזור). MinIO מאחסן את ה-blob המקורי
|
||||
(+עותק-ארכיון אופציונלי של ה-extracted text). **אסור** ש-MinIO יהיה מקור-אמת לוקטורים. תואם
|
||||
`no-reocr-retrofit` — לא מריצים OCR מחדש בהגירה.
|
||||
|
||||
### INV-STG6: הגשה לדפדפן דרך presigned-URL — bytes לא דרך FastAPI
|
||||
**כלל:** הורדה/תצוגה/העלאה מהדפדפן עוברות ב-presigned-URL (TTL דקות) מול `s3.nautilus.marcusgroup.org`.
|
||||
ה-backend מנפיק את ה-URL בלבד; ה-bytes לא עוברים דרכו. endpoints קיימים שמחזירים FileResponse → 302→presigned.
|
||||
|
||||
### INV-STG7: git-per-case שומר טקסט/מטא בלבד; בינאריים ב-MinIO
|
||||
**כלל:** `.git` per-case ממשיך לגרסן `case.json`/`notes.md`/`documents/extracted/*.txt`/`research/*.md`. PDF/DOCX/JPG
|
||||
מוחרגים מ-tracking (`.gitignore` per-case) ויושבים ב-MinIO. **(הכרעת-יו"ר 2026-06-08.)** `git_sync.py` ו-sweep
|
||||
מסתמכים על אותו working-tree → ההחרגה חייבת לקדום לכל קומיט-הגירה כדי לא לשבור היסטוריה.
|
||||
|
||||
---
|
||||
|
||||
## 3. ארכיטקטורת-היעד
|
||||
|
||||
### 3.1 דליות ומפתחות
|
||||
| דלי | Versioning | Object-Lock | prefixes |
|
||||
|---|---|---|---|
|
||||
| `legal-documents` | ✅ | ❌ | `cases/{case}/originals/{uuid}.pdf` · `cases/{case}/proofread/{uuid}.txt` · `precedent-library/{type}/{uuid}.pdf` · `internal-decisions/{region}/{uuid}.pdf` · `digests/{uuid}.pdf` · `training/{cmp\|cmpa}/{raw\|proofread}/{uuid}.pdf` |
|
||||
| `legal-immutable` | ✅ | ✅ COMPLIANCE | `decisions-final/{case}/{uuid}.docx` (החלטות חתומות בלבד) |
|
||||
| `legal-derived` | ❌ | ❌ (+lifecycle) | `thumbnails/{doc_uuid}/pNNN.jpg` · `extracted/{uuid}.txt` (נגזר, ניתן-לשחזור) |
|
||||
|
||||
### 3.2 `services/storage.py` (לב ההגירה) — adapter כפול
|
||||
```
|
||||
put(category, key, data, content_type, meta) -> uri # category→bucket+prefix
|
||||
get(uri) -> bytes
|
||||
presign_get(key, ttl) / presign_put(key, ttl) -> url
|
||||
delete(key) / list(prefix)
|
||||
```
|
||||
backend נבחר ב-env `STORAGE_BACKEND ∈ {filesystem, dual, s3}` (ברירת-מחדל filesystem) — מאפשר מעבר הדרגתי ללא
|
||||
שינוי-התנהגות. SDK: `aioboto3` (async-native מול `endpoint_url=http://minio:9000`); `minio-py` לסקריפטי-הגירה.
|
||||
|
||||
### 3.3 שינויי-DB
|
||||
הוספת `*_object_key` (או נרמול ל-`storage_uri` עם סכמה `s3://`/`file://`) לצד העמודות הקיימות (§1.5); backfill;
|
||||
דה-קומיישן הנתיב-קובץ. תוספת inline ב-`db.py` בסגנון הקיים (אין migrations).
|
||||
|
||||
---
|
||||
|
||||
## 4. תוכנית-ביצוע בשלבים (→ TaskMaster, tag legal-ai)
|
||||
|
||||
| שלב | תוכן | תלות |
|
||||
|---|---|---|
|
||||
| **0 — תשתית** | חיבור רשת-Docker (minio↔legal-ai); הזרקת credentials ל-env legal-ai (Coolify); `mc alias`; יצירת 3 דליות + הפעלת versioning + Object-Lock (immutable); הוספת `aioboto3` ל-deps | — |
|
||||
| **1 — שכבת-אחסון** | `services/storage.py` + adapter כפול (default filesystem). אפס שינוי-התנהגות. PR מצהיר INV-STG1/2/3 | 0 |
|
||||
| **2 — חיווט-כתיבה** | הפניית כל נקודות-הכתיבה (§1.4) דרך `storage.py`; כתיבה-כפולה (`STORAGE_BACKEND=dual`) | 1 |
|
||||
| **3 — הגירת-נתונים** | `mc mirror --dry-run`→`--overwrite` של 5 הקטגוריות; backfill `*_object_key` ב-DB; אימות count+checksum | 0,2 |
|
||||
| **4 — חיווט-קריאה + presigned** | endpoints→302→presigned; thumbnails דרך presigned; dual-read (S3, fallback disk); החרגת בינאריים מ-git per-case (INV-STG7) | 2,3 |
|
||||
| **5 — cutover** | `STORAGE_BACKEND=s3`; `mc mirror --watch` עד החלפה; אימות מלא; כיבוי כתיבה-לדיסק | 4 |
|
||||
| **6 — git + גיבוי + ניקוי** | קידום-החלטות-סופיות ל-immutable (INV-STG4); `mc mirror`/bucket-replication מתוזמן off-site; דה-קומיישן bind-mount `data/` (השארת audit/eval/logs) | 5 |
|
||||
|
||||
---
|
||||
|
||||
## 5. סיכונים
|
||||
- **I/O מפוזר** → INV-STG1 (`storage.py`) חובה לפני כל שאר השלבים, אחרת drift והפרת-G2.
|
||||
- **שמות עבריים כמפתחות** → INV-STG2 (UUID-keys + מטא).
|
||||
- **רשת נפרדת ל-MinIO** → לאמת קישוריות בשלב 0 לפני הכל.
|
||||
- **git-per-case** מצמיד בינאריים ל-Gitea → INV-STG7, ההחרגה חייבת לקדום לכל קומיט.
|
||||
- **SNSD ללא erasure-coding** → גיבוי off-site (שלב 6) הוא חובה, לא nice-to-have.
|
||||
- **בידוד-worktree + ספ-first** → כל PR מצהיר invariants (G2 + INV-STG*).
|
||||
|
||||
---
|
||||
|
||||
## 6. קישורים
|
||||
- חוקה: [00-constitution.md](00-constitution.md) · נתונים: [02-data-model.md](02-data-model.md) · קליטה: [01-ingest.md](01-ingest.md)
|
||||
- deploy/env: [X10-deploy-env-secrets.md](X10-deploy-env-secrets.md) · אינטגרציה: [X3-integration-deploy.md](X3-integration-deploy.md)
|
||||
- מקורות-MinIO: docs.min.io (community), AWS S3 object-keys/bucket-naming/presigned-URL, github.com/minio/minio-py
|
||||
148
docs/spec/X15-agent-platform-port.md
Normal file
148
docs/spec/X15-agent-platform-port.md
Normal file
@@ -0,0 +1,148 @@
|
||||
# X15 — שער-הפלטפורמה (Agent Platform Port)
|
||||
|
||||
> כפוף ל-[00-constitution.md](00-constitution.md). מיישם ומחזק את **INV-G2** (מקור-אמת
|
||||
> יחיד — אין מסלולים מקבילים) ברובד הקַשירה (coupling) בין שכבת-האינטליגנציה לפלטפורמת-הסוכנים.
|
||||
|
||||
## 0. למה המסמך הזה קיים
|
||||
|
||||
פלטפורמת-הסוכנים שלנו היום היא **Paperclip**. היא אינה ליבת-המערכת — היא ה**מעטפת**
|
||||
(לוח-issues, סוכנים מתמידים, human-in-the-loop דרך comments, wakeup/heartbeat, תזמון,
|
||||
תקציבים per-agent, adapters). ליבת-האינטליגנציה — `mcp-server/src`, ה-skills של
|
||||
ההחלטה/הסגנון, ולוגיקת-ההחלטה — היא הנכס שאינו תלוי-פלטפורמה.
|
||||
|
||||
**כשל-השורש שהמסמך מייבש:** מגע עם Paperclip שדולף לתוך שכבת-האינטליגנציה הופך את
|
||||
המעטפת מ"רכיב ניתן-להחלפה מאחורי חוזה" ל"תלות-רוחב ארוגה בכל הקוד". ככל שהדליפה גדלה,
|
||||
"החלפת המעטפת" (או אפילו שדרוג גרסה — ראו ההצמדה ל-opus-4-8) הופכת מ**החלפת-רכיב**
|
||||
ל**כתיבה-מחדש**. זוהי הופעה נוספת של כשל-השורש שכל הספ בא לייבש: מסלולים מקבילים
|
||||
שמתפצלים (drift), הפעם בציר התלות בין שכבות.
|
||||
|
||||
הבסיס התאורטי: **Ports & Adapters / Hexagonal Architecture** (Alistair Cockburn),
|
||||
**The Dependency Rule / Clean Architecture** (Robert C. Martin), **Anti-Corruption
|
||||
Layer** (Eric Evans, DDD). כולם אומרים את אותו הדבר: התלות זורמת פנימה בלבד; הליבה
|
||||
אינה יודעת על העולם החיצון; כל מגע עם מערכת-חוץ עובר דרך שכבת-תרגום אחת (port/adapter).
|
||||
|
||||
---
|
||||
|
||||
## 1. השכבות והתפר
|
||||
|
||||
```
|
||||
┌────────────────────────────────────────────────────────────────────┐
|
||||
│ INTELLIGENCE (תלוי-פלטפורמה = אסור) │
|
||||
│ mcp-server/src · skills/decision · skills/style · decision logic │
|
||||
│ · style-acquisition │
|
||||
│ ── חייב להכיל אפס סמלים ספציפיים-Paperclip ── │
|
||||
└───────────────────────────────┬────────────────────────────────────┘
|
||||
│ ה-PORT (שכבת-התרגום היחידה)
|
||||
│ • web/agent_platform_port.py (Python)
|
||||
│ • .claude/agents/HEARTBEAT.md (פרומפטים)
|
||||
┌───────────────────────────────┴────────────────────────────────────┐
|
||||
│ SHELL (Paperclip-specific — מותר ומוצהר) │
|
||||
│ web/paperclip_client.py · web/paperclip_api.py · plugin-legal-ai │
|
||||
│ · adapters/* · web-ui settings/paperclip-tab · skills/new-company │
|
||||
└───────────────────────────────┬────────────────────────────────────┘
|
||||
│
|
||||
┌─────┴─────┐
|
||||
│ Paperclip │ ← הפלטפורמה. ניתנת-להחלפה.
|
||||
└───────────┘
|
||||
```
|
||||
|
||||
**הגדרת-ה-Port:** קבוצת-הקבצים היחידה שמורשית לדבר Paperclip:
|
||||
|
||||
| Port surface | תפקיד | מורשה לייבא/להזכיר Paperclip |
|
||||
|--------------|-------|------------------------------|
|
||||
| `web/agent_platform_port.py` *(לבנייה — R2)* | תרגום אירועי-דומיין → קריאות-פלטפורמה | כן — המודול היחיד שמייבא `paperclip_client`/`paperclip_api` |
|
||||
| `web/paperclip_client.py`, `web/paperclip_api.py` | מימוש-הלקוח (מאחורי ה-Port) | כן (זו המעטפת המתוכננת) |
|
||||
| `.claude/agents/HEARTBEAT.md` | מקור-אמת יחיד לפרוטוקול-הריצה של הסוכנים | כן |
|
||||
| `plugin-legal-ai/*`, `adapters/*` | הגשר מצד-Paperclip | כן |
|
||||
| `web-ui` settings/paperclip-tab, agents-tab | UI לניהול-Paperclip עצמו | כן (מוצהר) |
|
||||
| `skills/new-company-setup/SKILL.md` | blueprint-הקמה (חייב לדבר Paperclip) | כן — **חריג מוצהר** |
|
||||
|
||||
כל קובץ אחר — בפרט תחת `mcp-server/src`, `skills/decision`, `skills/style`,
|
||||
ופרומפטי-הסוכנים פרט ל-HEARTBEAT — **אסור** שיכיל סמל ספציפי-Paperclip.
|
||||
|
||||
---
|
||||
|
||||
## 2. ה-invariant
|
||||
|
||||
### INV-PORT1 (גלובלי: G12) — שער-הפלטפורמה
|
||||
**כלל:** פלטפורמת-הסוכנים (Paperclip) נגישה אך-ורק דרך ה-Platform Port
|
||||
(`web/agent_platform_port.py` + `HEARTBEAT.md` לפרומפטים). שכבת-האינטליגנציה —
|
||||
`mcp-server/src`, וה-skills של ההחלטה/הסגנון — מכילה **אפס** סמלים ספציפיים-לפלטפורמה
|
||||
(שמות-מוצר, wakeup/heartbeat, pc.sh/pc_request, X-Paperclip-Run-Id, enums של הפלטפורמה).
|
||||
פרומפטי-הסוכנים אינם משכפלים את פרוטוקול-הריצה — הם מצביעים ל-HEARTBEAT.md בלבד. כל מגע
|
||||
חדש עם הפלטפורמה עובר דרך ה-Port.
|
||||
**מקורות:** Alistair Cockburn, *Hexagonal Architecture (Ports & Adapters)* · Robert C.
|
||||
Martin, *Clean Architecture* (The Dependency Rule) · Eric Evans, *Domain-Driven Design*
|
||||
(Anti-Corruption Layer) | סטטוס: verified
|
||||
**אכיפה:** (א) ביקורת-ארכיטקטורה + רשימת-ה-Port (§1); (ב) leak-guard אוטומטי — הרחבת
|
||||
[scripts/spec-guard.sh](../../scripts/spec-guard.sh) שמשווה מול baseline-הדליפה (§4) ומזהיר
|
||||
על דליפה חדשה ב-Edit/Write; (ג) fitness-test ב-CI שנכשל על מונח-Paperclip קשיח חדש תחת
|
||||
`mcp-server/src`; (ד) הצהרת-G12 בתבנית-ה-PR.
|
||||
**הפרה ידועה:** ראו מצאי-הדליפה ב-§3 — `web/app.py` קורא ל-`pc_*` inline בלוגיקת
|
||||
מחזור-חיים של תיקים; 10 פרומפטי-סוכנים משכפלים את פרוטוקול-הריצה במקום להצביע ל-HEARTBEAT.
|
||||
|
||||
> **סיווג:** invariant הנדסי (≥3 מקורות חיצוניים, verified). מורחב מ-G1–G10 בתור **G12**,
|
||||
> ורשום ברשימת-הגלובליים ובאינדקס של [00-constitution.md](00-constitution.md) §5א (R0b הושלם).
|
||||
|
||||
---
|
||||
|
||||
## 3. מצאי-הדליפה (baseline — נמדד 2026-06-09)
|
||||
|
||||
מבחן-נטישה: כמה השכבות חוצות את התפר. הספירה היא בסיס-ההשוואה ל-leak-guard.
|
||||
|
||||
| Layer | Paperclip hits | סיווג | מחיר-ניתוק |
|
||||
|-------|----------------|-------|------------|
|
||||
| `mcp-server/src` (כלים) | 5 — **הערות בלבד** | ✅ נקי (זה הנכס) | ~0 |
|
||||
| `skills/` (decision/style) | 36 — רק `new-company-setup` | ✅ נקי (חריג מוצהר) | נמוך |
|
||||
| `web/paperclip_client.py` | 116 | ✅ מעטפת מתוכננת | — |
|
||||
| `web/paperclip_api.py` | 33 | ✅ מעטפת מתוכננת | — |
|
||||
| `web/app.py` | ~33 קריאות `pc_*` + `PAPERCLIP_COMPANIES`×72 | ⚠️ דליפה מבנית (מחזור-חיים) | בינוני |
|
||||
| `.claude/agents/*.md` | 288 — פרוטוקול משוכפל ב-10 פרומפטים | ⚠️⚠️ דליפה מכנית | גבוה (בנפח) |
|
||||
| `web-ui` (`types.ts`×41, `cases.ts`, `sse.ts`, ...) | ~60 | ⚠️ מושגי-פלטפורמה בחוזי-פרונט | בינוני |
|
||||
|
||||
**הממצא המרכזי:** שכבת-האינטליגנציה (`mcp-server/src` + skills של ההחלטה/הסגנון) כבר
|
||||
נקייה כמעט-לחלוטין — 5 ההיטים ב-mcp-server הם הערות בלבד (מקור `company_id`). מחיר-הגירושין
|
||||
בינוני, מרוכז בשלוש שכבות-נושקות-למעטפת.
|
||||
|
||||
---
|
||||
|
||||
## 4. מפת-התיקון (R-tasks)
|
||||
|
||||
| R | תחום | תיאור | סיכון |
|
||||
|---|------|-------|-------|
|
||||
| **R0** | ספ | המסמך הזה — מגדיר את ה-Port, ה-invariant, ו-baseline-הדליפה | 0 |
|
||||
| **R0b** | ספ | רישום G12 ב-[00-constitution.md](00-constitution.md) (רשימת-גלובליים + אינדקס) + שורת G12 בתבנית-ה-PR + מצביע ב-CLAUDE.md | 0 |
|
||||
| **R1** | פרומפטים | כל פרוטוקול-הריצה עובר ל-HEARTBEAT.md (מקור יחיד); 10 הפרומפטים מצביעים אליו בלבד. 288→~20 היטים | נמוך |
|
||||
| **R2** | web | יצירת `web/agent_platform_port.py` — המודול היחיד שמייבא `paperclip_client`/`paperclip_api`. `app.py` פולט אירוע-דומיין (`case_archived`/`created`/...) שה-Port מתרגם. `PAPERCLIP_COMPANIES`→`company_map` מאחורי ה-Port | בינוני |
|
||||
| **R3** | web-ui | `types.ts` → namespace `paperclip.*` נפרד; חוזי case/api כלליים נשארים נקיים. טאבי-ניהול-Paperclip נשארים (מעטפת מוצהרת) | נמוך-בינוני |
|
||||
| **R4** | אכיפה | הרחבת `spec-guard.sh` ל-leak-guard מול ה-baseline + fitness-test ב-CI על `mcp-server/src` | 0 |
|
||||
|
||||
**עיקרון-מנחה (G2):** R1+R2 הם G2 בלבוש חדש — מאחדים פרוטוקול/מסלול משוכפל למקור אחד.
|
||||
הם אינם יוצרים מסלול מקביל; הם מסירים אחד.
|
||||
|
||||
---
|
||||
|
||||
## 5. מנגנון נגד דליפה-עתידית
|
||||
|
||||
תיקון חד-פעמי חסר-ערך אם הדליפה תחזור בפיצ'ר הבא. שלוש שכבות-אכיפה, כולן מתחברות
|
||||
למנגנונים קיימים (ולא ממציאות מסלול חדש):
|
||||
|
||||
1. **invariant (G12)** — מוגדר כאן, נרשם בחוקה (R0b). first-class, לא הערת-שוליים.
|
||||
2. **אכיפה-אוטומטית** — `spec-guard.sh` כבר מיירט כל Edit/Write בנתיב-קוד; ה-leak-guard
|
||||
(R4) משווה מול baseline §3 ומזהיר על דליפה חדשה **בזמן-אמת**, לפני ה-review.
|
||||
3. **חוזה-תיעוד** — תבנית-ה-PR כבר דורשת הצהרת-invariants; נוסיף שורת-G12 לצ'קליסט
|
||||
("□ לא הוספתי מגע-Paperclip מחוץ ל-Platform Port"). CLAUDE.md §Paperclip + §פרוטוקול
|
||||
כתיבת-קוד מצביעים לכאן.
|
||||
|
||||
> **כלל-זהב לכל פיתוח עתידי:** פיצ'ר חדש שנוגע בפלטפורמה — מוסיף/משנה **רק** קוד תחת
|
||||
> רשימת-ה-Port (§1). אם נדרש מגע-פלטפורמה משכבת-האינטליגנציה — זו אינדיקציה לתכנון
|
||||
> שגוי: הוסיפו במקום זאת אירוע-דומיין שה-Port יתרגם.
|
||||
|
||||
---
|
||||
|
||||
## 6. ראו גם
|
||||
- [00-constitution.md](00-constitution.md) — G2 (שאותו מיישם), G12 (לאחר R0b).
|
||||
- [X7-paperclip-client-params.md](X7-paperclip-client-params.md) — פרמטרי לקוח-Paperclip (מתחת ל-Port).
|
||||
- [X4-agents.md](X4-agents.md) — מפת-הסוכנים.
|
||||
- [X3-integration-deploy.md](X3-integration-deploy.md) — אינטגרציה+deploy.
|
||||
- [X16-pipeline-durability.md](X16-pipeline-durability.md) — עמידות-פייפליין (החלטה נפרדת, נושקת).
|
||||
96
docs/spec/X16-pipeline-durability.md
Normal file
96
docs/spec/X16-pipeline-durability.md
Normal file
@@ -0,0 +1,96 @@
|
||||
# X16 — עמידות-פייפליין (Durable Pipeline Execution)
|
||||
|
||||
> כפוף ל-[00-constitution.md](00-constitution.md). מחזק את **INV-G3** (idempotency)
|
||||
> ב-checkpointing+replay לפייפליינים הדטרמיניסטיים המקומיים. נושק ל-[07-learning.md](07-learning.md)
|
||||
> ו-[X11-citation-corroboration.md](X11-citation-corroboration.md).
|
||||
|
||||
## 0. הבעיה
|
||||
|
||||
שני הפייפליינים המקומיים החד-פעמיים —
|
||||
[final_halacha_pipeline.py](../../scripts/final_halacha_pipeline.py) (כפתור run-halacha,
|
||||
אימות-הלכות, X11) ו-[final_learning_pipeline.py](../../scripts/final_learning_pipeline.py)
|
||||
(כפתור run-learning, למידת-סגנון, 07-learning) — חולקים **צורה זהה**: סקריפט מקומי,
|
||||
3–4 שלבים בטור, idempotent, פאנל-LLM ארוך בסוף (CSV-gated, "can take minutes").
|
||||
|
||||
היום הם **ליניאריים וחסרי-זיכרון**: קריסה באמצע (ניתוק ל-DeepSeek/Gemini, restart של
|
||||
קונטיינר, OOM) → הרצה-מחדש מ-שלב 0. השלבים idempotent ולכן זה **בטוח**, אבל **משלמים שוב**:
|
||||
מחלצים, בונים corroboration על כל הקורפוס, ושופטים מחדש הלכות שכבר נשפטו — דקות וקריאות-LLM
|
||||
לפח.
|
||||
|
||||
**הקשר-סיכון אמיתי:** דליפת task-master (יתומים ppid=1, ~3GB) מסכנת OOM ל-Postgres
|
||||
([project_taskmaster_mcp_memory_leak]). אם OOM הורג ריצת-פאנל ארוכה — היום מתחילים מאפס.
|
||||
|
||||
**הבחנה מ-idempotency:** idempotency = "בטוח להריץ שוב". durable execution = "בטוח להריץ
|
||||
שוב **בלי לשלם שוב**". זה שכלול, לא תחליף.
|
||||
|
||||
## 1. ההכרעה
|
||||
|
||||
להטמיע **LangGraph כספרייה בתוך הסקריפט** (לא כפלטפורמה מחליפה ל-Paperclip): מנוע-העמידות
|
||||
היחיד שהוא state-of-the-art ב-checkpointing+replay+time-travel, בשימוש כ-`import` בתוך
|
||||
הסקריפט המקומי. Paperclip לא מושפע — הכפתור עדיין מעיר את Hermes שמריץ את אותו ה-CLI.
|
||||
|
||||
> **גבול-תחום מפורש (מתחבר ל-G12/X15):** LangGraph נכנס **רק** כמנוע-פנימי של הסקריפטים
|
||||
> המקומיים. אסור להשתמש בו כתחליף-פלטפורמה או כ-orchestrator של הסוכנים — זה ייצור מסלול
|
||||
> מקביל ל-Paperclip (הפרת G2) ויערבב עמידות עם פלטפורמה. HITL/ניתוב-יו"ר נשאר מאחורי
|
||||
> ה-Port (ראו §4 Phase 3).
|
||||
|
||||
**מקורות:** Temporal — *Durable Execution* · Saga / workflow-checkpointing pattern ·
|
||||
Martin Kleppmann, *DDIA* (idempotence & exactly-once) · LangGraph checkpointer/replay docs.
|
||||
|
||||
## 2. ה-invariant
|
||||
|
||||
### INV-DUR1 — עמידות לפייפליינים דטרמיניסטיים
|
||||
**כלל:** פייפליין דטרמיניסטי רב-שלבי משמר את התקדמותו ב-checkpoint מתמיד אחרי כל שלב
|
||||
שהושלם; הרצה-חוזרת של אותה יחידת-עבודה **מדלגת** על שלבים שכבר הושלמו ומתחילה מנקודת-הכשל
|
||||
המדויקת. מימוש-העמידות הוא **משותף** לכל הפייפליינים (`scripts/_pipeline_runtime.py`) —
|
||||
לא מימוש-לכל-סקריפט (G2). חוזה-הכניסה (ה-CLI) נשמר ללא-שינוי.
|
||||
**מקורות:** Temporal (Durable Execution) · Kleppmann *DDIA* (exactly-once) · Saga pattern
|
||||
(workflow checkpointing) | סטטוס: verified
|
||||
**אכיפה:** `_pipeline_runtime.py` עם LangGraph + checkpointer; thread_id דטרמיניסטי
|
||||
לכל יחידת-עבודה (תיק); בדיקת kill-and-resume שמאמתת ששלבים שהושלמו אינם רצים-מחדש.
|
||||
**הפרה ידועה:** היום `final_halacha_pipeline.py` / `final_learning_pipeline.py` ליניאריים
|
||||
— קריסה = הרצה-מחדש מלאה (חוזרים על extract/corroboration/panel).
|
||||
|
||||
## 3. ארכיטקטורה
|
||||
|
||||
```
|
||||
scripts/_pipeline_runtime.py ← מודול-עמידות משותף יחיד (G2)
|
||||
• build_graph(steps) StateGraph: node לכל שלב
|
||||
• SqliteSaver data/checkpoints/<pipeline>.sqlite (לא Postgres המשותף)
|
||||
• run(thread_id, resume) מדלג-אוטומטית על nodes ב-checkpoint
|
||||
```
|
||||
|
||||
**הכרעות-תכנון:**
|
||||
|
||||
1. **Checkpointer = SQLite (`langgraph-checkpoint-sqlite`), לא Postgres.** קובץ תחת
|
||||
`data/checkpoints/`: מקומי (תואם "local-only"), פשוט, ו**נמנע מהאזהרה** ב-CLAUDE.md נגד
|
||||
migrations מ-2 worktrees על Postgres המשותף (`localhost:5433`). PostgresSaver = אופציה
|
||||
עתידית אם נדרש ריכוז/observability.
|
||||
2. **`thread_id = f"<pipeline>:{case_number}"`.** הרצה-חוזרת של אותו תיק מזהה checkpoint
|
||||
לא-גמור וממשיכה אוטומטית; תיק שהושלם = no-op. idempotency + דילוג-checkpoint מתחברים.
|
||||
3. **גרעיניות (מדורגת):**
|
||||
- **גס (P0/P1):** כל שלב = node. קריסה בין-שלבים → המשך מהשלב שנפל. הפאנל node יחיד
|
||||
שרץ-מחדש — אך הוא כבר CSV-backed + idempotent (מדלג פנימית על מה שנשפט).
|
||||
- **עדין (P2, אופציונלי):** פירוק הפאנל ל-map מעל ההלכות/הלקחים (LangGraph `Send`),
|
||||
כל פריט = יחידת-checkpoint → resume תוך-פאנל בלי לשפוט מחדש ברמת-LLM. נשען על ה-CSV
|
||||
הקיים כמקור "כבר-נשפט".
|
||||
4. **סמנטיקת-כשל מפורשת.** היום הכל "non-fatal, continue". עם LangGraph: nodes "מייעצים"
|
||||
(extract, corroboration) — catch+record-status וממשיכים; node "קריטי" (panel) — raise
|
||||
בכשל-קשה → עצירה ב-checkpoint → resume.
|
||||
5. **שימור-חוזה-הכניסה.** ה-CLI (`--case`/`--limit`/`--dry-run`) זהה; run-halacha/run-learning
|
||||
→ Hermes → אותו `python ...pipeline.py --case X` לא משתנה. מוסיפים `--fresh`
|
||||
(ברירת-מחדל: auto-resume אם יש checkpoint לא-גמור לתיק).
|
||||
|
||||
## 4. גלגול מדורג
|
||||
|
||||
| Phase | תחום | מאמץ |
|
||||
|-------|------|------|
|
||||
| **P0** | deps ל-`mcp-server/pyproject` (`langgraph` + `langgraph-checkpoint-sqlite`, venv מקומי בלבד → אפס השפעת-קונטיינר). `_pipeline_runtime.py` עם SqliteSaver. עטיפת 4 שלבי-halacha כ-nodes (גס). CLI זהה. test: kill אחרי [1] → resume → assert [0],[1] לא רצו שוב | ~1 יום |
|
||||
| **P1** | אותו runtime על `final_learning_pipeline` (3 שלבים) — מימוש-עמידות אחד לשניהם (G2) | חצי יום |
|
||||
| **P2** | (אופציונלי) פירוק-פאנל ל-map per-item — resume תוך-פאנל | 1–2 ימים |
|
||||
| **P3** | (עתידי) LangGraph `interrupt()` ל-HITL של היו"ר (split→chair, INV-G10) — **רק מאחורי ה-Port** (X15/G12) | — |
|
||||
|
||||
## 5. ראו גם
|
||||
- [07-learning.md](07-learning.md) · [X11-citation-corroboration.md](X11-citation-corroboration.md)
|
||||
- [X15-agent-platform-port.md](X15-agent-platform-port.md) — הגבול מול הפלטפורמה (G12).
|
||||
- [scripts/SCRIPTS.md](../../scripts/SCRIPTS.md) — הסקריפטים המושפעים.
|
||||
78
docs/spec/X17-information-architecture.md
Normal file
78
docs/spec/X17-information-architecture.md
Normal file
@@ -0,0 +1,78 @@
|
||||
# X17 — ארכיטקטורת-המידע ומשטח-ההפעלה (Information Architecture)
|
||||
|
||||
> **מה זה.** ספ-היעד ל**איך** משטח-ההפעלה (דפים/טאבים/תורים/ניווט/cache) צריך להיות מאורגן — שכבה מעל [X6 (חוזה UI↔API)](X6-ui-api-contract.md). X6 קובע ש**טיפוס** נכון (OpenAPI=SSoT, provenance); X17 קובע ש**משטח** נכון (מקור-אמת יחיד לכל datum, שער אחד לכל החלטה, ניווט מבוסס-משימה).
|
||||
>
|
||||
> **למה.** חיים (2026-06-11): *"המערכת מסובכת מדי לתפעול."* האבחון ([`../ia-audit-redesign.md`](../ia-audit-redesign.md), #127) אימת 37 ממצאים שכולם ביטוי-UI של **G2** מופר שלא הורחב לשכבת-ה-UI. X17 מרים את G2 (מקור-אמת יחיד) ו-G10 (שערים-אנושיים) לשכבת-המשטח, ומקודד את [[feedback_operational_simplicity]] (שער/מקום/ערוץ אחד) כ-invariants אכיפים.
|
||||
>
|
||||
> **גבול קשיח (G10):** X17 מסיר משטחים/ערוצים **כפולים**, לעולם לא **שער**. כל שער-אנושי (אישור-הלכה, פתרון-הערה, אישור-לקח, בחירת-תוצאה) נשאר חובה ומפורש. "שער אחד" = מקום-אחד-להחליט, לא אפס-החלטה.
|
||||
|
||||
---
|
||||
|
||||
## INV-IA1 — בעלים-משטח-יחיד לכל datum/מונה (G2 בשכבת-UI)
|
||||
ל-aggregate/מונה נגזר-שרת יש **משטח-בעלים יחיד** שמריץ את השאילתה; משטחים אחרים **מצביעים** אליו (deep-link/pointer), ולעולם לא מריצים מונה-מתחרה client-side. *(אכיפה: מונה-הגייטים חי רק ב-`/approvals`+`['chair','pending']`; `/operations` מצביע. תופס APR-2/3, ADM-2/3.)*
|
||||
- Maintain Consistency and Adhere to Standards (Heuristic #4) — Nielsen Norman Group — https://www.nngroup.com/articles/consistency-and-standards/
|
||||
- 3 Common IA Mistakes (Low Information Scent) — Nielsen Norman Group — https://www.nngroup.com/articles/3-ia-mistakes/
|
||||
- Information Architecture: For the Web and Beyond, 4th ed. (Organization & Labeling Systems) — Rosenfeld, Morville & Arango (O'Reilly) — https://www.oreilly.com/library/view/information-architecture-4th/9781491913529/
|
||||
|
||||
## INV-IA2 — mutation מבטל כל קורא (no stale cross-surface state)
|
||||
כל mutation שמשנה ערך הנקרא במשטח אחר **חייב לבטל כל queryKey שקורא אותו** — כולל aggregators חוצי-namespace. אסור שמשטח יציג ערך תקוע אחרי שינוי במשטח אחר. *(תופס את 16 פערי-הסנכרון: CAS-1/2, APR-1/4/5/6, LRN-6/8/10, MET-1/8, ADM-2/3/5.)*
|
||||
- Query Invalidation — TanStack Query (official docs) — https://tanstack.com/query/latest/docs/framework/react/guides/query-invalidation
|
||||
- Deriving Client State from Server State — TkDodo (Dominik Dorfmeister, TanStack maintainer) — https://tkdodo.eu/blog/deriving-client-state-from-server-state
|
||||
- Visibility of System Status (Heuristic #1) — Nielsen Norman Group — https://www.nngroup.com/articles/visibility-system-status/
|
||||
|
||||
## INV-IA3 — שער-אחד / ערוץ-אחד לכל החלטה (G10/INV-LRN1 נשמרים)
|
||||
לכל החלטה-אנושית **משטח-יחיד ומסלול-כתיבה-יחיד**. אסור משטח-אישור שני או כותב-מקביל לאותה שורה. הלמידה **מנותבת דרך** העורך הקנוני, לא כותבת-במקביל. *(תופס LRN-1/2/3, MET-2/3 — "שני השערים" של חיים, ומירוץ ה-lost-update.)*
|
||||
- Preventing User Errors / Error Prevention (Heuristic #5) — Nielsen Norman Group — https://www.nngroup.com/articles/slips/
|
||||
- Do the hard work to make it simple (Government Design Principles) — GOV.UK / GDS — https://www.gov.uk/guidance/government-design-principles
|
||||
- Don't Make Me Think, Ch.5 — Omit Needless Words/Controls — Steve Krug (O'Reilly) — https://www.oreilly.com/library/view/dont-make-me/0321344758/ch05.html
|
||||
|
||||
## INV-IA4 — ניווט מבוסס-משימה, לא מבוסס-פורמט
|
||||
משטחים מאורגנים לפי **מה המשתמש עושה** (לאשר / לנטר / להגדיר / לחבר), לא לפי מקור-הנתונים הטכני (pm2 מול DB מול תורים). דלת-כניסה אחת לכל משימה. *(אכיפה: `/operations`⊇`/diagnostics` — אותו intent-ניטור; הורדת `/feedback` מהראשי. תופס D5, ADM.)*
|
||||
- Avoid Format-Based Primary Navigation — Nielsen Norman Group — https://www.nngroup.com/articles/format-based-navigation/
|
||||
- Intranet IA Methods (task-based endures over structure-based) — Nielsen Norman Group — https://www.nngroup.com/articles/intranet-ia-methods/
|
||||
- Task list pattern (one list of outstanding tasks per service) — GOV.UK Design System — https://design-system.service.gov.uk/components/task-list/
|
||||
|
||||
## INV-IA5 — סטטוס-אמיתי מגובה-צרכן
|
||||
כל מספר מוצג ממופה ל**צרכן אמיתי** ו**מקור שלם**. אסור KPI שסופר דגל-ללא-צרכן; אסור aggregate מדויק כש-partial-failure השמיט תורם (להציג חלקיות); שדה ב-response — **לרנדר או להסיר**. *(תופס LRN-1/4/5, ADM-1/6, APR-3.)*
|
||||
- Visibility of System Status (Heuristic #1) — Nielsen Norman Group — https://www.nngroup.com/articles/visibility-system-status/
|
||||
- Design with data (Government Design Principles) — GOV.UK / GDS — https://www.gov.uk/guidance/government-design-principles
|
||||
- Minimize Cognitive Load to Maximize Usability — Nielsen Norman Group — https://www.nngroup.com/articles/minimize-cognitive-load/
|
||||
|
||||
## INV-IA6 — שפת-מפעיל מובנת-מאליה (no jargon; precedence in-context)
|
||||
קופי פונה-למפעיל מתאר את **האפקט המשמעותי**, לא מזהי-משימות פנימיים (T7/T15). התנהגות-תחולה/קדימות (universal מוקדם; checklist→appeal_type) מוצגת **בהקשר** דרך progressive disclosure, לא במסמך נפרד. *(תופס MET-4/5/6/7.)*
|
||||
- Don't Make Me Think — Krug's First Law (self-evident) — Steve Krug — https://www.oreilly.com/library/view/dont-make-me/0789723107/ch02.html
|
||||
- Plain language / write for users (Design principles) — U.S. Web Design System (USWDS) — https://designsystem.digital.gov/design-principles/
|
||||
- Progressive Disclosure — Nielsen Norman Group — https://www.nngroup.com/articles/progressive-disclosure/
|
||||
|
||||
---
|
||||
|
||||
## משטח-היעד (Target IA)
|
||||
|
||||
### שלושה משטחי-intent ברמת-העל
|
||||
| משטח | intent | בעלים | כלל |
|
||||
|------|--------|-------|-----|
|
||||
| **`/approvals`** | **לאשר** (החלטה-אנושית) | תיבת-הגייטים הקנונית | המקום **היחיד** שפועלים על שער. כרטיס לכל סוג (הלכות/פסיקה-חסרה/הערות/QA) עם מונה+קישור. |
|
||||
| **`/operations`** | **לנטר** (קריאה-בלבד) | משטח-המכונה | בולע את `/diagnostics`. שירותים+תורים+סוכנים+בריאות+`halacha_backlog`. **אפס** שער נפעל כאן; מצביע ל-`/approvals`. |
|
||||
| **`/settings`** | **להגדיר** | משטח-התצורה | Paperclip/סוכנים/env/כלים/בלוקים. עריכת-env משלימה-את-עצמה (staleness+redeploy באותה שורה). |
|
||||
|
||||
### משטחי-תחום (בעלים-יחיד לכל ישות)
|
||||
| תחום | יעד |
|
||||
|------|-----|
|
||||
| **תיק** | **workspace-החלטה אחד** — block-editing + DOCX-פעיל, מחוון-מקור-אמת אחד בבעלות-המערכת, cache-slice משותף. אזור "השלמה והעברה" אחד לשערי-הסיום. |
|
||||
| **למידה** | **תיבת-אישור אחת** (לפי זוג draft↔final) · **ערוץ-כותב אחד + סטטוס "זורם-לכותב" אחד** (`review_status='approved'`) · `applied_to_skill` **מוסר** · כל artifact תלוי-בזוג (progressive disclosure). |
|
||||
| **מתודולוגיה** | **`/methodology` = העורך הקנוני היחיד** (PUT אחד; תג-מקור "ידני/מאומץ-מלמידה"); הלמידה מנותבת-דרכו ומבטלת שני-caches; explainer-תחולה inline. |
|
||||
| **פסיקה** | 3 קורפוסים **נפרדים** (גבול אמיתי, G2/INV-DIG1) אך **מתפעלים אחיד** — שם-חיפוש עקבי, תבנית-"ממתין" אחת, authority בכל-מקום. |
|
||||
|
||||
---
|
||||
|
||||
## דלתות-ספ (deltas — ✅ קודדו בגל-2 #131)
|
||||
> כל שינוי-ספ דורש ≥3 מקורות (לעיל) + אישור-יו"ר. אושר ע"י חיים (2026-06-11, /goal "בצע את כל הגלים").
|
||||
|
||||
1. **[X6](X6-ui-api-contract.md):** ✅ נוספו **INV-UI7** (aggregate-נגזר=SSoT; mutation מבטל queryKey; אין מונה-מתחרה — מקדד INV-IA1/IA2) · **INV-UI8** (שדה-response מרונדר-או-מוסר; חלקיות מוצגת — INV-IA5).
|
||||
2. **[07-learning §0.4](07-learning.md):** ✅ שער-אישור **אחד** (`review_status='approved'`), טרנזקציית-כותב **אחת** (FOR UPDATE), `applied_to_skill` **הוסר** (מקדד INV-IA3; מיישב את "שני-השערים" של [[feedback_operational_simplicity]]).
|
||||
3. **[00-constitution §G2 "הפרות ידועות"](00-constitution.md):** ✅ נוסף תאום-המתודולוגיה (`discussion_rules['universal']` נכתב ע"י PUT וגם promote — MET-2/3) + המיתון (append אטומי FOR UPDATE + invalidation).
|
||||
|
||||
## הפניות-אחיות
|
||||
- [`../ia-audit-redesign.md`](../ia-audit-redesign.md) — מצב-קיים: 34 משטחים, 37 ממצאים (file:line), כיוון-יעד פר-אשכול.
|
||||
- [X6-ui-api-contract.md](X6-ui-api-contract.md) (UI1–UI6 — X17 מעליו) · [ui-audit.md](ui-audit.md) (ממצאי-קוד פר-רכיב — שכבה מתחת).
|
||||
- [00-constitution.md](00-constitution.md) — [G2](00-constitution.md) (מקור-אמת יחיד) · G10 (שערים-אנושיים) — X17 מרים אותם לשכבת-המשטח.
|
||||
@@ -86,6 +86,25 @@ TanStack Query — *Important Defaults* (staleTime/refetch) (https://tanstack.co
|
||||
מוצגים כשדות-עריכה רגילים ללא סימון.
|
||||
**הפרה ידועה:** [precedents/[id]/page.tsx](../../web-ui/src/app/precedents/%5Bid%5D/page.tsx) — `summary`/`headnote`/`key_quote` ללא חיווי-מקור; אין חיווי `searchable` ([gap-audit GAP-36](gap-audit.md)).
|
||||
|
||||
### INV-UI7: aggregate-נגזר = מקור-אמת יחיד · כל mutation מבטל כל קורא (G2 בשכבת-ה-cache)
|
||||
**כלל:** ל-aggregate/מונה נגזר-שרת (למשל `/api/chair/pending`) יש **משטח-בעלים יחיד** שמריץ את השאילתה;
|
||||
משטחים אחרים **מצביעים** אליו ולא מריצים מונה-מתחרה client-side. **כל mutation** שמשנה ערך הנקרא במשטח
|
||||
אחר **חייב לבטל כל `queryKey` שקורא אותו** — כולל aggregators חוצי-namespace — כך שאף משטח לא יציג ערך
|
||||
תקוע אחרי שינוי במשטח אחר. מקדד את **[X17 INV-IA1/IA2](X17-information-architecture.md)**; מופע של
|
||||
[G2](00-constitution.md#inv-g2-מקור-אמת-יחיד--אין-מסלולים-מקבילים-מתפצלים) בשכבת-ה-TanStack-Query.
|
||||
**מקור-סמכות:** [X17](X17-information-architecture.md) (≥3 מקורות: TanStack Query invalidation · TkDodo "deriving client state" · NN/g consistency); [ia-audit-redesign.md](../ia-audit-redesign.md) §D1.
|
||||
**אכיפה:** מונה-הגייטים חי רק ב-`/approvals`+`['chair','pending']`; `/operations` מצביע. כל mutation להלכות/
|
||||
פסיקה-חסרה/הערות מבטל `['chair','pending']` (גל-1 #130, PR #207).
|
||||
|
||||
### INV-UI8: שדה-response מרונדר-או-מוסר · חלקיות מוצגת
|
||||
**כלל:** שדה שמופיע ב-response **לרנדר או להסיר** — אסור לזרוק אותו בשקט ב-frontend (אם אין צרכן —
|
||||
להסירו מה-response). KPI מוצג חייב להיות ממופה ל**צרכן אמיתי** (לא דגל אינפורמטיבי-בלבד). aggregate
|
||||
מדויק כש-partial-failure השמיט תורם — **להציג חלקיות** ("+"/"חלקי"), לא מספר-מוקטן-כאילו-שלם. מקדד את
|
||||
**[X17 INV-IA5](X17-information-architecture.md)**.
|
||||
**מקור-סמכות:** [X17](X17-information-architecture.md) (NN/g visibility-of-system-status · GOV.UK design-with-data); [ia-audit-redesign.md](../ia-audit-redesign.md) §D3.
|
||||
**אכיפה:** `halacha_backlog` מרונדר ב-/operations (לא נזרק); `findings_approved` (review_status, צרכן אמיתי)
|
||||
החליף את `findings_applied` (דגל מת); מוני-סוכנים מסמנים "חלקי" כשחברה לא-נטענה (גל-1 #130).
|
||||
|
||||
---
|
||||
|
||||
## 3. כללי-עיצוב (Design Rules) — נגזרים מה-invariants
|
||||
|
||||
@@ -92,12 +92,14 @@ NCSC/JTC — *AI in Courts* (verifiable citation) | סטטוס: verified
|
||||
**אכיפה:** `proofreader.verify_quote` בעת חילוץ → `quote_verified`.
|
||||
**הפרה ידועה:** — (קיים; ה-flag נכתב, אך אין חיווי ב-UI — ראה [X6 INV-UI6](X6-ui-api-contract.md)).
|
||||
|
||||
### INV-FP5: חילוץ אסינכרוני דרך claude_session מקומי
|
||||
**כלל:** חילוץ-LLM (מטא, הלכות) רץ **אסינכרוני, מתור**, דרך `claude_session` **מקומי בלבד** — לא חוסם את
|
||||
ה-web, ולא קורא ל-LLM מהקונטיינר. מופע של [G2](00-constitution.md#inv-g2-מקור-אמת-יחיד--אין-מסלולים-מקבילים-מתפצלים)
|
||||
(מסלול-LLM קנוני יחיד). **פרויקטלי-תפעולי.** תואם זיכרון `feedback_claude_session_local_only`.
|
||||
**מקור-סמכות:** [ingest.py](../../mcp-server/src/legal_mcp/services/ingest.py) (queue בצעד 12 → `process_pending_extractions`); [legal-ai/CLAUDE.md](../../CLAUDE.md) (claude_session local-only).
|
||||
**אכיפה:** queue + `precedent_process_pending`; קריאות-LLM רק מ-MCP מקומי.
|
||||
### INV-FP5: חילוץ אסינכרוני, מתור, צד-מארח (לא מהקונטיינר)
|
||||
**כלל:** חילוץ-LLM (מטא, הלכות) רץ **אסינכרוני, מתור, מצד-המארח** — לא חוסם את ה-web ולא קורא ל-LLM
|
||||
מהקונטיינר. **בחירת-מנוע לפי אופי-המשימה (לא מסלול מקביל):** חילוץ-מטא הוא משימה *תחומה* (טקסט→JSON)
|
||||
ולכן רץ על **Gemini Flash** (`gemini_session`, structured JSON) — ה-claude CLI ה-agentic פגע ב-
|
||||
`error_max_turns`; חילוץ-הלכות (רגיש-קול/agentic) נשאר על **`claude_session`** (CLI מקומי, מנוי דפנה).
|
||||
שני המנועים מתנקזים לתור-החילוץ הקנוני היחיד ([G2](00-constitution.md#inv-g2-מקור-אמת-יחיד--אין-מסלולים-מקבילים-מתפצלים)). **פרויקטלי-תפעולי.**
|
||||
**מקור-סמכות:** [ingest.py](../../mcp-server/src/legal_mcp/services/ingest.py) (queue → `process_pending_extractions`); [gemini_session.py](../../mcp-server/src/legal_mcp/services/gemini_session.py) (מטא); [legal-ai/CLAUDE.md](../../CLAUDE.md) (claude_session local-only להלכות). `GEMINI_API_KEY` בצד-המארח בלבד — לא בקונטיינר (תואם `feedback_claude_session_local_only`: אין קריאות-LLM מהקונטיינר).
|
||||
**אכיפה:** queue + `precedent_process_pending` + drainers מתוזמנים (`legal-metadata-drain`/CEO); קריאות-LLM רק מצד-המארח.
|
||||
**הפרה ידועה:** תור-החילוץ **סמוי** (אין הבחנה pending-initial מול pending-review; אין extraction-job table) ([gap-audit GAP-45](gap-audit.md); [X9](X9-mcp-tool-contract.md)).
|
||||
|
||||
---
|
||||
|
||||
@@ -21,6 +21,29 @@ dependencies = [
|
||||
"uvicorn[standard]>=0.30.0",
|
||||
"httpx>=0.27.0",
|
||||
"infisicalsdk>=1.0.0",
|
||||
"aioboto3>=13.0.0", # X14 object storage (MinIO/S3) — services/storage.py
|
||||
]
|
||||
|
||||
[project.optional-dependencies]
|
||||
# Tier-1 court-verdict fetch (X13) — host-only. The container can't run a
|
||||
# browser, so these are NOT in the base deps; install on the host venv with
|
||||
# `pip install -e ".[court-fetch]" && python -m camoufox fetch`. faster-whisper
|
||||
# is only for the explicit-PDF-download reCAPTCHA fallback (the primary
|
||||
# image-API path needs no solving).
|
||||
court-fetch = [
|
||||
"camoufox>=0.4.11",
|
||||
"faster-whisper>=1.0.0",
|
||||
"h2>=4.0.0", # Tier-0 supremedecisions uses httpx http2
|
||||
]
|
||||
# Durable execution for the local one-shot pipelines (X16 / INV-DUR1) —
|
||||
# final_halacha_pipeline / final_learning_pipeline gain crash/OOM resume via
|
||||
# scripts/_pipeline_runtime.py. HOST-ONLY (the pipelines run locally, not in the
|
||||
# container): install on the host venv with `pip install -e ".[durable]"`. The
|
||||
# runtime degrades gracefully to linear execution when these are absent, so the
|
||||
# run-halacha / run-learning buttons keep working until then.
|
||||
durable = [
|
||||
"langgraph>=1.0,<2.0",
|
||||
"langgraph-checkpoint-sqlite>=3.0",
|
||||
]
|
||||
|
||||
[build-system]
|
||||
|
||||
@@ -54,6 +54,10 @@ REDIS_URL = os.environ.get("REDIS_URL", "redis://127.0.0.1:6380/0")
|
||||
# pinned.
|
||||
HALACHA_EXTRACT_MODEL = os.environ.get("HALACHA_EXTRACT_MODEL", "claude-opus-4-8")
|
||||
HALACHA_EXTRACT_EFFORT = os.environ.get("HALACHA_EXTRACT_EFFORT", "xhigh")
|
||||
# Digest (X12) metadata extraction is a simpler, high-volume task (concept tag,
|
||||
# headline, underlying citation, tags from a one-page summary) — Sonnet is the
|
||||
# speed/cost sweet-spot here, unlike halacha extraction which pins Opus. Tune via env.
|
||||
DIGEST_EXTRACT_MODEL = os.environ.get("DIGEST_EXTRACT_MODEL", "claude-sonnet-4-6")
|
||||
# Effort for BULK queue-drain extraction (process_pending over many precedents).
|
||||
# xhigh is the quality sweet-spot for a single precedent but very slow at scale
|
||||
# (a 64-chunk case ≈ 20 min). Bulk drains use a lighter effort to cut wall-clock;
|
||||
@@ -134,16 +138,52 @@ BM25_HYBRID_ENABLED = (
|
||||
)
|
||||
|
||||
# Halacha extraction — auto-approve threshold. Halachot with extractor
|
||||
# confidence >= this value are inserted with review_status='approved'
|
||||
# instead of 'pending_review' (so they immediately appear in
|
||||
# search_precedent_library). Set to a value > 1.0 to disable auto-approval.
|
||||
# 0.80 baseline: 89% of historical extractions land here, manual spot-check
|
||||
# of 10 random samples confirmed quality. Tunable via env if drift is
|
||||
# observed (e.g. raise to 0.90 if false-positives appear).
|
||||
# confidence >= this value AND no quality_flags are inserted
|
||||
# review_status='approved' (so they appear immediately in
|
||||
# search_precedent_library). Set > 1.0 to disable auto-approval.
|
||||
#
|
||||
# CALIBRATION (#81.8, 2026-06-11) against the 100-item human-labeled gold-set
|
||||
# (db.goldset_calibrate, ground_truth='chair'; 93 keep / 7 drop):
|
||||
# conf>=0.80 -> precision 0.98, recall 0.53 <- current (errs safe)
|
||||
# conf>=0.75 -> precision 0.96, recall 0.81
|
||||
# conf>=0.70 -> precision 0.94, recall 0.94
|
||||
# 0.80 clears the >=0.90 precision target with margin, so we KEEP it — it errs
|
||||
# toward the chair (low recall = more items reviewed, never the reverse).
|
||||
# Two findings shape the policy:
|
||||
# (a) self-confidence alone is well-calibrated for PRECISION; the rule-based
|
||||
# validators do NOT discriminate keep/drop on the gold-set (P~0.1), so a
|
||||
# "confidence x validators" combined score would only hurt — not adopted.
|
||||
# (b) the real COVERAGE lever is the tri-model panel (halacha_panel_approve):
|
||||
# unanimous-3/3 -> precision 0.988 at 95% coverage, dominating any single
|
||||
# confidence threshold. Lowering this gate to ~0.75 is a governance
|
||||
# tradeoff (more unreviewed auto-approvals, INV-G10) on thin evidence
|
||||
# (7 negatives) -> deferred to chair/panel (TaskMaster #121), not changed here.
|
||||
HALACHA_AUTO_APPROVE_THRESHOLD = float(
|
||||
os.environ.get("HALACHA_AUTO_APPROVE_THRESHOLD", "0.80")
|
||||
)
|
||||
|
||||
# ── Tri-model panel extraction regime (legal-principles-redesign, #152) ──────
|
||||
# chaim 2026-06-19: replace single-model auto-approve with a 3-model panel that
|
||||
# deep-analyzes each decision. 3 models (Claude local + DeepSeek + Gemini) each
|
||||
# PROPOSE candidate principles with a 0-1 score; candidates are matched across
|
||||
# models (cosine ≥ MATCH_COSINE) → votes (# distinct models) + score (mean of the
|
||||
# voters' scores). Approval rule (chaim): 3 votes → approve (even score<floor) ·
|
||||
# ≥2 votes AND score≥SCORE_FLOOR → approve · 2 votes AND score<floor → chair
|
||||
# (pending_review, G10) · 1 vote → drop. Cap MAX_NEW genuinely-new principles per
|
||||
# decision (by score); recognized-existing (V41 cosine link) don't count against
|
||||
# the cap. Applies to extraction (going forward) AND the retroactive cull (#152).
|
||||
HALACHA_PANEL_SCORE_FLOOR = float(os.environ.get("HALACHA_PANEL_SCORE_FLOOR", "0.85"))
|
||||
HALACHA_PANEL_MAX_NEW = int(os.environ.get("HALACHA_PANEL_MAX_NEW", "5"))
|
||||
# 0.80: legal-principle paraphrases across models land ~0.78-0.82 on voyage-law-2
|
||||
# (the canonical-synthesis dry-run showed faithful rewrites at 0.78-0.80); too high
|
||||
# a floor misses genuine cross-model agreement → undercounts votes → over-culls.
|
||||
# Calibrate against the gold-set in Phase C before the production cull.
|
||||
HALACHA_PANEL_MATCH_COSINE = float(os.environ.get("HALACHA_PANEL_MATCH_COSINE", "0.80"))
|
||||
# When on (default), extraction uses the decision-level 3-model panel regime above
|
||||
# instead of the legacy per-chunk single-model auto-approve. Set false to fall back
|
||||
# to the legacy path (e.g. if all three judges are unreachable).
|
||||
HALACHA_PANEL_REGIME_ENABLED = os.environ.get("HALACHA_PANEL_REGIME_ENABLED", "true").lower() == "true"
|
||||
|
||||
# Halacha dedup-on-insert — within-precedent semantic cosine ceiling. Before
|
||||
# storing a halacha, store_halachot_for_chunk skips it if its rule-embedding has
|
||||
# cosine >= this value against an already-stored halacha of the SAME precedent
|
||||
@@ -187,6 +227,25 @@ HALACHA_CONSOLIDATE_ENABLED = os.environ.get("HALACHA_CONSOLIDATE_ENABLED", "tru
|
||||
HALACHA_CONSOLIDATE_MODEL = os.environ.get("HALACHA_CONSOLIDATE_MODEL", HALACHA_EXTRACT_MODEL)
|
||||
HALACHA_CONSOLIDATE_EFFORT = os.environ.get("HALACHA_CONSOLIDATE_EFFORT", "high")
|
||||
|
||||
# V41 canonical lookup-before-insert: cosine gate for reusing an existing canonical
|
||||
# instead of creating a new one. 0.85 is tuned to the embedding space (1024-dim voyage).
|
||||
HALACHA_CANONICAL_LOOKUP_ENABLED = os.environ.get("HALACHA_CANONICAL_LOOKUP_ENABLED", "true").lower() == "true"
|
||||
HALACHA_CANONICAL_THRESHOLD = float(os.environ.get("HALACHA_CANONICAL_THRESHOLD", "0.85"))
|
||||
|
||||
# V41 canonical synthesis (Phase 4) — a claude_session pass that rewrites each
|
||||
# canonical's statement (carried over verbatim from the representative halacha at
|
||||
# backfill) into ONE clean, case-independent legal principle, grounded in the
|
||||
# instances' supporting quotes (INV-AH), then flips review_status
|
||||
# pending_synthesis → pending_review for the chair gate (G10). Opus by default —
|
||||
# substance-bearing rewrite, chair-facing. Runs through the local CLI (zero $-cost,
|
||||
# but consumes subscription usage windows → throttled via usage_limits).
|
||||
# Drift guard: the synthesized statement is re-embedded and compared (cosine) to
|
||||
# the source; below the floor the synthesis is REJECTED (kept as-is, flagged) so a
|
||||
# hallucinated/topic-drifted rewrite never silently overwrites a sound principle.
|
||||
HALACHA_CANONICAL_SYNTH_MODEL = os.environ.get("HALACHA_CANONICAL_SYNTH_MODEL", HALACHA_EXTRACT_MODEL)
|
||||
HALACHA_CANONICAL_SYNTH_EFFORT = os.environ.get("HALACHA_CANONICAL_SYNTH_EFFORT", "high")
|
||||
HALACHA_CANONICAL_SYNTH_DRIFT_FLOOR = float(os.environ.get("HALACHA_CANONICAL_SYNTH_DRIFT_FLOOR", "0.80"))
|
||||
|
||||
# Google Cloud Vision (OCR for scanned PDFs)
|
||||
GOOGLE_CLOUD_VISION_API_KEY = os.environ.get("GOOGLE_CLOUD_VISION_API_KEY", "")
|
||||
|
||||
@@ -198,6 +257,32 @@ EXPORTS_DIR = DATA_DIR / "exports" # legacy exports only
|
||||
# Cases directory — flat structure: data/cases/{case_number}/
|
||||
CASES_DIR = DATA_DIR / "cases"
|
||||
|
||||
# ── Object storage (X14 / MinIO) ───────────────────────────────────
|
||||
# Single storage layer (services/storage.py) replaces the scattered file
|
||||
# I/O across ~8 services (INV-STG1 / G2). Backend selector:
|
||||
# "filesystem" (default) — disk under DATA_DIR; current behaviour, no change.
|
||||
# "dual" — write disk + S3, read S3→disk fallback (migration).
|
||||
# "s3" — MinIO only.
|
||||
# See docs/spec/X14-storage-minio.md.
|
||||
STORAGE_BACKEND = os.environ.get("STORAGE_BACKEND", "filesystem").strip().lower()
|
||||
# Endpoint reached server-side (internal Docker network: http://minio:9000).
|
||||
MINIO_ENDPOINT = os.environ.get("MINIO_ENDPOINT", "http://minio:9000")
|
||||
# Public endpoint used when MINTING presigned URLs for the browser (INV-STG6) —
|
||||
# the browser cannot resolve the internal hostname. Falls back to the internal
|
||||
# endpoint when unset (e.g. local dev).
|
||||
MINIO_PUBLIC_ENDPOINT = os.environ.get("MINIO_PUBLIC_ENDPOINT", MINIO_ENDPOINT)
|
||||
MINIO_ACCESS_KEY = os.environ.get("MINIO_ACCESS_KEY", "")
|
||||
MINIO_SECRET_KEY = os.environ.get("MINIO_SECRET_KEY", "")
|
||||
MINIO_REGION = os.environ.get("MINIO_REGION", "us-east-1")
|
||||
# Logical bucket → name. Governance boundaries (INV-STG3): documents
|
||||
# (versioned), immutable (versioned + Object-Lock COMPLIANCE for final
|
||||
# decisions, INV-STG4), derived (thumbnails/extracted text — regenerable).
|
||||
MINIO_BUCKET_DOCUMENTS = os.environ.get("MINIO_BUCKET_DOCUMENTS", "legal-documents")
|
||||
MINIO_BUCKET_IMMUTABLE = os.environ.get("MINIO_BUCKET_IMMUTABLE", "legal-immutable")
|
||||
MINIO_BUCKET_DERIVED = os.environ.get("MINIO_BUCKET_DERIVED", "legal-derived")
|
||||
# Default presigned-URL TTL (seconds). SigV4 hard max is 7 days; keep short.
|
||||
MINIO_PRESIGN_TTL = int(os.environ.get("MINIO_PRESIGN_TTL", "900"))
|
||||
|
||||
|
||||
def find_case_dir(case_number: str) -> Path:
|
||||
"""Return the case directory for a given case number."""
|
||||
@@ -318,3 +403,34 @@ def parse_llm_json(raw: str):
|
||||
except json.JSONDecodeError:
|
||||
pass
|
||||
return None
|
||||
|
||||
|
||||
# ── Committee chair — single source of truth (INV-G2) ─────────────────
|
||||
# internal_committee rows REQUIRE a non-empty chair_name (DB constraint
|
||||
# case_law_internal_chair_check). Our committee (CMP 1xxx, CMPA 8/9xxx) is
|
||||
# chaired by Dafna Tamir; map by case-number prefix so adding a future chair
|
||||
# stays a one-line local change. This resolver is the ONE place both the
|
||||
# FastAPI final-upload path (web/app.py) and the MCP learning path
|
||||
# (tools/workflow.py + services/db.create_case) derive the chair from — so
|
||||
# the two cannot drift into parallel logic. Override via env for another
|
||||
# committee.
|
||||
COMMITTEE_CHAIR_DEFAULT = os.environ.get("DEFAULT_CHAIR_NAME", "דפנה תמיר")
|
||||
COMMITTEE_CHAIR_BY_PREFIX = {
|
||||
"1": COMMITTEE_CHAIR_DEFAULT,
|
||||
"8": COMMITTEE_CHAIR_DEFAULT,
|
||||
"9": COMMITTEE_CHAIR_DEFAULT,
|
||||
}
|
||||
|
||||
|
||||
def committee_chair_for_case(case: dict | None, case_number: str) -> str:
|
||||
"""Resolve the chair for one of OUR decisions deterministically (no LLM):
|
||||
the case's own chair_name, else the committee default by case-number prefix.
|
||||
|
||||
Never returns empty for a valid case number — this is how chair_name is
|
||||
normalised at the source (INV-G1) so internal_committee corpus copies of
|
||||
finals never silently fail the DB chair constraint.
|
||||
"""
|
||||
existing = ((case or {}).get("chair_name") or "").strip()
|
||||
if existing:
|
||||
return existing
|
||||
return COMMITTEE_CHAIR_BY_PREFIX.get((case_number or "")[:1], COMMITTEE_CHAIR_DEFAULT)
|
||||
|
||||
@@ -1,148 +1,314 @@
|
||||
"""Camoufox-browser client + נט-המשפט navigation flow (X13, Tier 1).
|
||||
"""Camoufox driver for נט המשפט — calibrated, proven flow (X13, Tier 1).
|
||||
|
||||
Open-source, zero-API-cost stealth browsing: a self-hosted ``camofox-browser``
|
||||
REST server (``jo-inc/camofox-browser``, wrapping Camoufox — a Firefox fork
|
||||
with C++ fingerprint spoofing) drives a real browser. We talk to it over the
|
||||
same REST surface the Hermes agent uses (``~/.hermes/.../browser_camofox.py``):
|
||||
Open-source, zero-API-cost: drives a **Camoufox** stealth browser (a Firefox
|
||||
fork with C++ fingerprint spoofing) via its official Python package
|
||||
(``camoufox.async_api``) — in-process, no separate Node server. The full flow
|
||||
was reverse-engineered and validated end-to-end against עת"מ 46111-12-22
|
||||
(2026-06-07): a 34-page verdict PDF retrieved with **no smart-card and no
|
||||
CAPTCHA-solving**.
|
||||
|
||||
POST /tabs → {tab_id}
|
||||
POST /tabs/{tab}/navigate {url}
|
||||
GET /tabs/{tab}/snapshot → accessibility tree w/ element refs
|
||||
POST /tabs/{tab}/click {ref}
|
||||
POST /tabs/{tab}/type {ref,text}
|
||||
GET /tabs/{tab}/screenshot
|
||||
DELETE /sessions/{user}
|
||||
The proven path:
|
||||
1. homepage → DOM-click ``btnExternalSearchCases`` ("תיקים לפי מס' תיק מקור").
|
||||
2. Fill the visible header case-locator: ``BamaCaseNumberTextBoxH`` = case
|
||||
number, ``BamaMonthYearTextBoxHT`` = "MM-YY"; click ``SearchHeaderCaseButton``.
|
||||
→ lands on ``FolderCaseDetails/CaseDetails.aspx`` for the case.
|
||||
3. Click the "פסקי דין" sidebar tab → ``Decisions/DecisionList.aspx``.
|
||||
4. Click the document → popup ``Viewer/NGCSViewerPage.aspx?DocumentNumber=…``.
|
||||
5. The viewer renders pages as PNG images via the ``GetImages`` PageMethod —
|
||||
**served without reCAPTCHA** (the reCAPTCHA on the viewer only gates the
|
||||
explicit save/print, which we don't use). Capture the internal
|
||||
``documentNumber`` from the viewer's first ``GetImages`` call, then pull
|
||||
every 4-page batch via ``fetch`` **with header ``X-Requested-With:
|
||||
XMLHttpRequest``** (required — the F5 WAF blocks AJAX calls without it).
|
||||
6. Decode the base64 PNGs → assemble a PDF (Pillow). The existing ingest
|
||||
pipeline OCRs it (Google Vision) → text → corpus.
|
||||
|
||||
Set ``CAMOFOX_URL`` (e.g. ``http://127.0.0.1:9377``) to enable. The server's
|
||||
``/health`` exposes a VNC URL — that's the human-fallback surface (INV-CF3):
|
||||
when the autonomous reCAPTCHA solve fails, the chair opens the VNC and solves
|
||||
it live, and this flow continues.
|
||||
Operational requirements (see scripts/legal-court-fetch-service.config.cjs):
|
||||
* a virtual display — Camoufox/Firefox crashes headless on this server
|
||||
without one. Set ``DISPLAY`` to a running Xvfb (e.g. ``:99``).
|
||||
* RAM — a Firefox content process loading the heavy ASP.NET pages needs
|
||||
~0.5–1 GB; keep the box from swapping.
|
||||
|
||||
⚠ CALIBRATION: the נט-המשפט external-case-search is an ASP.NET WebForms app
|
||||
behind an F5 WAF + reCAPTCHA. The element selectors and step sequence below
|
||||
are the *documented plan* of the flow; they must be calibrated against the
|
||||
live snapshot on first run (the site rate-limited static probing during
|
||||
development). Every step that can't find its target **raises** a clear Hebrew
|
||||
reason (INV-CF2 — no silent success-with-garbage) so the orchestrator escalates
|
||||
to the Tier-2 human fallback rather than returning an empty/wrong file.
|
||||
reCAPTCHA note: ``recaptcha_audio`` (local Whisper) remains as a fallback for
|
||||
the explicit-PDF-download path, but the primary image-API path needs no
|
||||
solving, so it is normally unused.
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import asyncio
|
||||
import base64
|
||||
import io
|
||||
import json
|
||||
import logging
|
||||
import os
|
||||
|
||||
import httpx
|
||||
import re
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
# נט המשפט public entry points (discovered from the homepage __doPostBack menu).
|
||||
NGCS_HOME = "https://www.court.gov.il/ngcs.web.site/homepage.aspx"
|
||||
|
||||
CAMOFOX_URL = os.environ.get("CAMOFOX_URL", "").rstrip("/")
|
||||
_TIMEOUT = float(os.environ.get("COURT_FETCH_BROWSER_TIMEOUT_S", "60"))
|
||||
# Headless Camoufox needs a virtual display on this server.
|
||||
_DISPLAY = os.environ.get("DISPLAY", "")
|
||||
_NAV_TIMEOUT_MS = int(float(os.environ.get("COURT_FETCH_BROWSER_TIMEOUT_S", "60")) * 1000)
|
||||
_PAGE_BATCH = 4 # the viewer's GetImages batch size
|
||||
_MAX_PAGES = 400 # hard cap on a single document
|
||||
# Hard wall-clock cap on a single fetch so a hung browser can't pin a Firefox
|
||||
# process forever (anti-leak; INV-CF4 politeness). The async-with cleanup runs
|
||||
# on the resulting CancelledError, tearing the browser down.
|
||||
_FETCH_HARD_TIMEOUT_S = float(os.environ.get("COURT_FETCH_HARD_TIMEOUT_S", "180"))
|
||||
|
||||
|
||||
def _reap_orphan_browsers() -> int:
|
||||
"""Kill any ``camoufox-bin`` orphaned to ``ppid=1`` before we launch.
|
||||
|
||||
Fetching is serial (INV-CF4), so any browser not owned by a live parent is
|
||||
a leftover from a prior crashed/killed fetch. Pure /proc, best-effort —
|
||||
never raises into the fetch path.
|
||||
"""
|
||||
killed = 0
|
||||
try:
|
||||
for pid in os.listdir("/proc"):
|
||||
if not pid.isdigit():
|
||||
continue
|
||||
try:
|
||||
with open(f"/proc/{pid}/status", "rb") as f:
|
||||
status = f.read().decode("utf-8", "replace")
|
||||
with open(f"/proc/{pid}/cmdline", "rb") as f:
|
||||
cmd = f.read().decode("utf-8", "replace")
|
||||
except OSError:
|
||||
continue
|
||||
if "camoufox-bin" not in cmd:
|
||||
continue
|
||||
ppid = 0
|
||||
for line in status.splitlines():
|
||||
if line.startswith("PPid:"):
|
||||
try: ppid = int(line.split()[1])
|
||||
except (IndexError, ValueError): pass
|
||||
break
|
||||
if ppid == 1:
|
||||
try:
|
||||
os.kill(int(pid), 9)
|
||||
killed += 1
|
||||
except OSError:
|
||||
pass
|
||||
except OSError:
|
||||
pass
|
||||
if killed:
|
||||
logger.warning("reaped %d orphaned camoufox-bin before fetch", killed)
|
||||
return killed
|
||||
|
||||
|
||||
class CamofoxUnavailable(RuntimeError):
|
||||
"""camofox-browser isn't configured/reachable."""
|
||||
"""Camoufox (or its virtual display) isn't available."""
|
||||
|
||||
|
||||
class NgcsFlowError(RuntimeError):
|
||||
"""A step in the נט-המשפט flow failed (selector/CAPTCHA/navigation)."""
|
||||
"""A step in the נט-המשפט flow failed (navigation / not found / blocked)."""
|
||||
|
||||
|
||||
def is_enabled() -> bool:
|
||||
return bool(CAMOFOX_URL)
|
||||
"""True if the Camoufox package imports (browser binary present)."""
|
||||
try:
|
||||
import camoufox.async_api # noqa: F401
|
||||
return True
|
||||
except Exception:
|
||||
return False
|
||||
|
||||
|
||||
async def health() -> dict:
|
||||
"""Probe camofox-browser; surfaces the VNC URL for the human fallback."""
|
||||
if not CAMOFOX_URL:
|
||||
raise CamofoxUnavailable("CAMOFOX_URL is not set")
|
||||
async with httpx.AsyncClient(timeout=10) as c:
|
||||
r = await c.get(f"{CAMOFOX_URL}/health")
|
||||
r.raise_for_status()
|
||||
return r.json()
|
||||
return {"camoufox_import": is_enabled(), "display": _DISPLAY or "(none)"}
|
||||
|
||||
|
||||
class _Browser:
|
||||
"""Thin async wrapper over the camofox-browser REST surface."""
|
||||
|
||||
def __init__(self, client: httpx.AsyncClient, tab_id: str, user_id: str):
|
||||
self._c = client
|
||||
self.tab = tab_id
|
||||
self.user = user_id
|
||||
|
||||
@classmethod
|
||||
async def open(cls, client: httpx.AsyncClient) -> "_Browser":
|
||||
r = await client.post(f"{CAMOFOX_URL}/tabs", json={})
|
||||
r.raise_for_status()
|
||||
data = r.json()
|
||||
return cls(client, data["tab_id"], data.get("user_id", data["tab_id"]))
|
||||
|
||||
async def navigate(self, url: str) -> None:
|
||||
r = await self._c.post(f"{CAMOFOX_URL}/tabs/{self.tab}/navigate", json={"url": url})
|
||||
r.raise_for_status()
|
||||
|
||||
async def snapshot(self) -> dict:
|
||||
r = await self._c.get(f"{CAMOFOX_URL}/tabs/{self.tab}/snapshot")
|
||||
r.raise_for_status()
|
||||
return r.json()
|
||||
|
||||
async def click(self, ref: str) -> dict:
|
||||
r = await self._c.post(f"{CAMOFOX_URL}/tabs/{self.tab}/click", json={"ref": ref})
|
||||
r.raise_for_status()
|
||||
return r.json()
|
||||
|
||||
async def type(self, ref: str, text: str) -> None:
|
||||
r = await self._c.post(
|
||||
f"{CAMOFOX_URL}/tabs/{self.tab}/type", json={"ref": ref, "text": text}
|
||||
)
|
||||
r.raise_for_status()
|
||||
|
||||
async def close(self) -> None:
|
||||
async def _fill_visible(page, id_substr: str, value: str) -> bool:
|
||||
for el in await page.locator(f"input[id*='{id_substr}']").all():
|
||||
try:
|
||||
await self._c.delete(f"{CAMOFOX_URL}/sessions/{self.user}")
|
||||
except httpx.HTTPError:
|
||||
pass
|
||||
if await el.is_visible() and await el.is_editable():
|
||||
await el.fill(value)
|
||||
return True
|
||||
except Exception:
|
||||
continue
|
||||
return False
|
||||
|
||||
|
||||
async def _reach_viewer(page, *, case_number: str, month_year: str):
|
||||
"""Drive home → search → case → פסקי דין → viewer popup. Returns the popup page."""
|
||||
await page.goto(NGCS_HOME, wait_until="domcontentloaded", timeout=_NAV_TIMEOUT_MS)
|
||||
await page.wait_for_timeout(2500)
|
||||
await page.eval_on_selector(
|
||||
"#Header1_UpperMenu1_btnExternalSearchCases", "el => el.click()"
|
||||
)
|
||||
try:
|
||||
await page.wait_for_load_state("domcontentloaded", timeout=_NAV_TIMEOUT_MS)
|
||||
except Exception:
|
||||
pass
|
||||
await page.wait_for_timeout(4500)
|
||||
|
||||
if not await _fill_visible(page, "BamaCaseNumberTextBoxH", case_number):
|
||||
raise NgcsFlowError("שדה מספר-תיק לא נמצא בעמוד החיפוש")
|
||||
my_filled = False
|
||||
for el in await page.locator("input[id*='BamaMonthYearTextBoxHT']").all():
|
||||
if await el.is_visible():
|
||||
await el.click()
|
||||
await page.keyboard.type(month_year, delay=60)
|
||||
my_filled = True
|
||||
break
|
||||
if not my_filled:
|
||||
raise NgcsFlowError("שדה חודש-שנה לא נמצא")
|
||||
clicked = False
|
||||
for b in await page.locator("[id*='SearchHeaderCaseButton']").all():
|
||||
if await b.is_visible():
|
||||
await b.click()
|
||||
clicked = True
|
||||
break
|
||||
if not clicked:
|
||||
raise NgcsFlowError("כפתור החיפוש לא נמצא")
|
||||
await page.wait_for_timeout(6000)
|
||||
if "CaseDetails" not in page.url:
|
||||
raise NgcsFlowError(
|
||||
f"לא הגענו לעמוד-התיק (URL={page.url[:80]}) — ייתכן שהתיק לא נמצא/לא פתוח לעיון"
|
||||
)
|
||||
|
||||
# פסקי דין tab → DecisionList
|
||||
psak = page.locator("a:has-text('פסקי דין')")
|
||||
opened = False
|
||||
for i in range(await psak.count()):
|
||||
el = psak.nth(i)
|
||||
if await el.is_visible():
|
||||
await el.click()
|
||||
opened = True
|
||||
break
|
||||
if not opened:
|
||||
raise NgcsFlowError("לשונית 'פסקי דין' לא נמצאה בעמוד-התיק")
|
||||
await page.wait_for_timeout(6000)
|
||||
|
||||
# open the verdict document viewer (popup)
|
||||
viewers = page.locator(
|
||||
"a[href*='Viewer'],[onclick*='Viewer'],a[href*='Document'],a:has-text('צפייה')"
|
||||
)
|
||||
async with page.context.expect_page(timeout=15000) as pop:
|
||||
clicked = False
|
||||
for i in range(await viewers.count()):
|
||||
el = viewers.nth(i)
|
||||
if await el.is_visible():
|
||||
await el.click()
|
||||
clicked = True
|
||||
break
|
||||
if not clicked:
|
||||
raise NgcsFlowError("לא נמצא מסמך פסק-דין לצפייה")
|
||||
return await pop.value
|
||||
|
||||
|
||||
async def fetch_admin_verdict(
|
||||
*, file_number: str, month: str, year: str, case_number: str, court: str
|
||||
) -> dict:
|
||||
"""Drive נט המשפט to download an admin/district verdict PDF.
|
||||
"""Fetch an admin/district court verdict as a PDF. Returns
|
||||
``{content: bytes, filename, source_url, court}``; raises on failure.
|
||||
|
||||
Returns ``{content: bytes, filename: str, source_url: str, court: str}``.
|
||||
Raises ``CamofoxUnavailable`` / ``NgcsFlowError`` on failure.
|
||||
|
||||
The flow (to be calibrated against the live snapshot):
|
||||
1. Open the homepage; trigger "חיפוש תיקים חיצוני" (btnExternalSearchCases).
|
||||
2. Fill the case-number / month / year fields.
|
||||
3. Solve the reCAPTCHA via the audio challenge (recaptcha_audio); on
|
||||
repeated failure, surface the VNC URL for a human solve (INV-CF3).
|
||||
4. Submit; open the matched case; locate the verdict ("פסק דין") document.
|
||||
5. Download the cleared PDF (served via S3 pre-signed URL) and return bytes.
|
||||
``file_number``/``month``/``year`` are the נט-המשפט triple (e.g. 46111/12/22).
|
||||
"""
|
||||
if not CAMOFOX_URL:
|
||||
try:
|
||||
from camoufox.async_api import AsyncCamoufox
|
||||
except Exception as e:
|
||||
raise CamofoxUnavailable(
|
||||
"שירות-הדפדפן (camofox-browser) אינו מוגדר — הגדר CAMOFOX_URL "
|
||||
"והפעל את jo-inc/camofox-browser. ראה docs/spec/X13-court-fetch.md."
|
||||
"חבילת camoufox אינה מותקנת/זמינה. הרץ `pip install camoufox` ו-"
|
||||
"`python -m camoufox fetch`. ראה docs/spec/X13-court-fetch.md."
|
||||
) from e
|
||||
if not _DISPLAY:
|
||||
# Headless Firefox crashes here without a virtual display.
|
||||
raise CamofoxUnavailable(
|
||||
"אין DISPLAY — Camoufox דורש Xvfb על שרת ללא מסך. הפעל Xvfb (למשל :99) "
|
||||
"והגדר DISPLAY (ראה pm2 config)."
|
||||
)
|
||||
|
||||
async with httpx.AsyncClient(timeout=_TIMEOUT) as client:
|
||||
br = await _Browser.open(client)
|
||||
try:
|
||||
await br.navigate(NGCS_HOME)
|
||||
snap = await br.snapshot()
|
||||
_ = snap # calibration anchor: locate btnExternalSearchCases here.
|
||||
month_year = f"{int(month):02d}-{year[-2:]}"
|
||||
|
||||
# The concrete selector/CAPTCHA/download steps require live
|
||||
# calibration with camofox running. Until calibrated we fail
|
||||
# loudly so the orchestrator escalates to the human fallback
|
||||
# (INV-CF2/CF3) rather than pretending success.
|
||||
raise NgcsFlowError(
|
||||
"זרימת נט-המשפט (Tier 1) ממתינה לכיול מול snapshot חי של "
|
||||
"camofox-browser — בקשת-אחזור מוסלמת ל-fallback אנושי (VNC/ידני)."
|
||||
# Belt-and-suspenders against browser leaks: kill any orphaned browser from
|
||||
# a prior crashed fetch before we launch a new one (serial → safe).
|
||||
_reap_orphan_browsers()
|
||||
|
||||
async def _run() -> dict:
|
||||
doc_num = {"v": None}
|
||||
|
||||
async def on_resp(resp):
|
||||
if "GetImages" in resp.url and not doc_num["v"]:
|
||||
try:
|
||||
doc_num["v"] = json.loads(resp.request.post_data).get("documentNumber")
|
||||
except Exception:
|
||||
pass
|
||||
|
||||
async with AsyncCamoufox(
|
||||
headless=True, geoip=False, humanize=True, locale="he-IL"
|
||||
) as browser:
|
||||
page = await browser.new_page()
|
||||
page.context.on("response", lambda r: asyncio.create_task(on_resp(r)))
|
||||
vp = await _reach_viewer(page, case_number=file_number, month_year=month_year)
|
||||
source_url = vp.url
|
||||
await vp.wait_for_timeout(9000)
|
||||
if not doc_num["v"]:
|
||||
raise NgcsFlowError("לא נלכד documentNumber מהצופה (ייתכן שהמסמך לא נטען)")
|
||||
|
||||
# Pull every page batch through fetch() with X-Requested-With (WAF-safe).
|
||||
imgs = await vp.evaluate(
|
||||
"""async (args) => {
|
||||
const [dn, maxPages, batch] = args;
|
||||
const url = window.location.href.split('?')[0] + '/GetImages';
|
||||
const out = {};
|
||||
for (let f = 0; f < maxPages; f += batch) {
|
||||
let d;
|
||||
try {
|
||||
const r = await fetch(url, {method:'POST', credentials:'include',
|
||||
headers:{'Content-Type':'application/json; charset=utf-8',
|
||||
'X-Requested-With':'XMLHttpRequest'},
|
||||
body: JSON.stringify({documentNumber:dn, fromIndex:f, toIndex:f+batch-1})});
|
||||
if (!r.ok) break;
|
||||
const j = await r.json(); d = (j.d !== undefined) ? j.d : j;
|
||||
} catch (e) { break; }
|
||||
if (!Array.isArray(d) || d.length === 0) break;
|
||||
d.forEach((html, k) => { if (html) out[f+k] = html; });
|
||||
if (d.length < batch) break;
|
||||
await new Promise(r => setTimeout(r, 350));
|
||||
}
|
||||
return out;
|
||||
}""",
|
||||
[doc_num["v"], _MAX_PAGES, _PAGE_BATCH],
|
||||
)
|
||||
finally:
|
||||
await br.close()
|
||||
|
||||
if not imgs:
|
||||
raise NgcsFlowError("לא התקבלו עמודי-מסמך מ-GetImages")
|
||||
from PIL import Image
|
||||
|
||||
pages = []
|
||||
for idx in sorted(imgs, key=lambda x: int(x)):
|
||||
m = re.search(r"base64,([A-Za-z0-9+/=]+)", imgs[idx] or "")
|
||||
if not m:
|
||||
continue
|
||||
pages.append(Image.open(io.BytesIO(base64.b64decode(m.group(1)))).convert("RGB"))
|
||||
if not pages:
|
||||
raise NgcsFlowError("עמודי-המסמך לא ניתנים לפענוח (base64)")
|
||||
|
||||
buf = io.BytesIO()
|
||||
pages[0].save(buf, format="PDF", save_all=True, append_images=pages[1:])
|
||||
content = buf.getvalue()
|
||||
logger.info("נט המשפט: fetched %s — %d pages, %d bytes",
|
||||
case_number, len(pages), len(content))
|
||||
return {
|
||||
"content": content,
|
||||
"filename": f"{case_number}.pdf",
|
||||
"source_url": source_url,
|
||||
"court": court or "בית משפט מחוזי",
|
||||
"pages": len(pages),
|
||||
}
|
||||
|
||||
# Hard wall-clock cap: on a hung browser, the timeout cancels _run(); the
|
||||
# async-with __aexit__ tears the browser down, and the reap below sweeps any
|
||||
# process that outlived the cancellation.
|
||||
try:
|
||||
return await asyncio.wait_for(_run(), _FETCH_HARD_TIMEOUT_S)
|
||||
except asyncio.TimeoutError:
|
||||
_reap_orphan_browsers()
|
||||
raise NgcsFlowError(
|
||||
f"אחזור עבר את מגבלת-הזמן ({_FETCH_HARD_TIMEOUT_S:.0f}ש') ובוטל"
|
||||
)
|
||||
finally:
|
||||
_reap_orphan_browsers()
|
||||
|
||||
266
mcp-server/src/legal_mcp/court_fetch_service/mavat_client.py
Normal file
266
mcp-server/src/legal_mcp/court_fetch_service/mavat_client.py
Normal file
@@ -0,0 +1,266 @@
|
||||
"""Camoufox driver for mavat (מנהל התכנון) — pull תב"ע identity + validity.
|
||||
|
||||
mavat sits behind an F5 BIG-IP ASM bot-wall: a scripted curl/httpx gets a
|
||||
302→maintenance, but a real JS-executing browser on this server clears the
|
||||
challenge (verified 2026-06-17). So, like X13's נט-המשפט flow, we drive a
|
||||
**Camoufox** stealth browser over Xvfb — same engine, same host service, no
|
||||
second port/secret (G2).
|
||||
|
||||
The proven flow (validated end-to-end on 101-1031020 → י"פ 13697 and
|
||||
101-1053933 → י"פ 13836, two stable runs):
|
||||
1. goto the SPA home; it redirects to ``/SV1`` once the F5 JS challenge
|
||||
resolves (TS* cookies set) — that is the normal landed state.
|
||||
2. Type the plan number into ``#sv3-search__input`` (the only visible text
|
||||
input) and press Enter. The SPA POSTs ``/rest/api/sv3/Search`` with a
|
||||
reCAPTCHA token it supplies transparently — so reCAPTCHA must stay enabled
|
||||
(blocking it kills the token and results never render). For a unique plan
|
||||
number the SPA then **auto-navigates** to ``/SV4/1/<MMI_ENTITY_ID>/310``.
|
||||
3. That navigation fires ``GET /rest/api/SV4/1?mid=<mid>&guid=0`` (~55 KB
|
||||
JSON). It returns 200 only in the in-app navigation context, so we capture
|
||||
it off the SPA's own request (a standalone replay 404s).
|
||||
4. Parse identity from ``planDetails`` and validity from ``rsInternet``: the
|
||||
row ``LIS_DESC == "פרסום לאישור ברשומות"`` carries ``ED_PUBLICATION_FILE``
|
||||
(= yalkut number) and a ``DETAILS`` string with date + page. The separate
|
||||
"פרסום להפקדה ברשומות" row is the deposit (ignored).
|
||||
|
||||
Driver-crash workaround (required): the SV4 navigation throws an uncaught SPA
|
||||
error that crashes the playwright-firefox driver (it reads
|
||||
``pageError.location.url``). An init-script swallowing ``window.onerror`` +
|
||||
``error``/``unhandledrejection`` (preventDefault) keeps the driver alive.
|
||||
|
||||
INV-AH: ``source_url`` is the mavat plan page; a field mavat doesn't expose comes
|
||||
back empty, never guessed. This module only returns a candidate — the chair gates
|
||||
it (review_status) before block-ט cites it.
|
||||
|
||||
Operational requirements (shared with camofox_client): a virtual display
|
||||
(``DISPLAY``=:99 via Xvfb) and ~0.5–1 GB RAM for the Firefox content process.
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import asyncio
|
||||
import logging
|
||||
import os
|
||||
import re
|
||||
|
||||
# Reuse the X13 orphan-browser reaper (same camoufox-bin binary) — G2, no copy.
|
||||
from legal_mcp.court_fetch_service.camofox_client import _reap_orphan_browsers
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
MAVAT_HOME = "https://mavat.iplan.gov.il/"
|
||||
_SV4_RESP_RE = re.compile(r"/rest/api/SV4/1\?mid=", re.IGNORECASE)
|
||||
|
||||
_DISPLAY = os.environ.get("DISPLAY", "")
|
||||
_NAV_TIMEOUT_MS = int(float(os.environ.get("PLAN_FETCH_BROWSER_TIMEOUT_S", "60")) * 1000)
|
||||
_FETCH_HARD_TIMEOUT_S = float(os.environ.get("PLAN_FETCH_HARD_TIMEOUT_S", "180"))
|
||||
|
||||
# Proven waits (both verification runs passed; the search box is absent before
|
||||
# the F5 + Angular boot, and the SV4 XHR lands a few seconds after Enter).
|
||||
_HOME_WAIT_MS = 8000
|
||||
_SEARCH_WAIT_MS = 9000
|
||||
_SV4_POLL_TRIES = 8
|
||||
_SV4_POLL_MS = 4000
|
||||
|
||||
_SEARCH_INPUT = "#sv3-search__input"
|
||||
|
||||
# The gazette/yalkut status row vs the (ignored) deposit row.
|
||||
_GAZETTE_LIS_DESC = "פרסום לאישור ברשומות"
|
||||
|
||||
# Swallow the SPA's uncaught SV4 error so the playwright-firefox driver survives.
|
||||
_CRASH_GUARD_JS = """
|
||||
window.addEventListener('error', function (e) { try { e.preventDefault(); } catch (x) {} }, true);
|
||||
window.addEventListener('unhandledrejection', function (e) { try { e.preventDefault(); } catch (x) {} }, true);
|
||||
window.onerror = function () { return true; };
|
||||
"""
|
||||
|
||||
_DATE_RE = re.compile(r"תאריך\s*פרסום\s*:?\s*(\d{1,2})/(\d{1,2})/(\d{4})")
|
||||
_PAGE_RE = re.compile(r"עמוד\s*:?\s*(\d{1,6})")
|
||||
_YALKUT_DETAILS_RE = re.compile(r"ילקוט\s*פרסומים\s*:?\s*(\d{2,6})")
|
||||
|
||||
|
||||
class MavatUnavailable(RuntimeError):
|
||||
"""Camoufox / its virtual display isn't available."""
|
||||
|
||||
|
||||
class MavatFlowError(RuntimeError):
|
||||
"""A step in the mavat flow failed (blocked / not found / not parsed)."""
|
||||
|
||||
|
||||
def is_enabled() -> bool:
|
||||
try:
|
||||
import camoufox.async_api # noqa: F401
|
||||
return True
|
||||
except Exception:
|
||||
return False
|
||||
|
||||
|
||||
async def health() -> dict:
|
||||
return {"camoufox_import": is_enabled(), "display": _DISPLAY or "(none)"}
|
||||
|
||||
|
||||
# ─── payload parsing ──────────────────────────────────────────────────────────
|
||||
|
||||
def _s(v) -> str:
|
||||
return v.strip() if isinstance(v, str) else ""
|
||||
|
||||
|
||||
def _yalkut_str(v) -> str:
|
||||
"""ED_PUBLICATION_FILE comes as a float (13697.0) — render as a clean int."""
|
||||
if isinstance(v, (int, float)):
|
||||
return str(int(v))
|
||||
s = _s(v)
|
||||
m = re.search(r"\d{2,6}", s)
|
||||
return m.group(0) if m else ""
|
||||
|
||||
|
||||
def _parse_sv4(sv4: dict, plan_number: str, source_url: str) -> dict:
|
||||
"""Map an SV4 plan-detail JSON object to our registry-candidate fields.
|
||||
|
||||
Identity lives in ``planDetails``; validity in the top-level ``rsInternet``.
|
||||
"""
|
||||
pd = sv4.get("planDetails") if isinstance(sv4, dict) else None
|
||||
pd = pd if isinstance(pd, dict) else {}
|
||||
|
||||
number = _s(pd.get("NUMB")) or plan_number
|
||||
# display_name is the clean citation surface form — "תכנית <number>". mavat's
|
||||
# E_NAME is a long descriptive title (the plan's substance), which belongs in
|
||||
# purpose, NOT in the name block-ט cites. Keep E_NAME only as a purpose
|
||||
# fallback so its content isn't lost when GOALS is empty.
|
||||
e_name = _s(pd.get("E_NAME"))
|
||||
display_name = f"תכנית {number}" if number else e_name
|
||||
auth = _s(pd.get("AUTH"))
|
||||
subtype = _s(pd.get("ENTITY_SUBTYPE"))
|
||||
plan_type = f"{auth} ({subtype})" if auth and subtype else (auth or subtype)
|
||||
purpose = _s(pd.get("GOALS")) or e_name
|
||||
|
||||
gazette_date, yalkut_number, yalkut_page = "", "", ""
|
||||
rows = sv4.get("rsInternet") if isinstance(sv4, dict) else None
|
||||
rows = rows if isinstance(rows, list) else []
|
||||
for row in rows:
|
||||
if not isinstance(row, dict) or _s(row.get("LIS_DESC")) != _GAZETTE_LIS_DESC:
|
||||
continue
|
||||
yalkut_number = _yalkut_str(row.get("ED_PUBLICATION_FILE"))
|
||||
details = _s(row.get("DETAILS"))
|
||||
md = _DATE_RE.search(details)
|
||||
if md:
|
||||
d, mo, y = md.groups()
|
||||
gazette_date = f"{int(y):04d}-{int(mo):02d}-{int(d):02d}"
|
||||
if not gazette_date:
|
||||
# fall back to the structured row date (EIS_DATE: ISO-ish or dd/mm/yyyy)
|
||||
ed = _s(row.get("EIS_DATE"))
|
||||
m2 = re.search(r"(\d{4})-(\d{2})-(\d{2})", ed) or re.search(
|
||||
r"(\d{1,2})/(\d{1,2})/(\d{4})", ed)
|
||||
if m2 and "-" in ed:
|
||||
gazette_date = m2.group(0)[:10]
|
||||
elif m2:
|
||||
d, mo, y = m2.groups()
|
||||
gazette_date = f"{int(y):04d}-{int(mo):02d}-{int(d):02d}"
|
||||
if not yalkut_number:
|
||||
my = _YALKUT_DETAILS_RE.search(details)
|
||||
if my:
|
||||
yalkut_number = my.group(1)
|
||||
mp = _PAGE_RE.search(details)
|
||||
if mp:
|
||||
yalkut_page = mp.group(1)
|
||||
break
|
||||
|
||||
return {
|
||||
"plan_number": number,
|
||||
"display_name": display_name,
|
||||
"plan_type": plan_type,
|
||||
"purpose": purpose,
|
||||
"gazette_date": gazette_date,
|
||||
"yalkut_number": yalkut_number,
|
||||
"yalkut_page": yalkut_page,
|
||||
"source_url": source_url,
|
||||
}
|
||||
|
||||
|
||||
# ─── driver ───────────────────────────────────────────────────────────────────
|
||||
|
||||
async def fetch_plan(plan_number: str) -> dict:
|
||||
"""Drive mavat for one plan; return the registry-candidate dict.
|
||||
|
||||
Raises ``MavatUnavailable`` (no browser/display) or ``MavatFlowError``
|
||||
(blocked / not found / not parsed).
|
||||
"""
|
||||
plan_number = (plan_number or "").strip()
|
||||
if not plan_number:
|
||||
raise MavatFlowError("חסר מספר-תכנית")
|
||||
try:
|
||||
from camoufox.async_api import AsyncCamoufox
|
||||
except Exception as e:
|
||||
raise MavatUnavailable(
|
||||
"חבילת camoufox אינה מותקנת/זמינה. ראה docs/spec/X13-court-fetch.md."
|
||||
) from e
|
||||
if not _DISPLAY:
|
||||
raise MavatUnavailable(
|
||||
"אין DISPLAY — Camoufox דורש Xvfb על שרת ללא מסך (למשל :99)."
|
||||
)
|
||||
|
||||
_reap_orphan_browsers()
|
||||
|
||||
async def _run() -> dict:
|
||||
captured: dict = {"sv4": None, "sv4_url": ""}
|
||||
|
||||
async def on_resp(resp):
|
||||
if captured["sv4"] is not None or not _SV4_RESP_RE.search(resp.url):
|
||||
return
|
||||
try:
|
||||
captured["sv4"] = await resp.json()
|
||||
captured["sv4_url"] = resp.url
|
||||
except Exception: # a racing/non-JSON response must not kill the flow
|
||||
pass
|
||||
|
||||
async with AsyncCamoufox(
|
||||
headless=True, geoip=False, humanize=True, locale="he-IL"
|
||||
) as browser:
|
||||
page = await browser.new_page()
|
||||
await page.add_init_script(_CRASH_GUARD_JS)
|
||||
page.context.on("response", lambda r: asyncio.create_task(on_resp(r)))
|
||||
|
||||
# 1) home → let F5 ASM resolve (lands on /SV1; search box appears).
|
||||
await page.goto(MAVAT_HOME, wait_until="domcontentloaded", timeout=_NAV_TIMEOUT_MS)
|
||||
await page.wait_for_timeout(_HOME_WAIT_MS)
|
||||
|
||||
# 2) type the plan number + Enter → sv3/Search → SPA auto-navigates to SV4.
|
||||
box = page.locator(_SEARCH_INPUT)
|
||||
try:
|
||||
await box.wait_for(state="visible", timeout=_NAV_TIMEOUT_MS)
|
||||
await box.fill(plan_number)
|
||||
await box.press("Enter")
|
||||
except Exception as e:
|
||||
raise MavatFlowError(f"שדה-החיפוש ({_SEARCH_INPUT}) לא נמצא/לא נגיש: {e}")
|
||||
await page.wait_for_timeout(_SEARCH_WAIT_MS)
|
||||
|
||||
# 3) the SV4 GET is captured by on_resp; poll until it lands.
|
||||
for _ in range(_SV4_POLL_TRIES):
|
||||
if captured["sv4"] is not None:
|
||||
break
|
||||
await page.wait_for_timeout(_SV4_POLL_MS)
|
||||
|
||||
sv4 = captured["sv4"]
|
||||
if sv4 is None:
|
||||
raise MavatFlowError(
|
||||
"לא נלכד SV4 מ-mavat — ייתכן שהתכנית לא נמצאה, ריבוי-תוצאות, או חסימת-F5."
|
||||
)
|
||||
parsed = _parse_sv4(sv4, plan_number, captured["sv4_url"] or MAVAT_HOME)
|
||||
if not parsed["display_name"]:
|
||||
raise MavatFlowError("SV4 נלכד אך ללא שם-תכנית (planDetails.E_NAME) — פענוח נכשל.")
|
||||
logger.info(
|
||||
"mavat: fetched %s — name=%r gazette=%s yalkut=%s",
|
||||
plan_number, parsed["display_name"], parsed["gazette_date"],
|
||||
parsed["yalkut_number"],
|
||||
)
|
||||
return parsed
|
||||
|
||||
try:
|
||||
return await asyncio.wait_for(_run(), _FETCH_HARD_TIMEOUT_S)
|
||||
except asyncio.TimeoutError:
|
||||
_reap_orphan_browsers()
|
||||
raise MavatFlowError(
|
||||
f"משיכת-התכנית עברה את מגבלת-הזמן ({_FETCH_HARD_TIMEOUT_S:.0f}ש') ובוטלה"
|
||||
)
|
||||
finally:
|
||||
_reap_orphan_browsers()
|
||||
@@ -9,6 +9,9 @@ Endpoints:
|
||||
→ {ok, content_b64, filename, source_url, court, reason}
|
||||
REQUIRES Authorization: Bearer <COURT_FETCH_SHARED_SECRET>.
|
||||
GET /health liveness (no auth); reports camofox + VNC URL if available.
|
||||
GET /pm2 read-only pm2 status of legal-* / paperclip services (no auth).
|
||||
POST /pm2/control body {name, action: restart|stop|start} → run pm2 on a
|
||||
whitelisted legal-* process. REQUIRES Bearer (mutating).
|
||||
|
||||
Run with pm2:
|
||||
pm2 start scripts/legal-court-fetch-service.config.cjs
|
||||
@@ -30,7 +33,9 @@ import json
|
||||
import logging
|
||||
import os
|
||||
import sys
|
||||
import time
|
||||
|
||||
import aiohttp
|
||||
from aiohttp import web
|
||||
|
||||
_pkg_root = os.path.dirname(os.path.dirname(os.path.dirname(__file__)))
|
||||
@@ -38,6 +43,9 @@ if _pkg_root not in sys.path:
|
||||
sys.path.insert(0, _pkg_root)
|
||||
|
||||
from legal_mcp.court_fetch_service import camofox_client # noqa: E402
|
||||
from legal_mcp.court_fetch_service import mavat_client # noqa: E402
|
||||
from legal_mcp.services import usage_limits # noqa: E402
|
||||
from legal_mcp.services import script_runner # noqa: E402
|
||||
|
||||
logger = logging.getLogger("legal_court_fetch_service")
|
||||
|
||||
@@ -55,6 +63,169 @@ async def health(request: web.Request) -> web.Response:
|
||||
return web.json_response(info)
|
||||
|
||||
|
||||
# Background services we surface on the /operations dashboard. pm2 jlist is a
|
||||
# host-only capability (the legal-ai container can't run pm2), so the container's
|
||||
# FastAPI proxies this read-only endpoint over the docker bridge. No secret:
|
||||
# pm2 status (names/cpu/mem) carries nothing sensitive and the bind (10.0.1.1)
|
||||
# is already host/container-only.
|
||||
_PM2_PREFIXES = ("legal-", "paperclip")
|
||||
|
||||
|
||||
def _trim_service(a: dict) -> dict:
|
||||
"""Project a pm2 jlist app entry into the fields the dashboard needs."""
|
||||
env = a.get("pm2_env", {}) or {}
|
||||
return {
|
||||
"name": a.get("name", ""),
|
||||
"status": env.get("status", ""),
|
||||
"restarts": env.get("restart_time", 0),
|
||||
"uptime_ms": env.get("pm_uptime", 0),
|
||||
"cpu": (a.get("monit") or {}).get("cpu", 0),
|
||||
"memory_bytes": (a.get("monit") or {}).get("memory", 0),
|
||||
"cron": env.get("cron_restart") or "",
|
||||
"autorestart": env.get("autorestart", True),
|
||||
}
|
||||
|
||||
|
||||
async def _pm2_run(*args: str, timeout: float = 10) -> tuple[int, bytes, bytes]:
|
||||
"""Run a pm2 subcommand; returns (returncode, stdout, stderr)."""
|
||||
import asyncio as _asyncio
|
||||
|
||||
proc = await _asyncio.create_subprocess_exec(
|
||||
"pm2", *args,
|
||||
stdout=_asyncio.subprocess.PIPE, stderr=_asyncio.subprocess.PIPE,
|
||||
)
|
||||
out, err = await _asyncio.wait_for(proc.communicate(), timeout=timeout)
|
||||
return proc.returncode or 0, out, err
|
||||
|
||||
|
||||
# /operations polls every 5s; the usage endpoint 429s if hit that often (it's
|
||||
# meant for a status bar, not a poll loop). Cache the last good payload and only
|
||||
# re-fetch when older than this — Anthropic sees ~1 req/min regardless of how
|
||||
# many dashboards poll. The 5-hour window moves slowly, so 60s is plenty fresh.
|
||||
_USAGE_TTL_SEC = 60.0
|
||||
_usage_cache: dict = {"ts": 0.0, "data": None}
|
||||
|
||||
|
||||
async def usage_status(request: web.Request) -> web.Response:
|
||||
"""Proxy the claude.ai subscription usage % (host-only — needs the local
|
||||
OAuth token), cached for _USAGE_TTL_SEC. On a fetch failure (e.g. the
|
||||
endpoint's own 429) serve the last good payload if we have one, so a
|
||||
transient limit doesn't blank the dashboard.
|
||||
|
||||
The raw OAuth read is the SHARED single source of truth
|
||||
(legal_mcp.services.usage_limits.subscription_usage) — the SAME reader the
|
||||
halacha drain + supervisor gate on (G1/G2; no triplicated endpoint/creds/UA
|
||||
constants). It's synchronous urllib, so run it in a thread to keep the aiohttp
|
||||
event loop responsive."""
|
||||
now = time.monotonic()
|
||||
if _usage_cache["data"] is not None and (now - _usage_cache["ts"]) < _USAGE_TTL_SEC:
|
||||
return web.json_response(_usage_cache["data"])
|
||||
|
||||
import asyncio as _asyncio
|
||||
# subscription_usage returns None on ANY failure (creds missing / endpoint
|
||||
# 429 / network) — it never throws; serve stale if we have it.
|
||||
data = await _asyncio.get_event_loop().run_in_executor(
|
||||
None, usage_limits.subscription_usage)
|
||||
if data is None:
|
||||
if _usage_cache["data"] is not None:
|
||||
return web.json_response(_usage_cache["data"])
|
||||
return web.json_response({"error": "usage unavailable"}, status=502)
|
||||
|
||||
_usage_cache["ts"] = now
|
||||
_usage_cache["data"] = data
|
||||
return web.json_response(data)
|
||||
|
||||
|
||||
async def pm2_status(request: web.Request) -> web.Response:
|
||||
"""Return a trimmed ``pm2 jlist`` for the legal-ai background services."""
|
||||
try:
|
||||
rc, out, err = await _pm2_run("jlist")
|
||||
if rc != 0:
|
||||
return web.json_response(
|
||||
{"error": f"pm2 jlist failed: {err.decode('utf-8','replace')[:200]}"},
|
||||
status=502,
|
||||
)
|
||||
apps = json.loads(out.decode("utf-8", "replace"))
|
||||
except FileNotFoundError:
|
||||
return web.json_response({"error": "pm2 not found on PATH"}, status=502)
|
||||
except Exception as e: # never throw
|
||||
return web.json_response({"error": f"pm2 error: {e}"}, status=502)
|
||||
|
||||
services = [
|
||||
_trim_service(a) for a in apps
|
||||
if any(str(a.get("name", "")).startswith(p) for p in _PM2_PREFIXES)
|
||||
]
|
||||
services.sort(key=lambda s: s["name"])
|
||||
return web.json_response({"services": services})
|
||||
|
||||
|
||||
# Process control (restart/stop/start) for the dashboard's "Windows-services"
|
||||
# panel. Mutating, so it requires the Bearer secret (unlike read-only /pm2).
|
||||
# Whitelisted to ``legal-`` names only — never paperclip or arbitrary processes.
|
||||
_PM2_ACTIONS = {"restart", "stop", "start"}
|
||||
|
||||
# Our own pm2 process name. Restarting/stopping ourselves kills this process
|
||||
# mid-reply, so those self-actions are detached (see pm2_control).
|
||||
_OWN_PM2_NAME = os.environ.get("COURT_FETCH_SERVICE_PM2_NAME", "legal-court-fetch-service")
|
||||
|
||||
|
||||
async def pm2_control(request: web.Request) -> web.Response:
|
||||
"""Run ``pm2 <action> <name>`` for a whitelisted legal-* process."""
|
||||
unauth = _check_bearer(request)
|
||||
if unauth is not None:
|
||||
return unauth
|
||||
try:
|
||||
body = await request.json()
|
||||
except json.JSONDecodeError:
|
||||
return web.json_response({"error": "invalid JSON body"}, status=400)
|
||||
|
||||
name = str(body.get("name", "")).strip()
|
||||
action = str(body.get("action", "")).strip()
|
||||
if action not in _PM2_ACTIONS:
|
||||
return web.json_response(
|
||||
{"error": f"action must be one of {sorted(_PM2_ACTIONS)}"}, status=400
|
||||
)
|
||||
if not name.startswith("legal-"):
|
||||
return web.json_response(
|
||||
{"error": "name must be a legal-* process"}, status=403
|
||||
)
|
||||
|
||||
# Self restart/stop kills this process before it can reply (client sees a
|
||||
# dropped connection / 502) even though pm2 does perform the action. Detach
|
||||
# it with a brief delay so the HTTP response flushes first, then report
|
||||
# success optimistically.
|
||||
if name == _OWN_PM2_NAME and action in ("restart", "stop"):
|
||||
import asyncio as _asyncio
|
||||
|
||||
await _asyncio.create_subprocess_shell(f"sleep 1; pm2 {action} {name} --silent")
|
||||
return web.json_response(
|
||||
{"ok": True, "action": action, "deferred": True, "service": None}
|
||||
)
|
||||
|
||||
try:
|
||||
rc, out, err = await _pm2_run(action, name, "--silent", timeout=30)
|
||||
if rc != 0:
|
||||
return web.json_response(
|
||||
{"ok": False,
|
||||
"error": f"pm2 {action} {name} failed: "
|
||||
f"{err.decode('utf-8','replace')[:200]}"},
|
||||
status=502,
|
||||
)
|
||||
# Re-read just this process so the UI settles on the real new state.
|
||||
rc2, out2, _ = await _pm2_run("jlist")
|
||||
svc = None
|
||||
if rc2 == 0:
|
||||
for a in json.loads(out2.decode("utf-8", "replace")):
|
||||
if a.get("name") == name:
|
||||
svc = _trim_service(a)
|
||||
break
|
||||
return web.json_response({"ok": True, "action": action, "service": svc})
|
||||
except FileNotFoundError:
|
||||
return web.json_response({"error": "pm2 not found on PATH"}, status=502)
|
||||
except Exception as e: # never throw
|
||||
return web.json_response({"ok": False, "error": f"pm2 error: {e}"}, status=502)
|
||||
|
||||
|
||||
def _check_bearer(request: web.Request) -> web.Response | None:
|
||||
auth = request.headers.get("Authorization", "")
|
||||
expected = "Bearer " + _SHARED_SECRET
|
||||
@@ -103,10 +274,173 @@ async def fetch(request: web.Request) -> web.Response:
|
||||
return web.json_response({"ok": False, "reason": f"unexpected: {e}"}, status=200)
|
||||
|
||||
|
||||
async def plan_fetch(request: web.Request) -> web.Response:
|
||||
"""Fetch one תב"ע's identity + validity from mavat (מנהל התכנון).
|
||||
|
||||
Body ``{plan_number}`` → ``{ok, plan: {...}, reason}``. Same Bearer + bind as
|
||||
/fetch. The browser work (Camoufox over Xvfb past F5 ASM) lives in
|
||||
``mavat_client``; expected failures (not found / blocked) come back ok=false
|
||||
at HTTP 200 so the caller renders a reason rather than treating it as a 5xx.
|
||||
"""
|
||||
unauth = _check_bearer(request)
|
||||
if unauth is not None:
|
||||
return unauth
|
||||
try:
|
||||
body = await request.json()
|
||||
except json.JSONDecodeError:
|
||||
return web.json_response({"error": "invalid JSON body"}, status=400)
|
||||
|
||||
plan_number = str(body.get("plan_number", "")).strip()
|
||||
if not plan_number:
|
||||
return web.json_response({"ok": False, "reason": "missing plan_number"}, status=400)
|
||||
|
||||
try:
|
||||
plan = await mavat_client.fetch_plan(plan_number)
|
||||
return web.json_response({"ok": True, "plan": plan})
|
||||
except (mavat_client.MavatUnavailable, mavat_client.MavatFlowError) as e:
|
||||
# Expected, recoverable (browser unavailable / plan not found / blocked).
|
||||
return web.json_response({"ok": False, "reason": str(e)}, status=200)
|
||||
except Exception as e: # noqa: BLE001
|
||||
logger.exception("plan_fetch failed")
|
||||
return web.json_response({"ok": False, "reason": f"unexpected: {e}"}, status=200)
|
||||
|
||||
|
||||
# ─── adapter-migration: host-side runner for scripts/migrate_agent_adapter.py ───
|
||||
# The legal-ai container can't perform the migration itself (it needs the host
|
||||
# filesystem — generated instruction copies, the gemini settings file — plus the
|
||||
# embedded board DB), so the dashboard proxies the action here. Mutating, so it
|
||||
# requires the Bearer secret like /pm2/control. We launch exactly one fixed,
|
||||
# in-repo script with create_subprocess_exec (no shell) and an action allowlist;
|
||||
# every other argument is passed through opaque and validated by the script
|
||||
# itself. Kept deliberately symbol-light so this host bridge stays generic.
|
||||
_MIGRATE_SCRIPT = "/home/chaim/legal-ai/scripts/migrate_agent_adapter.py"
|
||||
_MIGRATE_PYTHON = "/home/chaim/legal-ai/mcp-server/.venv/bin/python"
|
||||
_MIGRATE_ACTIONS = {"check", "apply", "revert", "verify"}
|
||||
|
||||
|
||||
async def adapter_migration(request: web.Request) -> web.Response:
|
||||
"""Run scripts/migrate_agent_adapter.py on the host and relay its result."""
|
||||
unauth = _check_bearer(request)
|
||||
if unauth is not None:
|
||||
return unauth
|
||||
try:
|
||||
body = await request.json()
|
||||
except json.JSONDecodeError:
|
||||
return web.json_response({"error": "invalid JSON body"}, status=400)
|
||||
|
||||
action = str(body.get("action", "")).strip()
|
||||
if action not in _MIGRATE_ACTIONS:
|
||||
return web.json_response(
|
||||
{"error": f"action must be one of {sorted(_MIGRATE_ACTIONS)}"}, status=400
|
||||
)
|
||||
|
||||
argv = [_MIGRATE_PYTHON, _MIGRATE_SCRIPT, f"--{action}"]
|
||||
agent = str(body.get("agent", "")).strip()
|
||||
target = str(body.get("to", "")).strip()
|
||||
model = str(body.get("model", "")).strip()
|
||||
if action in ("check", "apply", "revert"):
|
||||
if not agent:
|
||||
return web.json_response({"error": "agent required"}, status=400)
|
||||
argv += ["--agent", agent]
|
||||
if action in ("check", "apply"):
|
||||
if not target:
|
||||
return web.json_response({"error": "to (target) required"}, status=400)
|
||||
argv += ["--to", target]
|
||||
if model:
|
||||
argv += ["--model", model]
|
||||
if bool(body.get("relax_tools")):
|
||||
argv += ["--relax-tools"]
|
||||
|
||||
import asyncio as _asyncio
|
||||
|
||||
env = {**os.environ, "HOME": "/home/chaim"}
|
||||
try:
|
||||
proc = await _asyncio.create_subprocess_exec(
|
||||
*argv, cwd="/home/chaim/legal-ai", env=env,
|
||||
stdout=_asyncio.subprocess.PIPE, stderr=_asyncio.subprocess.PIPE,
|
||||
)
|
||||
out, err = await _asyncio.wait_for(proc.communicate(), timeout=180)
|
||||
except _asyncio.TimeoutError:
|
||||
return web.json_response({"ok": False, "error": "migration timed out"}, status=504)
|
||||
except Exception as e: # never throw — relay the failure
|
||||
return web.json_response({"ok": False, "error": f"launch failed: {e}"}, status=502)
|
||||
|
||||
# 200 regardless of exit code: a non-zero --check (preflight refusal) is an
|
||||
# informative result the caller renders, not a transport error.
|
||||
return web.json_response({
|
||||
"ok": (proc.returncode == 0),
|
||||
"exit_code": proc.returncode,
|
||||
"stdout": out.decode("utf-8", "replace"),
|
||||
"stderr": err.decode("utf-8", "replace"),
|
||||
})
|
||||
|
||||
|
||||
# ─── run-script: host-side runner for read-only/audit scripts (#4) ─────────────
|
||||
# Same shape as /adapter-migration but for the SCRIPT_RUN_ALLOWLIST — a fixed set
|
||||
# of read-only scripts each with a hard-coded safe argv. The request body's only
|
||||
# meaningful field is ``name``; arguments are NEVER taken from the caller (so no
|
||||
# --apply/--force injection). Allowlist enforcement lives here, on the host.
|
||||
async def run_script(request: web.Request) -> web.Response:
|
||||
"""Run an allowlisted read-only script on the host and relay its result."""
|
||||
unauth = _check_bearer(request)
|
||||
if unauth is not None:
|
||||
return unauth
|
||||
try:
|
||||
body = await request.json()
|
||||
except json.JSONDecodeError:
|
||||
return web.json_response({"error": "invalid JSON body"}, status=400)
|
||||
|
||||
name = str(body.get("name", "")).strip()
|
||||
argv = script_runner.build_argv(name)
|
||||
if argv is None:
|
||||
return web.json_response(
|
||||
{"ok": False, "error": f"script not runnable (not in allowlist): {name!r}"},
|
||||
status=403,
|
||||
)
|
||||
|
||||
import asyncio as _asyncio
|
||||
|
||||
env = {**os.environ, "HOME": "/home/chaim"}
|
||||
try:
|
||||
proc = await _asyncio.create_subprocess_exec(
|
||||
*argv, cwd="/home/chaim/legal-ai", env=env,
|
||||
stdout=_asyncio.subprocess.PIPE, stderr=_asyncio.subprocess.PIPE,
|
||||
)
|
||||
out, err = await _asyncio.wait_for(proc.communicate(), timeout=600)
|
||||
except _asyncio.TimeoutError:
|
||||
return web.json_response({"ok": False, "error": "script timed out"}, status=504)
|
||||
except Exception as e: # never throw — relay the failure
|
||||
return web.json_response({"ok": False, "error": f"launch failed: {e}"}, status=502)
|
||||
|
||||
# best-effort audit trail — one line per run
|
||||
try:
|
||||
os.makedirs("/home/chaim/legal-ai/data/logs", exist_ok=True)
|
||||
stamp = time.strftime("%Y-%m-%dT%H:%M:%S%z")
|
||||
with open("/home/chaim/legal-ai/data/logs/script-runs.log", "a") as fh:
|
||||
fh.write(f"{stamp}\t{name}\texit={proc.returncode}\n")
|
||||
except Exception:
|
||||
pass
|
||||
|
||||
# 200 regardless of exit code — a non-zero audit result is informative output
|
||||
# the caller renders, not a transport error.
|
||||
return web.json_response({
|
||||
"ok": (proc.returncode == 0),
|
||||
"exit_code": proc.returncode,
|
||||
"stdout": out.decode("utf-8", "replace"),
|
||||
"stderr": err.decode("utf-8", "replace"),
|
||||
})
|
||||
|
||||
|
||||
def build_app() -> web.Application:
|
||||
app = web.Application(client_max_size=64 * 1024 * 1024)
|
||||
app.router.add_get("/health", health)
|
||||
app.router.add_get("/pm2", pm2_status)
|
||||
app.router.add_get("/usage", usage_status)
|
||||
app.router.add_post("/pm2/control", pm2_control)
|
||||
app.router.add_post("/fetch", fetch)
|
||||
app.router.add_post("/plan-fetch", plan_fetch)
|
||||
app.router.add_post("/adapter-migration", adapter_migration)
|
||||
app.router.add_post("/run-script", run_script)
|
||||
return app
|
||||
|
||||
|
||||
|
||||
@@ -9,10 +9,18 @@ from uuid import UUID
|
||||
from pydantic import BaseModel, Field
|
||||
|
||||
|
||||
# Core case lifecycle — kept in sync with STATUS_ORDER in tools/cases.py and the
|
||||
# frontend SSoT web-ui/src/lib/api/case-status.ts. Trimmed from 17 → 10 (the
|
||||
# decorative mid-stage markers that no pipeline code ever set were removed).
|
||||
class CaseStatus(str, enum.Enum):
|
||||
NEW = "new"
|
||||
IN_PROGRESS = "in_progress"
|
||||
PROCESSING = "processing"
|
||||
DOCUMENTS_READY = "documents_ready"
|
||||
OUTCOME_SET = "outcome_set"
|
||||
DIRECTION_APPROVED = "direction_approved"
|
||||
QA_REVIEW = "qa_review"
|
||||
DRAFTED = "drafted"
|
||||
EXPORTED = "exported"
|
||||
REVIEWED = "reviewed"
|
||||
FINAL = "final"
|
||||
|
||||
|
||||
@@ -60,6 +60,7 @@ from legal_mcp.tools import ( # noqa: E402
|
||||
training_enrichment as train_tools,
|
||||
digests as digest_tools,
|
||||
court_fetch as cf_tools,
|
||||
plans as plans_tools,
|
||||
)
|
||||
|
||||
|
||||
@@ -102,7 +103,7 @@ def _clamp_limit(limit: int, hard_max: int = _MAX_LIMIT) -> int:
|
||||
|
||||
@mcp.tool()
|
||||
async def case_list(status: str = "", limit: int = 50) -> str:
|
||||
"""רשימת תיקי ערר. סינון אופציונלי לפי סטטוס (new/in_progress/drafted/reviewed/final)."""
|
||||
"""רשימת תיקי ערר. סינון אופציונלי לפי סטטוס (new/processing/documents_ready/outcome_set/direction_approved/qa_review/drafted/exported/reviewed/final)."""
|
||||
return await cases.case_list(status, _clamp_limit(limit))
|
||||
|
||||
|
||||
@@ -411,6 +412,12 @@ async def search_digests(
|
||||
)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def digest_process_pending(limit: int = 20) -> str:
|
||||
"""ריקון תור היומונים שהועלו מה-UI וממתינים לעיבוד-LLM מקומי. מריץ חילוץ-מטא-דאטה + embedding + autolink על כל יומון 'pending' (מקומית עם CLI). חלופת-MCP ל-scripts/ingest_digests_batch.py."""
|
||||
return await digest_tools.digest_process_pending(_clamp_limit(limit))
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def halacha_review(
|
||||
halacha_id: str,
|
||||
@@ -420,18 +427,49 @@ async def halacha_review(
|
||||
reasoning_summary: str = "",
|
||||
subject_tags: list[str] | None = None,
|
||||
practice_areas: list[str] | None = None,
|
||||
canonical_statement: str = "",
|
||||
) -> str:
|
||||
"""אישור / דחייה / עריכה של הלכה שחולצה אוטומטית. status: pending_review / approved / rejected / published."""
|
||||
"""אישור / דחייה / עריכה של הלכה שחולצה אוטומטית. status: pending_review / approved / rejected / published.
|
||||
canonical_statement: עריכת ניסוח העיקרון הקנוני הרחב (V41)."""
|
||||
return await plib.halacha_review(
|
||||
halacha_id, status, reviewer, rule_statement, reasoning_summary,
|
||||
subject_tags, practice_areas,
|
||||
subject_tags, practice_areas, canonical_statement,
|
||||
)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def halachot_pending(limit: int = 100) -> str:
|
||||
"""תור ההלכות הממתינות לאישור."""
|
||||
return await plib.halachot_pending(_clamp_limit(limit))
|
||||
async def halachot_pending(
|
||||
limit: int = 100,
|
||||
include_low_quality: bool = False,
|
||||
instance_type: str = "original",
|
||||
) -> str:
|
||||
"""תור ההלכות הממתינות לאישור. V41: ברירת-מחדל instance_type='original' (עקרונות חדשים בלבד, לא ציטוטים)."""
|
||||
return await plib.halachot_pending(_clamp_limit(limit), include_low_quality, instance_type)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def canonical_halacha_list(
|
||||
practice_area: str = "",
|
||||
review_status: str = "",
|
||||
limit: int = 50,
|
||||
offset: int = 0,
|
||||
) -> str:
|
||||
"""רשימת עקרונות קנוניים (canonical_halachot). V41.
|
||||
practice_area: סינון תחום עיסוק. review_status: pending_synthesis/pending_review/approved/published."""
|
||||
return await plib.canonical_halacha_list(practice_area, review_status, limit, offset)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def canonical_halacha_get(canonical_id: str) -> str:
|
||||
"""שלוף עיקרון קנוני + כל האינסטנסים שלו לפי פסיקה. V41."""
|
||||
return await plib.canonical_halacha_get(canonical_id)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def canonical_synthesize_pending(limit: int = 20) -> str:
|
||||
"""סנתז ניסוח-קנוני לעקרונות הממתינים (pending_synthesis) → pending_review (שער-יו"ר). V41 Phase 4.
|
||||
מעוגן בציטוטי-המופעים (INV-AH) עם שער-drift. on-demand/burst; המסה הראשונית ב-backfill."""
|
||||
return await plib.canonical_synthesize_pending(limit)
|
||||
|
||||
|
||||
# Documents
|
||||
@@ -700,6 +738,64 @@ async def get_appraiser_facts(case_number: str) -> str:
|
||||
return await drafting.get_appraiser_facts(case_number)
|
||||
|
||||
|
||||
# ── Planning-schemes registry (V38) — מרשם-התכניות ─────────────────
|
||||
# SSOT לזהות+תוקף של תכנית, נעשה שימוש חוזר בין תיקים (G2). פלט-LLM נכנס
|
||||
# pending_review וממתין לאישור-יו"ר (plan_review, G10) לפני שמשמש בבלוק ט.
|
||||
|
||||
@mcp.tool()
|
||||
async def extract_plans(case_number: str) -> str:
|
||||
"""חילוץ תכניות ותוקפן מכל מסמכי התיק אל מרשם-התכניות (pending_review). ה-extract היקר."""
|
||||
return await plans_tools.extract_plans(case_number)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def plan_fetch(plan_number: str) -> str:
|
||||
"""משיכת זהות+תוקף של תב"ע מ-מנהל-התכנון (mavat) — מועמד-לאישור, לא כתיבה. כל ערך נושא source_url (INV-AH)."""
|
||||
return await plans_tools.plan_fetch(plan_number)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def plan_get(plan_number: str) -> str:
|
||||
"""קריאת תכנית מהמרשם לפי מספר (מנורמל; נופל ל-alias). ה-get הזול."""
|
||||
return await plans_tools.plan_get(plan_number)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def plan_search(query: str, limit: int = 20) -> str:
|
||||
"""חיפוש fuzzy במרשם-התכניות לפי מספר/שם/ייעוד."""
|
||||
return await plans_tools.plan_search(query, limit)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def plan_list(review_status: str = "", limit: int = 500) -> str:
|
||||
"""רשימת תכניות במרשם, אופציונלית מסוננת לפי review_status (תור-אישור)."""
|
||||
return await plans_tools.plan_list(review_status, limit)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def plan_upsert(
|
||||
plan_number: str,
|
||||
display_name: str = "",
|
||||
plan_type: str = "",
|
||||
gazette_date: str = "",
|
||||
yalkut_number: str = "",
|
||||
purpose: str = "",
|
||||
review_status: str = "approved",
|
||||
aliases: str = "",
|
||||
) -> str:
|
||||
"""כתיבה/עריכה ידנית מבוקרת של תכנית במרשם (ברירת-מחדל approved — קלט-יו"ר). מנרמל בכתיבה (G1)."""
|
||||
return await plans_tools.plan_upsert(
|
||||
plan_number, display_name, plan_type, gazette_date,
|
||||
yalkut_number, purpose, review_status, aliases,
|
||||
)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def plan_review(plan_id: str, status: str) -> str:
|
||||
"""שער-היו"ר (G10): אישור/דחייה/איפוס של תכנית במרשם (approved/rejected/pending_review)."""
|
||||
return await plans_tools.plan_review(plan_id, status)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def write_interim_draft(case_number: str, instructions: str = "") -> str:
|
||||
"""כתיבת ארבעת הבלוקים לטיוטת ביניים (רקע, תכניות+היתרים, טענות, הליכים) — אותו skill וטמפלט."""
|
||||
@@ -982,6 +1078,12 @@ async def court_fetch_status(case_number: str = "", status_filter: str = "") ->
|
||||
return await cf_tools.court_fetch_status(case_number, status_filter)
|
||||
|
||||
|
||||
@mcp.tool()
|
||||
async def court_fetch_drain(limit: int = 10) -> str:
|
||||
"""ריקון תור-אחזור הפסיקה — מוריד וקולט jobs ממתינים שהיומונים מילאו, וקושר חזרה ליומון. מקומי בלבד."""
|
||||
return await cf_tools.court_fetch_drain(limit)
|
||||
|
||||
|
||||
# ── Internal citations graph (TaskMaster #34) ─────────────────────
|
||||
|
||||
|
||||
|
||||
@@ -21,6 +21,7 @@ Output: data/cases/{case_number}/exports/ניתוח-משפטי-v{N}.docx
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import io
|
||||
import re
|
||||
from pathlib import Path
|
||||
from typing import Any
|
||||
@@ -34,7 +35,7 @@ from docx.text.paragraph import Paragraph
|
||||
from docx.text.run import Run
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import db, research_md
|
||||
from legal_mcp.services import db, research_md, storage
|
||||
|
||||
|
||||
def _mark_run_rtl(run: Run) -> None:
|
||||
@@ -494,10 +495,19 @@ async def build_analysis_docx(case_number: str) -> Path:
|
||||
continue
|
||||
_emit_content_line(doc, raw)
|
||||
|
||||
# Save versioned
|
||||
# Save versioned through the storage layer (INV-STG1). export_dir.mkdir +
|
||||
# the glob in _next_version still read disk (correct under filesystem/dual;
|
||||
# storage-native versioning is a cutover concern). out_path is always under
|
||||
# DATA_DIR, so the bytes land exactly where they did before.
|
||||
export_dir = case_dir / "exports"
|
||||
export_dir.mkdir(parents=True, exist_ok=True)
|
||||
version = _next_version(export_dir)
|
||||
out_path = export_dir / f"ניתוח-משפטי-v{version}.docx"
|
||||
doc.save(str(out_path))
|
||||
buf = io.BytesIO()
|
||||
doc.save(buf)
|
||||
await storage.put_bytes(
|
||||
out_path.relative_to(config.DATA_DIR).as_posix(), buf.getvalue(),
|
||||
bucket=storage.Bucket.DOCUMENTS,
|
||||
content_type="application/vnd.openxmlformats-officedocument.wordprocessingml.document",
|
||||
)
|
||||
return out_path
|
||||
|
||||
@@ -103,7 +103,7 @@ async def extract_facts_from_document(
|
||||
f"שמאי: {appraiser_name}{chunk_label}\n\n"
|
||||
f"--- תחילת שומה ---\n{chunk}\n--- סוף שומה ---"
|
||||
)
|
||||
result = await claude_session.query_json(prompt)
|
||||
result = await claude_session.query_json(prompt, tools="") # no tool_use → no error_max_turns
|
||||
if not isinstance(result, list):
|
||||
logger.warning(
|
||||
"extract_facts_from_document: chunk %d returned non-list (%s) for doc=%s",
|
||||
|
||||
@@ -147,7 +147,7 @@ async def _aggregate_party(
|
||||
prompt = _build_prompt(party, propositions)
|
||||
|
||||
try:
|
||||
raw_result = await claude_session.query_json(prompt)
|
||||
raw_result = await claude_session.query_json(prompt, tools="") # no tool_use → no error_max_turns
|
||||
except RuntimeError as e:
|
||||
# Surface CLI-unavailable specifically so the caller can report
|
||||
# cleanly instead of crashing the whole job.
|
||||
@@ -335,18 +335,30 @@ async def get_legal_arguments(
|
||||
case_id,
|
||||
)
|
||||
|
||||
# Pull supporting claim ids for each argument in one round-trip.
|
||||
# Pull supporting claims (id + full text) for each argument in one
|
||||
# round-trip. ``supporting_claims`` stays id-only for backwards compat
|
||||
# (counts, MCP consumers); ``supporting_propositions`` carries the text
|
||||
# so the UI can show the raw propositions without an extra fetch.
|
||||
arg_ids = [r["id"] for r in rows]
|
||||
supporting: dict[UUID, list[str]] = {}
|
||||
propositions: dict[UUID, list[dict]] = {}
|
||||
if arg_ids:
|
||||
joins = await conn.fetch(
|
||||
"""SELECT argument_id, claim_id
|
||||
FROM legal_argument_propositions
|
||||
WHERE argument_id = ANY($1::uuid[])""",
|
||||
"""SELECT lap.argument_id, lap.claim_id,
|
||||
c.claim_text, c.source_document, c.claim_index
|
||||
FROM legal_argument_propositions lap
|
||||
JOIN claims c ON c.id = lap.claim_id
|
||||
WHERE lap.argument_id = ANY($1::uuid[])
|
||||
ORDER BY c.claim_index""",
|
||||
arg_ids,
|
||||
)
|
||||
for j in joins:
|
||||
supporting.setdefault(j["argument_id"], []).append(str(j["claim_id"]))
|
||||
propositions.setdefault(j["argument_id"], []).append({
|
||||
"id": str(j["claim_id"]),
|
||||
"text": j["claim_text"],
|
||||
"source_document": j["source_document"],
|
||||
})
|
||||
|
||||
out: list[dict] = []
|
||||
for r in rows:
|
||||
@@ -354,5 +366,6 @@ async def get_legal_arguments(
|
||||
d["id"] = str(d["id"])
|
||||
d["case_id"] = str(d["case_id"])
|
||||
d["supporting_claims"] = supporting.get(r["id"], [])
|
||||
d["supporting_propositions"] = propositions.get(r["id"], [])
|
||||
out.append(d)
|
||||
return out
|
||||
|
||||
@@ -18,8 +18,10 @@ import re
|
||||
from datetime import date
|
||||
from uuid import UUID
|
||||
|
||||
from pathlib import Path
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import db, embeddings, claude_session, audit
|
||||
from legal_mcp.services import db, embeddings, claude_session, audit, storage
|
||||
from legal_mcp.services.lessons import (
|
||||
OUTCOME_LABELS_HE,
|
||||
PRACTICE_AREA_OVERRIDES,
|
||||
@@ -194,6 +196,11 @@ BLOCK_PROMPTS = {
|
||||
1. **תכניות חלות** — מבנה הירכי: תכניות ארציות → מחוזיות → מקומיות. ציטוט ישיר מהוראות תכנית עם **הדגשה** של מילים מכריעות.
|
||||
2. **תת-פרק היתרים** — כותרת משנה "היתרים" (או "היתרי בנייה שניתנו במקרקעין"). פירוט ההיתרים הרלוונטיים על פי השומות שהוגשו לתיק.
|
||||
|
||||
## ציטוט תכנית ותוקפה (קריטי — מרשם-התכניות):
|
||||
- לכל תכנית, לחלק **הזהות והתוקף** (מספר-התכנית + מתי פורסמה למתן תוקף ברשומות + מס' ילקוט-הפרסומים) — השתמש **ככתבו** במשפט-הציטוט הקנוני המופיע תחת "מרשם-התכניות" למטה. **אל תמציא** תאריך-פרסום או מספר-ילקוט.
|
||||
- את הייעוד והניתוח התכנוני אתה רשאי לנסח בסגנון דפנה; את תאריך-התוקף ומספר-הילקוט — לעולם לא.
|
||||
- אם תכנית זוהתה בתיק אך **חסרה במרשם או טרם אושרה** — הזכר את התכנית בלי לקבוע תאריך-תוקף, ואל תנחש תאריך.
|
||||
|
||||
## כללי ציון סתירות בין שמאים (קריטי):
|
||||
- אם שני שמאים או יותר מסרו מידע שונה על אותה תכנית או היתר — חובה לסמן זאת במפורש בנוסח ניטרלי, למשל:
|
||||
> "יצוין כי שמאי הוועדה ציין כי תכנית פלונית חלה על המקרקעין במלואה, בעוד שמאי העורר סבר כי חלקה של התכנית בלבד חל"
|
||||
@@ -213,6 +220,9 @@ BLOCK_PROMPTS = {
|
||||
## תכניות שזוהו (ממטא-דאטה של מסמכים):
|
||||
{plans_context}
|
||||
|
||||
## מרשם-התכניות — משפטי-ציטוט קנוניים (מקור-אמת לתוקף; השתמש ככתבם):
|
||||
{plans_registry_context}
|
||||
|
||||
## עובדות שמאיות שחולצו (תכניות + היתרים, פרק לכל שמאי):
|
||||
{appraiser_facts_context}
|
||||
|
||||
@@ -331,6 +341,7 @@ async def write_block(
|
||||
claims_context = await _build_claims_context(case_id)
|
||||
direction_context = _build_direction_context(decision)
|
||||
plans_context = await _build_plans_context(case_id)
|
||||
plans_registry_context = await _build_plans_registry_context(case_id)
|
||||
daphna_style_exemplars, case_law_citations, _precedent_case_law_ids = (
|
||||
await _build_precedents_context(case_id, block_id)
|
||||
)
|
||||
@@ -369,6 +380,7 @@ async def write_block(
|
||||
claims_context=claims_context,
|
||||
direction_context=direction_context,
|
||||
plans_context=plans_context,
|
||||
plans_registry_context=plans_registry_context,
|
||||
daphna_style_exemplars=daphna_style_exemplars,
|
||||
case_law_citations=case_law_citations,
|
||||
style_context=style_context,
|
||||
@@ -410,7 +422,7 @@ async def write_block(
|
||||
# Call Claude via Claude Code session (no API)
|
||||
model_key = block_cfg["model"]
|
||||
timeout = claude_session.LONG_TIMEOUT if model_key == "opus" else claude_session.DEFAULT_TIMEOUT
|
||||
content = await claude_session.query(prompt, timeout=timeout)
|
||||
content = await claude_session.query(prompt, timeout=timeout, tools="") # prose gen — no tool_use → no error_max_turns
|
||||
|
||||
sources = await _collect_block_sources(case_id, block_id)
|
||||
sources["case_law_ids"] = _precedent_case_law_ids
|
||||
@@ -578,6 +590,60 @@ async def _build_plans_context(case_id: UUID) -> str:
|
||||
return "(לא זוהו תכניות)"
|
||||
|
||||
|
||||
async def _build_plans_registry_context(case_id: UUID) -> str:
|
||||
"""Render chair-APPROVED canonical plan citation sentences from the registry (V38).
|
||||
|
||||
The identity+validity clause is deterministic (db.format_plan_citation), so the
|
||||
writer never invents publication dates or ילקוט numbers (INV-AH). Plans seen in
|
||||
the case but absent from the registry — or present yet not approved — are listed
|
||||
explicitly as gaps, never silently dropped (חוקה §6, אין בליעה שקטה).
|
||||
"""
|
||||
idents: set[str] = set()
|
||||
for f in await db.list_appraiser_facts(case_id, fact_type="plan"):
|
||||
if f.get("identifier"):
|
||||
idents.add(f["identifier"])
|
||||
for doc in await db.list_documents(case_id):
|
||||
metadata = doc.get("metadata") or {}
|
||||
if isinstance(metadata, str):
|
||||
metadata = json.loads(metadata)
|
||||
for p in (metadata.get("references", {}) or {}).get("plans", []):
|
||||
name = (p.get("plan_name") or "").strip()
|
||||
if name:
|
||||
idents.add(name)
|
||||
|
||||
if not idents:
|
||||
return "(לא זוהו תכניות בתיק. הרץ extract_plans ואשר אותן במרשם-התכניות.)"
|
||||
|
||||
approved: list[dict] = []
|
||||
unapproved: list[dict] = []
|
||||
missing: list[str] = []
|
||||
seen_numbers: set[str] = set()
|
||||
for ident in sorted(idents):
|
||||
plan = await db.get_plan_by_number(ident)
|
||||
if plan is None:
|
||||
missing.append(ident)
|
||||
continue
|
||||
if plan["plan_number"] in seen_numbers:
|
||||
continue
|
||||
seen_numbers.add(plan["plan_number"])
|
||||
(approved if plan["review_status"] == "approved" else unapproved).append(plan)
|
||||
|
||||
lines: list[str] = []
|
||||
if approved:
|
||||
lines.append("### משפטי-ציטוט קנוניים (מאושרים — השתמש בהם ככתבם לזהות+תוקף):")
|
||||
for p in approved:
|
||||
lines.append(f"- {p.get('citation_formatted') or db.format_plan_citation(p)}")
|
||||
if unapproved:
|
||||
lines.append('\n### תכניות במרשם שטרם אושרו (אל תצטט מהן תוקף — ממתינות לאישור-יו"ר):')
|
||||
for p in unapproved:
|
||||
lines.append(f"- {p['display_name'] or p['plan_number']} (status={p['review_status']})")
|
||||
if missing:
|
||||
lines.append("\n### תכניות שזוהו בתיק אך חסרות במרשם (הרץ extract_plans ואשר):")
|
||||
for ident in missing:
|
||||
lines.append(f"- {ident}")
|
||||
return "\n".join(lines)
|
||||
|
||||
|
||||
APPRAISER_SIDE_LABEL_HE = {
|
||||
"committee": "שמאי הוועדה המקומית",
|
||||
"appellant": "שמאי העורר",
|
||||
@@ -1001,6 +1067,7 @@ async def get_block_context(case_id: UUID, block_id: str, instructions: str = ""
|
||||
claims_context = await _build_claims_context(case_id)
|
||||
direction_context = _build_direction_context(decision)
|
||||
plans_context = await _build_plans_context(case_id)
|
||||
plans_registry_context = await _build_plans_registry_context(case_id)
|
||||
daphna_style_exemplars, case_law_citations, _ = (
|
||||
await _build_precedents_context(case_id, block_id)
|
||||
)
|
||||
@@ -1035,6 +1102,7 @@ async def get_block_context(case_id: UUID, block_id: str, instructions: str = ""
|
||||
claims_context=claims_context,
|
||||
direction_context=direction_context,
|
||||
plans_context=plans_context,
|
||||
plans_registry_context=plans_registry_context,
|
||||
daphna_style_exemplars=daphna_style_exemplars,
|
||||
case_law_citations=case_law_citations,
|
||||
style_context=style_context,
|
||||
@@ -1119,7 +1187,13 @@ async def _update_draft_file(decision_id: UUID) -> None:
|
||||
draft_dir = config.find_case_dir(case_row["case_number"]) / "drafts"
|
||||
draft_dir.mkdir(parents=True, exist_ok=True)
|
||||
draft_path = draft_dir / "decision.md"
|
||||
draft_path.write_text("\n\n".join(row["content"] for row in rows if row["content"]), encoding="utf-8")
|
||||
draft_text = "\n\n".join(row["content"] for row in rows if row["content"])
|
||||
draft_path.write_text(draft_text, encoding="utf-8") # noqa: STG1 — sealed below
|
||||
try:
|
||||
_dkey = draft_path.resolve().relative_to(Path(config.DATA_DIR).resolve()).as_posix()
|
||||
await storage.mirror(_dkey, draft_text.encode("utf-8"), bucket=storage.Bucket.DOCUMENTS)
|
||||
except ValueError:
|
||||
pass
|
||||
logger.info("Draft file synced: %s (%d blocks)", draft_path, len(rows))
|
||||
|
||||
|
||||
|
||||
@@ -134,7 +134,7 @@ async def generate_directions(
|
||||
{doc_context or '(אין מסמכים בתיק)'}
|
||||
"""
|
||||
|
||||
result = await claude_session.query_json(user_content)
|
||||
result = await claude_session.query_json(user_content, tools="") # no tool_use → no error_max_turns
|
||||
if result is None:
|
||||
logger.warning("Failed to parse brainstorm response")
|
||||
return {
|
||||
|
||||
121
mcp-server/src/legal_mcp/services/bulletin_library.py
Normal file
121
mcp-server/src/legal_mcp/services/bulletin_library.py
Normal file
@@ -0,0 +1,121 @@
|
||||
"""Ingest a monthly "עו"ד על נדל"ן" bulletin into the digests radar (X12).
|
||||
|
||||
A bulletin PDF is multi-topic: it EXPLODES into several digest rows — one per
|
||||
case-law pointer (digest_kind='decision') and one per article (digest_kind=
|
||||
'article'), all tagged publication='עו"ד על נדל"ן' to distinguish them from the
|
||||
daily "כל יום" issues. This reuses the existing radar (no parallel corpus — G2):
|
||||
the case pointers join search_digests / the /digests page and autolink to the
|
||||
underlying ruling exactly like a daily digest; articles are deep-context only.
|
||||
|
||||
LOCAL-ONLY (LLM split + embedding) — host scripts/MCP, never the container path.
|
||||
Idempotent: each item's content_hash (hash of its analysis_text) is the dedup
|
||||
key, so re-running a bulletin skips already-ingested items.
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
from pathlib import Path
|
||||
|
||||
from legal_mcp.services import db, embeddings, extractor
|
||||
from legal_mcp.services import bulletin_splitter, digest_library
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
PUBLICATION = 'עו"ד על נדל"ן'
|
||||
SOURCE_FIRM = "צבי שוב + רונית אלפר, עורכי דין"
|
||||
|
||||
|
||||
async def _store_and_embed(digest_row: dict) -> None:
|
||||
"""Compute + store the single radar embedding for a freshly created item."""
|
||||
emb_text = digest_library._embedding_text(digest_row)
|
||||
if not emb_text:
|
||||
return
|
||||
try:
|
||||
vecs = await embeddings.embed_texts([emb_text], input_type="document")
|
||||
if vecs:
|
||||
await db.store_digest_embedding(digest_row["id"], vecs[0])
|
||||
except Exception as e: # §6 — surfaced, not swallowed
|
||||
logger.warning("bulletin item embedding failed for %s: %s", digest_row.get("id"), e)
|
||||
|
||||
|
||||
async def _create_item(*, analysis_text: str, kind: str, concept_tag: str,
|
||||
headline: str, summary: str, citation: str, court: str,
|
||||
practice_area: str, subject_tags: list[str], src: str) -> dict | None:
|
||||
"""Create one digest row from a bulletin item. Returns the row, or None if it
|
||||
already exists (idempotent skip) or the insert raced on content_hash."""
|
||||
content_hash = db._content_hash(analysis_text)
|
||||
if await db.get_digest_by_content_hash(content_hash):
|
||||
return None
|
||||
try:
|
||||
return await db.create_digest(
|
||||
analysis_text=analysis_text,
|
||||
publication=PUBLICATION,
|
||||
source_firm=SOURCE_FIRM,
|
||||
concept_tag=concept_tag,
|
||||
headline_holding=headline,
|
||||
summary=summary,
|
||||
underlying_citation=citation,
|
||||
underlying_court=court,
|
||||
practice_area=practice_area,
|
||||
subject_tags=subject_tags,
|
||||
source_document_path=src,
|
||||
extraction_status="completed",
|
||||
digest_kind=kind,
|
||||
)
|
||||
except Exception as e:
|
||||
# uq_digests_content_hash race (concurrent run) → treat as already-present.
|
||||
if "uq_digests_content_hash" in str(e):
|
||||
return None
|
||||
raise
|
||||
|
||||
|
||||
async def ingest_bulletin(file_path: str, model: str | None = None) -> dict:
|
||||
"""Split a bulletin PDF into digest rows (case pointers + articles).
|
||||
|
||||
Returns counts: {cases, articles, created, skipped, linked}. Idempotent.
|
||||
"""
|
||||
path = str(file_path)
|
||||
raw_text, _pages, _meta = await extractor.extract_text(path)
|
||||
split = await bulletin_splitter.split(raw_text, model=model)
|
||||
cases, articles = split.get("cases", []), split.get("articles", [])
|
||||
|
||||
out = {"file": Path(path).name, "cases": len(cases), "articles": len(articles),
|
||||
"created": 0, "skipped": 0, "linked": 0}
|
||||
|
||||
for c in cases:
|
||||
# analysis_text bundles the pointer's substance → stable per-item hash.
|
||||
atext = "\n".join(p for p in (
|
||||
c["concept_tag"], c["headline_holding"], c["summary"], c["underlying_citation"]
|
||||
) if p).strip()
|
||||
row = await _create_item(
|
||||
analysis_text=atext, kind="decision", concept_tag=c["concept_tag"],
|
||||
headline=c["headline_holding"], summary=c["summary"],
|
||||
citation=c["underlying_citation"], court=c["underlying_court"],
|
||||
practice_area=c["practice_area"], subject_tags=c["subject_tags"], src=path,
|
||||
)
|
||||
if row is None:
|
||||
out["skipped"] += 1
|
||||
continue
|
||||
out["created"] += 1
|
||||
await _store_and_embed(row)
|
||||
linked = await digest_library.try_autolink(row["id"], c["underlying_citation"])
|
||||
if linked:
|
||||
out["linked"] += 1
|
||||
|
||||
for a in articles:
|
||||
# The article body is the substance; prefix authors into the summary.
|
||||
body = a["body"] or a["summary"]
|
||||
summary = (f"מאת {a['authors']}. " if a["authors"] else "") + (a["summary"] or "")
|
||||
atext = "\n".join(p for p in (a["title"], summary, body) if p).strip()
|
||||
row = await _create_item(
|
||||
analysis_text=atext, kind="article", concept_tag=a["title"],
|
||||
headline=a["title"], summary=summary, citation="", court="",
|
||||
practice_area=a["practice_area"], subject_tags=a["subject_tags"], src=path,
|
||||
)
|
||||
if row is None:
|
||||
out["skipped"] += 1
|
||||
continue
|
||||
out["created"] += 1
|
||||
await _store_and_embed(row)
|
||||
|
||||
return out
|
||||
147
mcp-server/src/legal_mcp/services/bulletin_splitter.py
Normal file
147
mcp-server/src/legal_mcp/services/bulletin_splitter.py
Normal file
@@ -0,0 +1,147 @@
|
||||
"""Split a monthly "עו"ד על נדל"ן" bulletin into typed radar items (X12).
|
||||
|
||||
The monthly bulletin (a SEPARATE publication from the daily "כל יום" digest) is
|
||||
multi-topic: it bundles a featured ARTICLE, a list of legislative updates, and a
|
||||
set of CASE-LAW pointers grouped by topic. The chair chose to catalog the
|
||||
**case-law pointers** (each → a digest, like the daily issue) and the
|
||||
**articles** (deep-context background) — legislative updates are skipped.
|
||||
|
||||
This module is the LLM splitter only. ``bulletin_library.ingest_bulletin`` turns
|
||||
its output into digest rows. Like the daily extractor it is LOCAL-ONLY (claude
|
||||
CLI) and MUST NOT be imported from the FastAPI container path.
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
|
||||
from legal_mcp import config
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
_VALID_PRACTICE_AREAS = {"rishuy_uvniya", "betterment_levy", "compensation_197"}
|
||||
|
||||
BULLETIN_SPLIT_PROMPT = """\
|
||||
אתה מקבל טקסט מלא של **עלון חודשי "עו"ד על נדל"ן"** (פרסום מקצועי רב-נושאי בתחום
|
||||
תכנון ובנייה, מקרקעין, היטל השבחה, פיצויים והתחדשות עירונית). פצל אותו לפריטים.
|
||||
|
||||
העלון בנוי משלושה חלקים: (א) **מאמר** מקצועי ארוך אחד או יותר; (ב) **עדכוני חקיקה**
|
||||
(תיקוני-חוק, אישורי-תכניות, חוזרים) — **התעלם מהם, אל תחלץ**; (ג) **עדכוני פסיקה**
|
||||
מקובצים לפי נושא — כל פריט = מראה-מקום של פסק דין/החלטה + שורת-תקציר.
|
||||
|
||||
**אל תמציא** — חלץ רק מה שמופיע בטקסט. שדה חסר → מחרוזת ריקה.
|
||||
|
||||
## פלט נדרש
|
||||
החזר JSON אחד (object), ללא markdown:
|
||||
|
||||
{
|
||||
"cases": [
|
||||
{
|
||||
"underlying_citation": "מראה-המקום המלא של הפסק כפי שמופיע, מילה במילה (למשל 'ערר 8018-02-22 הועדה המקומית בת ים נ' קבוצת מזרחי ובניו השקעות בע\\"מ'). השדה הקריטי.",
|
||||
"concept_tag": "הנושא/הכותרת שתחתיה מופיע הפריט (למשל 'היטל השבחה', 'הפקעות', 'פירוק שיתוף').",
|
||||
"headline_holding": "שורת-התקציר/הכותרת של הפריט — מה נקבע/השאלה (למשל 'חוסר וודאות בין תכנית קודמת לבין ההקלה').",
|
||||
"summary": "תקציר ניטרלי קצר אם יש פירוט נוסף בגוף; אחרת חזור על headline_holding.",
|
||||
"underlying_court": "הערכאה אם מצוינת (למשל 'בית המשפט המחוזי', 'ועדת ערר').",
|
||||
"practice_area": "אחד מ: 'rishuy_uvniya' / 'betterment_levy' / 'compensation_197' — אם ברור מהנושא; אחרת ריק.",
|
||||
"subject_tags": ["2-5 תגיות snake_case בעברית"]
|
||||
}
|
||||
],
|
||||
"articles": [
|
||||
{
|
||||
"title": "כותרת המאמר (למשל 'הפקעת קרקעות כיום - על המחוקק לתקן את העיוות שנוצר').",
|
||||
"authors": "שמות המחברים (למשל 'עו\\"ד צבי שוב, עו\\"ד רונית אלפר').",
|
||||
"summary": "2-4 משפטים: על מה המאמר ומה הטענה המרכזית.",
|
||||
"body": "הטקסט המלא של המאמר (כל הפסקאות), לצורך embedding וחיפוש-עומק.",
|
||||
"practice_area": "אחד מ-3 אם ברור; אחרת ריק.",
|
||||
"subject_tags": ["2-5 תגיות snake_case"]
|
||||
}
|
||||
]
|
||||
}
|
||||
|
||||
## כללים
|
||||
1. **underlying_citation** — חלץ במלואו ובדיוק; הוא הגשר לפסק. פריט-פסיקה בלי מראה-מקום ברור → דלג עליו.
|
||||
2. **cases** — כל מצביעי-הפסיקה בעלון, גם אם תחת נושאים שונים. אל תאחד פריטים נפרדים.
|
||||
3. **articles** — רק מאמרי-עומק (לא רשימת עדכונים). body = הטקסט המלא.
|
||||
4. **עדכוני חקיקה/אישורי-תכניות/חוזרים — לא לחלץ כלל.**
|
||||
5. אם אין מאמר או אין פסיקה — החזר מערך ריק לאותו מפתח.
|
||||
"""
|
||||
|
||||
|
||||
def _norm_str(d: dict, key: str) -> str:
|
||||
v = d.get(key)
|
||||
return v.strip() if isinstance(v, str) else ""
|
||||
|
||||
|
||||
def _norm_tags(d: dict) -> list[str]:
|
||||
tags = d.get("subject_tags")
|
||||
if not isinstance(tags, list):
|
||||
return []
|
||||
return [str(t).strip() for t in tags if str(t).strip()][:8]
|
||||
|
||||
|
||||
def _norm_pa(d: dict) -> str:
|
||||
pa = _norm_str(d, "practice_area")
|
||||
return pa if pa in _VALID_PRACTICE_AREAS else ""
|
||||
|
||||
|
||||
async def split(raw_text: str, model: str | None = None) -> dict:
|
||||
"""Return ``{"cases": [...], "articles": [...]}`` extracted from a bulletin.
|
||||
|
||||
Empty lists on any failure (surfaced as a warning, never raised) so the
|
||||
batch keeps going. Each item is type-normalized; malformed items are dropped.
|
||||
"""
|
||||
from legal_mcp.services import claude_session
|
||||
|
||||
text = (raw_text or "").strip()
|
||||
if not text:
|
||||
return {"cases": [], "articles": []}
|
||||
|
||||
try:
|
||||
result = await claude_session.query_json(
|
||||
text,
|
||||
system=BULLETIN_SPLIT_PROMPT,
|
||||
model=(model or config.DIGEST_EXTRACT_MODEL or None),
|
||||
tools="", # pure text→JSON; disable tools (avoids error_max_turns)
|
||||
)
|
||||
except Exception as e: # §6 — surfaced, not swallowed
|
||||
logger.warning("bulletin_splitter: query failed: %s", e)
|
||||
return {"cases": [], "articles": []}
|
||||
|
||||
if not isinstance(result, dict):
|
||||
logger.warning("bulletin_splitter: expected dict, got %s", type(result).__name__)
|
||||
return {"cases": [], "articles": []}
|
||||
|
||||
cases: list[dict] = []
|
||||
for c in result.get("cases") or []:
|
||||
if not isinstance(c, dict):
|
||||
continue
|
||||
citation = _norm_str(c, "underlying_citation")
|
||||
if not citation: # rule 1: no anchor → skip
|
||||
continue
|
||||
cases.append({
|
||||
"underlying_citation": citation,
|
||||
"concept_tag": _norm_str(c, "concept_tag"),
|
||||
"headline_holding": _norm_str(c, "headline_holding"),
|
||||
"summary": _norm_str(c, "summary") or _norm_str(c, "headline_holding"),
|
||||
"underlying_court": _norm_str(c, "underlying_court"),
|
||||
"practice_area": _norm_pa(c),
|
||||
"subject_tags": _norm_tags(c),
|
||||
})
|
||||
|
||||
articles: list[dict] = []
|
||||
for a in result.get("articles") or []:
|
||||
if not isinstance(a, dict):
|
||||
continue
|
||||
title = _norm_str(a, "title")
|
||||
body = _norm_str(a, "body")
|
||||
if not (title or body):
|
||||
continue
|
||||
articles.append({
|
||||
"title": title,
|
||||
"authors": _norm_str(a, "authors"),
|
||||
"summary": _norm_str(a, "summary"),
|
||||
"body": body,
|
||||
"practice_area": _norm_pa(a),
|
||||
"subject_tags": _norm_tags(a),
|
||||
})
|
||||
|
||||
return {"cases": cases, "articles": articles}
|
||||
220
mcp-server/src/legal_mcp/services/canonical_synthesis.py
Normal file
220
mcp-server/src/legal_mcp/services/canonical_synthesis.py
Normal file
@@ -0,0 +1,220 @@
|
||||
"""Canonical-halacha synthesis (V41 Phase 4).
|
||||
|
||||
The backfill carried each canonical's ``canonical_statement`` over verbatim from
|
||||
its representative halacha. This pass asks a local ``claude_session`` model to
|
||||
rewrite that statement into ONE clean, case-independent legal principle — for the
|
||||
~6 multi-instance canonicals a genuine merge of the N phrasings, for the singleton
|
||||
majority a faithful generalising polish — then advances ``review_status``
|
||||
pending_synthesis → pending_review for the chair gate (G10 / INV-LRN1).
|
||||
|
||||
Invariants this module upholds:
|
||||
• INV-AH — the synthesis is GROUNDED in the instances' ``supporting_quote``s.
|
||||
The model abstains (``grounded=false``) rather than invent law, no
|
||||
new case citations may appear, and a re-embedding **drift guard**
|
||||
rejects any rewrite that drifts too far from the source statement.
|
||||
• G10/INV-LRN1 — never auto-approves; lands at ``pending_review`` for the chair.
|
||||
• G9 — every outcome (accepted / kept-original / abstained) is logged + returned.
|
||||
• G2 — single synthesis path; the backfill script, the on-demand MCP tool and
|
||||
the nightly drain all call :func:`synthesize_canonical` here.
|
||||
|
||||
LLM calls go through ``claude_session`` (local ``claude -p`` CLI) only — never the
|
||||
Anthropic SDK, never from the FastAPI container (see claude_session docstring).
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
import math
|
||||
import re
|
||||
from uuid import UUID
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import claude_session, db, embeddings
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
# Case-citation shapes (docket numbers) that must NOT be invented by the rewrite:
|
||||
# "1234/05", "85074-09-24", "8125-09-24". Statute section refs ("סעיף 197") do not
|
||||
# match and are legitimately part of a principle.
|
||||
_CITATION_RE = re.compile(r"\d{3,5}[-/]\d{2}(?:[-/]\d{2,4})?")
|
||||
|
||||
_SYSTEM = (
|
||||
"אתה עורך-דין בכיר המנסח עקרונות-הלכה קנוניים לבסיס-ידע משפטי של ועדת ערר "
|
||||
"לתכנון ובנייה. תפקידך לזקק ניסוח אחד, כללי ומדויק, של עיקרון משפטי — לא לסכם "
|
||||
"תיק ולא להמציא דין."
|
||||
)
|
||||
|
||||
|
||||
def _build_prompt(data: dict) -> str:
|
||||
instances = data.get("instances") or []
|
||||
blocks: list[str] = []
|
||||
for i, inst in enumerate(instances, 1):
|
||||
parts = [f"### מופע {i} (תיק {inst.get('case_number') or '—'}, "
|
||||
f"סוג: {inst.get('instance_type') or '—'})"]
|
||||
if inst.get("rule_statement"):
|
||||
parts.append(f"ניסוח-העיקרון: {inst['rule_statement']}")
|
||||
if inst.get("supporting_quote"):
|
||||
parts.append(f"ציטוט-תומך (מקור-העיגון): \"{inst['supporting_quote']}\"")
|
||||
if inst.get("reasoning_summary"):
|
||||
parts.append(f"נימוק: {inst['reasoning_summary']}")
|
||||
blocks.append("\n".join(parts))
|
||||
evidence = "\n\n".join(blocks) if blocks else "(אין מופעים)"
|
||||
multi = len(instances) > 1
|
||||
|
||||
task = (
|
||||
"מזג את כל ניסוחי-המופעים לעיקרון קנוני אחד המשותף לכולם."
|
||||
if multi else
|
||||
"נסח מחדש את העיקרון לניסוח קנוני נקי וכללי."
|
||||
)
|
||||
|
||||
return f"""{_SYSTEM}
|
||||
|
||||
הניסוח הקנוני הנוכחי (שיש לשפר):
|
||||
{data.get('canonical_statement') or '(ריק)'}
|
||||
|
||||
מקורות-העיגון (מופעי העיקרון בפסיקה):
|
||||
{evidence}
|
||||
|
||||
## המשימה
|
||||
{task}
|
||||
|
||||
## כללים מחייבים (INV-AH — עיגון, ללא הזיה)
|
||||
1. **עיגון-מקור בלבד.** הניסוח חייב לנבוע מהציטוטים-התומכים שלמעלה. אסור להוסיף דין, חריג, סייג או תנאי שאינו עולה מהמקורות.
|
||||
2. **ללא ציטוטי-תיקים חדשים.** אל תוסיף מספרי-תיק/פסקי-דין שאינם מופיעים במקורות. הפניה לסעיף-חוק כללי (למשל "סעיף 197 לחוק התכנון והבניה") מותרת אם היא חלק מהעיקרון.
|
||||
3. **כללי ובלתי-תלוי-תיק.** הסר שמות-צדדים, עובדות-תיק ספציפיות ומספרים קונקרטיים. נסח עיקרון רב-תחולה, לא סיכום של מקרה.
|
||||
4. **רגיסטר משפטי נקי** בעברית, משפט אחד עד שניים, ללא מילות-פתיחה ("נקבע כי", "בית-המשפט קבע") — רק העיקרון עצמו.
|
||||
5. **הימנעות עדיפה על המצאה.** אם אינך יכול לזקק עיקרון מעוגן מהמקורות — החזר grounded=false והשאר את הניסוח הקיים.
|
||||
|
||||
## פלט — JSON בלבד, ללא markdown וללא הסבר:
|
||||
{{
|
||||
"canonical_statement": "<הניסוח הקנוני המזוקק, או הניסוח הקיים אם grounded=false>",
|
||||
"grounded": true,
|
||||
"changed": true,
|
||||
"reason": "<משפט קצר: מה שונה, או מדוע נמנעת>"
|
||||
}}"""
|
||||
|
||||
|
||||
def _cosine(a: list[float], b: list[float]) -> float:
|
||||
dot = sum(x * y for x, y in zip(a, b))
|
||||
na = math.sqrt(sum(x * x for x in a))
|
||||
nb = math.sqrt(sum(y * y for y in b))
|
||||
if na == 0 or nb == 0:
|
||||
return 0.0
|
||||
return dot / (na * nb)
|
||||
|
||||
|
||||
def _new_citations(text: str, source_text: str) -> list[str]:
|
||||
"""Docket-number tokens present in the rewrite but absent from the source evidence."""
|
||||
src = set(_CITATION_RE.findall(source_text))
|
||||
return [tok for tok in _CITATION_RE.findall(text) if tok not in src]
|
||||
|
||||
|
||||
async def synthesize_canonical(
|
||||
canonical_id: UUID,
|
||||
*,
|
||||
model: str | None = None,
|
||||
effort: str | None = None,
|
||||
drift_floor: float | None = None,
|
||||
) -> dict:
|
||||
"""Synthesize one canonical's statement. PURE — does not write to the DB.
|
||||
|
||||
Returns a proposal dict the caller applies (or not, for dry-run):
|
||||
{status, canonical_id, accepted, original, proposed, embedding, drift_cosine, reason}
|
||||
|
||||
status ∈ {accepted, abstained, drift_rejected, new_citation, no_instances,
|
||||
llm_error, not_found}. ``accepted`` carries ``proposed`` + ``embedding``
|
||||
(the rewrite's vector, to commit alongside the statement). Every other status
|
||||
keeps the original statement.
|
||||
"""
|
||||
model = model or config.HALACHA_CANONICAL_SYNTH_MODEL
|
||||
effort = effort or config.HALACHA_CANONICAL_SYNTH_EFFORT
|
||||
drift_floor = config.HALACHA_CANONICAL_SYNTH_DRIFT_FLOOR if drift_floor is None else drift_floor
|
||||
|
||||
data = await db.fetch_canonical_synthesis_input(canonical_id)
|
||||
if data is None:
|
||||
return {"status": "not_found", "canonical_id": str(canonical_id)}
|
||||
|
||||
original = data.get("canonical_statement") or ""
|
||||
instances = data.get("instances") or []
|
||||
base = {"status": "", "canonical_id": str(canonical_id), "accepted": False,
|
||||
"original": original, "proposed": original, "embedding": None,
|
||||
"drift_cosine": None, "reason": ""}
|
||||
|
||||
if not instances:
|
||||
return {**base, "status": "no_instances", "reason": "no linked instances"}
|
||||
|
||||
try:
|
||||
result = await claude_session.query_json(
|
||||
_build_prompt(data), model=model, effort=effort, tools="",
|
||||
)
|
||||
except Exception as e:
|
||||
logger.warning("synthesize_canonical %s: LLM error: %s", canonical_id, e)
|
||||
return {**base, "status": "llm_error", "reason": str(e)}
|
||||
|
||||
if not isinstance(result, dict) or not result.get("canonical_statement"):
|
||||
return {**base, "status": "llm_error", "reason": "malformed LLM output"}
|
||||
|
||||
if not result.get("grounded", True):
|
||||
return {**base, "status": "abstained",
|
||||
"reason": result.get("reason") or "model abstained (not grounded)"}
|
||||
|
||||
proposed = str(result["canonical_statement"]).strip()
|
||||
if not proposed or proposed == original:
|
||||
return {**base, "status": "abstained", "reason": "no change proposed"}
|
||||
|
||||
# AH-2: no invented docket citations. Source = current statement + all evidence.
|
||||
source_text = original + " " + " ".join(
|
||||
f"{i.get('rule_statement', '')} {i.get('supporting_quote', '')}" for i in instances
|
||||
)
|
||||
invented = _new_citations(proposed, source_text)
|
||||
if invented:
|
||||
return {**base, "status": "new_citation", "proposed": proposed,
|
||||
"reason": f"introduced citations absent from source: {invented}"}
|
||||
|
||||
# Drift guard: re-embed the rewrite, compare to the source statement's vector.
|
||||
new_emb = (await embeddings.embed_texts([proposed]))[0]
|
||||
src_emb = data.get("embedding")
|
||||
if not src_emb:
|
||||
src_emb = (await embeddings.embed_texts([original]))[0]
|
||||
drift = _cosine(new_emb, src_emb)
|
||||
if drift < drift_floor:
|
||||
return {**base, "status": "drift_rejected", "proposed": proposed,
|
||||
"drift_cosine": round(drift, 4),
|
||||
"reason": f"drift {drift:.3f} < floor {drift_floor}"}
|
||||
|
||||
return {**base, "status": "accepted", "accepted": True, "proposed": proposed,
|
||||
"embedding": new_emb, "drift_cosine": round(drift, 4),
|
||||
"reason": result.get("reason") or "synthesized"}
|
||||
|
||||
|
||||
async def synthesize_and_apply(
|
||||
canonical_id: UUID,
|
||||
*,
|
||||
model: str | None = None,
|
||||
effort: str | None = None,
|
||||
drift_floor: float | None = None,
|
||||
) -> dict:
|
||||
"""Synthesize one canonical and commit the outcome.
|
||||
|
||||
On ``accepted`` writes the new statement + its embedding. On any other terminal
|
||||
outcome (abstained / drift_rejected / new_citation) the ORIGINAL statement is
|
||||
kept but ``review_status`` still advances to ``pending_review`` — a synthesis was
|
||||
attempted, so the row leaves the queue (no infinite re-attempt) and reaches the
|
||||
chair as-is. ``not_found`` / ``no_instances`` / ``llm_error`` are NOT committed
|
||||
(transient or empty) so they are retried on the next pass.
|
||||
"""
|
||||
proposal = await synthesize_canonical(
|
||||
canonical_id, model=model, effort=effort, drift_floor=drift_floor,
|
||||
)
|
||||
status = proposal["status"]
|
||||
if status in ("not_found", "no_instances", "llm_error"):
|
||||
return proposal
|
||||
|
||||
if proposal["accepted"]:
|
||||
await db.apply_canonical_synthesis(
|
||||
canonical_id, proposal["proposed"], embedding=proposal["embedding"],
|
||||
)
|
||||
else:
|
||||
# keep original statement + embedding, just advance the gate
|
||||
await db.apply_canonical_synthesis(canonical_id, proposal["original"])
|
||||
return proposal
|
||||
@@ -22,8 +22,25 @@ from legal_mcp import config
|
||||
# court rulings use slightly different vocabulary (פסק דין, נימוקים, סוף דבר).
|
||||
SECTION_PATTERNS = [
|
||||
(r"רקע\s*עובדתי|רקע\s*כללי|העובדות|הרקע", "facts"),
|
||||
(r"טענות\s*העוררי[םן]|טענות\s*המערערי[םן]|עיקר\s*טענות\s*העוררי[םן]", "appellant_claims"),
|
||||
(r"טענות\s*המשיבי[םן]|תשובת\s*המשיבי[םן]|עיקר\s*טענות\s*המשיבי[םן]", "respondent_claims"),
|
||||
# parties_claims: bilateral section common in Supreme Court / administrative
|
||||
# court decisions ("טענות הצדדים", "טיעוני הצדדים"). Not split by side.
|
||||
(
|
||||
r"(?:טענות|טיעוני|עמדות)\s*הצדדים",
|
||||
"parties_claims",
|
||||
),
|
||||
# appellant_claims: covers singular (עורר/עוררת, מערער/מערערת) and plural
|
||||
# (עוררים/עוררין, מערערים), plus court-format verb "טיעוני".
|
||||
(
|
||||
r"(?:טענות|עיקר\s*טענות|טיעוני)\s*ה(?:עוררי[םן]|עורר[ת]?|מערערי[םן]|מערער[ת]?)",
|
||||
"appellant_claims",
|
||||
),
|
||||
# respondent_claims: covers singular (משיב/משיבה) and plural (משיבים/משיבין),
|
||||
# plus verb forms תשובת/תגובת/טיעוני. "טענות המשיבה:" (feminine singular) was
|
||||
# the root cause of halacha 8181-21 index-11 being extracted from party claims.
|
||||
(
|
||||
r"(?:טענות|תשובת|תגובת|עיקר\s*טענות|טיעוני)\s*ה(?:משיבי[םן]|משיב[ה]?)",
|
||||
"respondent_claims",
|
||||
),
|
||||
(r"דיון\s*והכרעה|דיון|הכרעה|ניתוח\s*משפטי|המסגרת\s*המשפטית|נימוקים", "legal_analysis"),
|
||||
(r"מסקנ[הות]|סיכום|סוף\s*דבר", "conclusion"),
|
||||
(r"פסק[- ]?דין|החלטה|לפיכך\s*אני\s*מחליט|התוצאה", "ruling"),
|
||||
|
||||
@@ -135,7 +135,7 @@ async def _extract_chunk(
|
||||
last_err: Exception | None = None
|
||||
for attempt in range(CHUNK_RETRY_ATTEMPTS + 1):
|
||||
try:
|
||||
claims = await claude_session.query_json(prompt)
|
||||
claims = await claude_session.query_json(prompt, tools="") # no tool_use → no error_max_turns
|
||||
except Exception as e:
|
||||
last_err = e
|
||||
logger.warning(
|
||||
|
||||
@@ -60,6 +60,31 @@ _SESSION_MARKER_EXACT = frozenset({"AI_AGENT", "CLAUDE_EFFORT"})
|
||||
MAX_RETRIES = 3
|
||||
RETRY_BACKOFF_BASE = 5 # seconds; sleep = base * attempt_number
|
||||
|
||||
# Phrases the CLI emits as the "result" of an exit-0 run that actually hit a
|
||||
# usage/rate limit (a refusal NOTICE, not a real answer). Matched only against a
|
||||
# result that is NOT structured output (doesn't start with [ or {), so a genuine
|
||||
# JSON extraction containing these words as content is never mis-flagged.
|
||||
_LIMIT_NOTICE_MARKERS = (
|
||||
"usage limit",
|
||||
"rate limit",
|
||||
"limit reached",
|
||||
"limit will reset",
|
||||
"try again later",
|
||||
)
|
||||
|
||||
|
||||
def _looks_like_limit_notice(data: dict) -> bool:
|
||||
"""True if an exit-0 ``result`` is really a usage/rate-limit refusal."""
|
||||
result = data.get("result")
|
||||
if not isinstance(result, str):
|
||||
return False
|
||||
stripped = result.lstrip()
|
||||
# Structured output (JSON array/object) is a real answer, never a notice.
|
||||
if stripped.startswith(("[", "{")):
|
||||
return False
|
||||
low = result.lower()
|
||||
return any(m in low for m in _LIMIT_NOTICE_MARKERS)
|
||||
|
||||
|
||||
def _clean_subprocess_env() -> dict[str, str]:
|
||||
"""Copy the current env minus Claude Code session markers.
|
||||
@@ -82,6 +107,7 @@ async def query(
|
||||
system: str | None = None,
|
||||
model: str | None = None,
|
||||
effort: str | None = None,
|
||||
tools: str | None = None,
|
||||
) -> str:
|
||||
"""Send a prompt to Claude Code headless and return the text response.
|
||||
|
||||
@@ -104,6 +130,12 @@ async def query(
|
||||
effort: Optional effort level (``low``/``medium``/``high``/``xhigh``/
|
||||
``max``). When set, passed as ``--effort``. Pairs with ``model``;
|
||||
an empty string is treated as "unset" (CLI default).
|
||||
tools: Optional available-tools spec, passed as ``--tools``. Pass an
|
||||
empty string (``""``) to disable ALL tools — for pure text→JSON
|
||||
extraction the model has no reason to call a tool, and leaving
|
||||
tools enabled makes it occasionally emit ``stop_reason: tool_use``
|
||||
which trips ``--max-turns 1`` → ``error_max_turns`` and forces a
|
||||
retry (slow). ``None`` leaves the CLI default (all tools).
|
||||
|
||||
Returns:
|
||||
The text response from Claude.
|
||||
@@ -126,6 +158,8 @@ async def query(
|
||||
cmd += ["--model", model]
|
||||
if effort:
|
||||
cmd += ["--effort", effort]
|
||||
if tools is not None: # "" → disable all tools (no tool_use → no max-turns trip)
|
||||
cmd += ["--tools", tools]
|
||||
|
||||
size_info = f"; prompt_len={len(full_prompt):,} chars" if len(full_prompt) > 100_000 else ""
|
||||
last_err = "unknown error"
|
||||
@@ -178,11 +212,27 @@ async def query(
|
||||
try:
|
||||
data = json.loads(stdout)
|
||||
if isinstance(data, dict) and "result" in data:
|
||||
return data["result"]
|
||||
return stdout
|
||||
# A usage/rate-limit hit can exit 0 with a refusal NOTICE
|
||||
# as the "result" (is_error / error subtype). Returning it
|
||||
# as success makes callers treat a throttled run as a real
|
||||
# empty answer — e.g. the halacha extractor then checkpoints
|
||||
# the chunk as done-with-0-halachot and a resume skips it
|
||||
# forever (#138/#144 silent under-extraction). Treat it as a
|
||||
# transient failure → retry, and raise if it persists so the
|
||||
# chunk stays un-checkpointed for a real resume.
|
||||
if data.get("is_error") or _looks_like_limit_notice(data):
|
||||
last_err = (
|
||||
f"error result (subtype={data.get('subtype')}): "
|
||||
f"{str(data.get('result',''))[:200]}"
|
||||
)
|
||||
else:
|
||||
return data["result"]
|
||||
else:
|
||||
return stdout
|
||||
except json.JSONDecodeError:
|
||||
return stdout
|
||||
last_err = "empty response"
|
||||
else:
|
||||
last_err = "empty response"
|
||||
|
||||
# Transient failure — retry with linear backoff unless this was the last try.
|
||||
if attempt < MAX_RETRIES:
|
||||
@@ -204,13 +254,15 @@ async def query_json(
|
||||
system: str | None = None,
|
||||
model: str | None = None,
|
||||
effort: str | None = None,
|
||||
tools: str | None = None,
|
||||
) -> dict | list | None:
|
||||
"""Send a prompt and parse the response as JSON.
|
||||
|
||||
Uses parse_llm_json for robust parsing (handles markdown wrapping, truncation).
|
||||
``model``/``effort`` are forwarded to :func:`query` (see its docstring).
|
||||
``model``/``effort``/``tools`` are forwarded to :func:`query` (see its docstring).
|
||||
Pure text→JSON extractors should pass ``tools=""`` to avoid ``error_max_turns``.
|
||||
"""
|
||||
raw = await query(prompt, timeout=timeout, system=system, model=model, effort=effort)
|
||||
raw = await query(prompt, timeout=timeout, system=system, model=model, effort=effort, tools=tools)
|
||||
return parse_llm_json(raw)
|
||||
|
||||
|
||||
|
||||
@@ -88,6 +88,7 @@ async def classify_treatment(cited_citation: str, context: str) -> str:
|
||||
user, system=_TREATMENT_PROMPT,
|
||||
model=config.HALACHA_EXTRACT_MODEL or None,
|
||||
effort=config.HALACHA_EXTRACT_EFFORT or None,
|
||||
tools="", # pure text→JSON — no tool_use → no error_max_turns
|
||||
)
|
||||
except Exception as e:
|
||||
logger.warning("classify_treatment failed: %s", e)
|
||||
|
||||
@@ -117,6 +117,49 @@ def normalize_case_number(raw: str) -> str:
|
||||
return cleaned.replace("/", "-").strip("-")
|
||||
|
||||
|
||||
def case_number_from_citation(citation: str) -> str:
|
||||
"""Canonical ``case_number`` extracted from a full citation, or ``''``.
|
||||
|
||||
Returns the normalized number token only (e.g. ``85074-04-25``) — NEVER the
|
||||
full citation string with party names / court / date. This is the
|
||||
identifier-field rule from X1 (INV-ID2): a citation like
|
||||
``ערר (ת"א 85074-04-25) רפאל לוי ואח' נ' הוועדה … - חולון`` yields
|
||||
``85074-04-25``, not the whole display string.
|
||||
|
||||
Reuses ``classify`` (the one canonical citation parser) so callers that need
|
||||
a case_number out of an arbitrary citation never roll their own regex (#137,
|
||||
G2). Returns ``''`` when no number can be parsed — the caller MUST treat that
|
||||
as "needs a manual case_number" and never fall back to the raw citation.
|
||||
"""
|
||||
return classify(citation).case_number_norm
|
||||
|
||||
|
||||
def _norm_designator(prefix: str) -> str:
|
||||
"""Collapse a court/proceeding prefix to a comparison token.
|
||||
|
||||
Strips gershayim variants and whitespace so ``עע"מ`` / ``עע״מ`` / ``עעמ``
|
||||
all map to the same token, while DISTINCT courts stay distinct.
|
||||
"""
|
||||
return re.sub(r"[\s\"״׳']", "", prefix or "")
|
||||
|
||||
|
||||
def citation_dedup_key(citation: str) -> str:
|
||||
"""Designator-aware dedup key for a citation, or ``''`` if no number.
|
||||
|
||||
Returns ``f"{designator}|{case_number_norm}"`` — e.g.
|
||||
``בג"ץ 389/87`` → ``בגץ|389-87`` and ``ע"א 389/87`` → ``עא|389-87`` are
|
||||
DISTINCT keys, even though both share docket ``389-87``. This is the safe
|
||||
dedup key for ``missing_precedents`` (#143/#136): deduping on the bare number
|
||||
alone (``case_number_from_citation``) would WRONGLY MERGE the same docket
|
||||
across different courts (18 such collisions already exist in the corpus). A
|
||||
prefix-less citation (bare נט-format / unknown court) yields ``|<number>``.
|
||||
"""
|
||||
cit = classify(citation)
|
||||
if not cit.case_number_norm:
|
||||
return ""
|
||||
return f"{_norm_designator(cit.court_prefix)}|{cit.case_number_norm}"
|
||||
|
||||
|
||||
def _split_filed(num_norm: str) -> tuple[str, str, str] | None:
|
||||
"""Split a normalized NNNNN-MM-YY number into (file, month, year).
|
||||
|
||||
@@ -157,15 +200,23 @@ def classify(citation: str) -> CourtCitation:
|
||||
case_number_norm=normalize_case_number(raw),
|
||||
)
|
||||
|
||||
# 2. Supreme Court prefix → Tier 0.
|
||||
# 2. Supreme Court prefix → Tier 0. Still parse a נט-format triple when the
|
||||
# number carries one (e.g. בר"מ 72182-06-25): נט המשפט serves Supreme
|
||||
# cases too, so a triple lets the orchestrator route to the validated
|
||||
# Tier-1 flow instead of the serial-only Tier-0.
|
||||
m = _SUPREME_RX.search(text)
|
||||
if m:
|
||||
raw = m.group(2)
|
||||
norm = normalize_case_number(raw)
|
||||
filed = _split_filed(norm)
|
||||
return CourtCitation(
|
||||
tier="supreme",
|
||||
court_prefix=m.group(1),
|
||||
case_number_raw=raw,
|
||||
case_number_norm=normalize_case_number(raw),
|
||||
case_number_norm=norm,
|
||||
file_number=filed[0] if filed else None,
|
||||
month=filed[1] if filed else None,
|
||||
year=filed[2] if filed else None,
|
||||
)
|
||||
|
||||
# 3. District / admin prefix → Tier 1.
|
||||
|
||||
@@ -41,11 +41,12 @@ logger = logging.getLogger(__name__)
|
||||
# human (INV-CF3). Kept low — the .gov site shouldn't be hammered (INV-CF4).
|
||||
MAX_AUTONOMOUS_ATTEMPTS = int(os.environ.get("COURT_FETCH_MAX_ATTEMPTS", "2"))
|
||||
|
||||
# The host-side Tier-1 browser service (pm2). The MCP server runs on the host,
|
||||
# so it reaches the service over loopback directly (the container bridge in
|
||||
# web/court_fetch_proxy.py is a separate, optional entry point).
|
||||
# The host-side Tier-1 browser service (pm2). It binds the docker0 bridge
|
||||
# gateway (10.0.1.1) — same as legal-chat-service — so both the host MCP server
|
||||
# and containers can reach it; the host reaches 10.0.1.1 as a local interface.
|
||||
# Override with COURT_FETCH_SERVICE_URL.
|
||||
COURT_FETCH_SERVICE_URL = os.environ.get(
|
||||
"COURT_FETCH_SERVICE_URL", "http://127.0.0.1:8771"
|
||||
"COURT_FETCH_SERVICE_URL", "http://10.0.1.1:8771"
|
||||
)
|
||||
_SHARED_SECRET = os.environ.get("COURT_FETCH_SHARED_SECRET", "").strip()
|
||||
_TIER1_TIMEOUT_S = float(os.environ.get("COURT_FETCH_TIER1_TIMEOUT_S", "300"))
|
||||
@@ -169,14 +170,15 @@ async def fetch_and_ingest(
|
||||
await db.court_fetch_job_update(job_id, status="running", bump_attempts=True)
|
||||
|
||||
# ── fetch ──
|
||||
# Route by what the number lets us do, not just the court prefix: נט המשפט
|
||||
# (Tier 1) serves ALL courts — Supreme included — as long as the citation
|
||||
# carries a נט-format triple (file-month-year). Validated live on both
|
||||
# district (עת"מ 43830-12-24) and Supreme (בר"מ 72182-06-25). Only a serial-
|
||||
# only Supreme number (e.g. עע"מ 5886/24, no month) can't be looked up that
|
||||
# way → fall through to Tier 0 (supremedecisions).
|
||||
has_net_format = bool(cit.file_number and cit.month and cit.year)
|
||||
try:
|
||||
if cit.tier == "supreme":
|
||||
fetched = await fetch_supreme_verdict(
|
||||
citation=citation, case_number_norm=cit.case_number_norm
|
||||
)
|
||||
content, filename = fetched.content, fetched.filename
|
||||
source_url, court = fetched.source_url, fetched.court
|
||||
else: # admin → Tier 1
|
||||
if has_net_format:
|
||||
res = await _fetch_tier1_admin(cit)
|
||||
if not res.get("ok"):
|
||||
raise RuntimeError(res.get("reason") or "אחזור נכשל")
|
||||
@@ -185,7 +187,20 @@ async def fetch_and_ingest(
|
||||
filename = res.get("filename") or f"{cit.case_number_norm}.pdf"
|
||||
source_url = res.get("source_url", "")
|
||||
court = res.get("court") or cit.court_prefix
|
||||
except (_Tier1Unavailable, SupremeFetchError, RuntimeError) as e:
|
||||
elif cit.tier == "supreme":
|
||||
fetched = await fetch_supreme_verdict(
|
||||
citation=citation, case_number_norm=cit.case_number_norm
|
||||
)
|
||||
content, filename = fetched.content, fetched.filename
|
||||
source_url, court = fetched.source_url, fetched.court
|
||||
else:
|
||||
raise RuntimeError(
|
||||
f"מספר-תיק {cit.case_number_norm} אינו בפורמט נט-המשפט ואינו עליון — "
|
||||
"אין מסלול-אחזור ציבורי"
|
||||
)
|
||||
except Exception as e: # noqa: BLE001 — any fetch error is recorded, never
|
||||
# left hanging in 'running' (INV-CF2). _record_failure escalates to
|
||||
# 'manual' after MAX_AUTONOMOUS_ATTEMPTS (INV-CF3).
|
||||
return await _record_failure(job_id, cit, citation, str(e))
|
||||
|
||||
# ── ingest into the canonical pipeline (INV-CF1) ──
|
||||
@@ -204,10 +219,77 @@ async def fetch_and_ingest(
|
||||
case_law_id=UUID(str(case_law_id)) if case_law_id else None,
|
||||
source_url=source_url, error="",
|
||||
)
|
||||
# Close the digest gap (INV-DIG3): if this fetch traces back to a digest,
|
||||
# link it to the freshly-ingested ruling. Best-effort; never fails the job.
|
||||
link_digest_id = digest_id or job.get("digest_id")
|
||||
if case_law_id and link_digest_id:
|
||||
try:
|
||||
await db.link_digest_to_case_law(link_digest_id, UUID(str(case_law_id)))
|
||||
logger.info("linked digest %s → case_law %s", link_digest_id, case_law_id)
|
||||
except Exception:
|
||||
logger.warning("could not relink digest %s after fetch", link_digest_id)
|
||||
|
||||
# Close any open missing-precedent gap this fetch fills (the citation graph
|
||||
# often records the same ruling as a gap). Best-effort.
|
||||
if case_law_id:
|
||||
await _close_matching_gaps(cit.case_number_norm, UUID(str(case_law_id)))
|
||||
|
||||
return {"status": "done", "tier": cit.tier, "case_law_id": case_law_id,
|
||||
"citation": citation, "source_url": source_url, "ingest": result}
|
||||
|
||||
|
||||
async def _close_matching_gaps(case_number_norm: str, case_law_id: UUID) -> None:
|
||||
"""Close open missing_precedents whose citation matches the fetched case."""
|
||||
try:
|
||||
gaps = await db.list_missing_precedents(status="open", limit=500)
|
||||
for g in gaps:
|
||||
if court_citation.normalize_case_number(g.get("citation", "")) == case_number_norm:
|
||||
await db.close_missing_precedent(
|
||||
UUID(str(g["id"])), linked_case_law_id=case_law_id,
|
||||
status="closed", notes="נקלט אוטומטית דרך אחזור-פסיקה (X13)",
|
||||
)
|
||||
logger.info("closed missing_precedent %s", g["id"])
|
||||
except Exception:
|
||||
logger.warning("could not close gaps for %s", case_number_norm)
|
||||
|
||||
|
||||
# Politeness between consecutive court fetches in a drain (INV-CF4) — serial,
|
||||
# spaced. Mirrors the precedent-extraction queue cadence.
|
||||
_INTER_FETCH_COOLDOWN_S = float(os.environ.get("COURT_FETCH_DRAIN_COOLDOWN_S", "20"))
|
||||
|
||||
|
||||
async def drain_pending(limit: int = 10) -> dict:
|
||||
"""Process queued court-fetch jobs (status pending/failed) serially.
|
||||
|
||||
Drains the ``court_fetch_jobs`` queue the digest trigger fills — fetch +
|
||||
ingest each, link back to its digest. Serial with a cooldown (INV-CF4); a
|
||||
job that fails is recorded and retried next drain until it escalates to
|
||||
``manual`` (INV-CF3). Local-only (runs the ingest pipeline / claude CLI).
|
||||
"""
|
||||
import asyncio
|
||||
|
||||
jobs = await db.court_fetch_job_list(status="pending", limit=limit)
|
||||
jobs += await db.court_fetch_job_list(status="failed", limit=limit)
|
||||
seen, queue = set(), []
|
||||
for j in jobs:
|
||||
k = j["case_number_norm"]
|
||||
if k not in seen:
|
||||
seen.add(k); queue.append(j)
|
||||
results = []
|
||||
for i, j in enumerate(queue[:limit]):
|
||||
if i:
|
||||
await asyncio.sleep(_INTER_FETCH_COOLDOWN_S)
|
||||
digest_id = j.get("digest_id")
|
||||
try:
|
||||
r = await fetch_and_ingest(j["citation_raw"], digest_id=digest_id)
|
||||
except Exception as e: # noqa: BLE001 — recorded per-job, never aborts the drain
|
||||
logger.exception("drain item failed: %s", j["case_number_norm"])
|
||||
r = {"status": "error", "citation": j["citation_raw"], "error": str(e)}
|
||||
results.append(r)
|
||||
done = sum(1 for r in results if r.get("status") in ("done", "already_done"))
|
||||
return {"processed": len(results), "done": done, "results": results}
|
||||
|
||||
|
||||
async def _record_failure(
|
||||
job_id: UUID, cit: court_citation.CourtCitation, citation: str, err: str
|
||||
) -> dict:
|
||||
@@ -232,10 +314,14 @@ async def _record_failure(
|
||||
async def _open_gap(citation: str, *, reason: str) -> None:
|
||||
"""Open a missing_precedent gap so the chair sees it (INV-CF2/CF3).
|
||||
|
||||
Best-effort + de-duplicated by the missing_precedents layer; a failure
|
||||
here is logged, never raised (it must not mask the original outcome).
|
||||
Best-effort + de-duplicated (designator-aware via citation_norm, #143); a
|
||||
failure here is logged, never raised (it must not mask the original outcome).
|
||||
"""
|
||||
try:
|
||||
await db.create_missing_precedent(citation=citation, notes=reason)
|
||||
if await db.find_missing_precedent_by_citation(citation):
|
||||
return
|
||||
await db.create_missing_precedent(
|
||||
citation=citation, notes=reason, discovery_source="court_fetch",
|
||||
)
|
||||
except Exception:
|
||||
logger.warning("could not open missing_precedent for %s", citation)
|
||||
|
||||
@@ -1,37 +1,38 @@
|
||||
"""Tier 0 — Supreme Court verdict fetcher (X13).
|
||||
"""Tier 0 — Supreme Court verdict fetcher (X13), via supremedecisions.court.gov.il.
|
||||
|
||||
Pulls a published Supreme Court verdict PDF from the **public** decisions
|
||||
portal ``supremedecisions.court.gov.il`` — no smart-card, no CAPTCHA. The
|
||||
portal is an AngularJS SPA backed by a small JSON API (reverse-engineered
|
||||
from ``/Scripts/app/config.js`` + the search/results controllers):
|
||||
Pulls a published Supreme Court verdict PDF from the **public** decisions portal
|
||||
— no smart-card, no CAPTCHA, no browser (pure httpx). Used for serial-format
|
||||
citations (בג"ץ/בר"מ/עע"מ NNNN/YY) that have no נט-format triple and so can't go
|
||||
through the Tier-1 נט-המשפט flow.
|
||||
|
||||
POST Home/SearchVerdicts body {"document": <query>, "lan": 1} → result list
|
||||
GET Home/GetCasesYearNum ?... (year + number lookup) → case + docs
|
||||
GET Home/Download?path=<path>&fileName=<file>&type=4 → the PDF bytes
|
||||
The portal is an AngularJS SPA over a small ASP.NET JSON API, reverse-engineered
|
||||
and validated live (2026-06-08 on בג"ץ 3483/05 → 75 KB PDF). The flow:
|
||||
|
||||
Two things matter for getting a 200 instead of an F5 connection-reset
|
||||
(verified empirically 2026-06-07):
|
||||
* a **complete** browser header set — UA + Accept + Accept-Language. A bare
|
||||
UA alone gets reset.
|
||||
* **politeness** (INV-CF4): one request at a time, a cooldown between them,
|
||||
a Referer of the portal root. We never parallelise or hammer.
|
||||
POST Home/SearchVerdicts
|
||||
body: {"document": {"Year": "YYYY", "CaseNum": "NNNN", "Month": {},
|
||||
"dateType": 1, "publishDate": 8,
|
||||
"SearchText": [<empty clause>],
|
||||
"OldMainNumFormat": true}, "lan": 1}
|
||||
→ {"data": [{Path, FileName, CaseName, Type, Pages, VerdictDt, ...}, ...]}
|
||||
GET Home/Download?path=<Path>&fileName=<FileName>&type=4 → the verdict PDF
|
||||
|
||||
Honesty / scope: the *result→download* field mapping (where ``path`` and
|
||||
``fileName`` live in the SearchVerdicts JSON) is derived from the client code,
|
||||
not yet confirmed against a live JSON response (the live site rate-limited
|
||||
probing during development). ``fetch_supreme_verdict`` therefore validates the
|
||||
response shape and **raises** on anything unexpected (INV-CF2 — no silent
|
||||
swallow) so the orchestrator can record the failure and fall back, rather than
|
||||
returning a wrong/empty file. The first live run is the validation pass; see
|
||||
the X13 verification section.
|
||||
Two things are required to get JSON instead of an F5 WAF block (verified):
|
||||
* the **X-Requested-With: XMLHttpRequest** header on every AJAX call;
|
||||
* a **complete** browser header set (UA + Accept + Accept-Language).
|
||||
|
||||
A case can have many documents (interim החלטות + the final פסק דין). We pick the
|
||||
verdict: prefer a record whose Type contains "פסק דין", else the most-paginated /
|
||||
latest one. Politeness (INV-CF4): serial, with a cooldown.
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import asyncio
|
||||
import datetime as _dt
|
||||
import logging
|
||||
import os
|
||||
from dataclasses import dataclass
|
||||
import re
|
||||
import urllib.parse
|
||||
|
||||
import httpx
|
||||
|
||||
@@ -39,8 +40,6 @@ logger = logging.getLogger(__name__)
|
||||
|
||||
_BASE = "https://supremedecisions.court.gov.il"
|
||||
|
||||
# A complete, browser-like header set. Empirically required to pass the F5
|
||||
# WAF (a bare User-Agent gets a TCP reset).
|
||||
_HEADERS = {
|
||||
"User-Agent": (
|
||||
"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
|
||||
@@ -48,134 +47,151 @@ _HEADERS = {
|
||||
),
|
||||
"Accept": "application/json, text/plain, */*",
|
||||
"Accept-Language": "he-IL,he;q=0.9,en;q=0.8",
|
||||
"X-Requested-With": "XMLHttpRequest", # required — F5 WAF blocks AJAX without it
|
||||
"Referer": _BASE + "/",
|
||||
}
|
||||
|
||||
# Politeness knobs (INV-CF4). Serial only — never run these concurrently.
|
||||
_REQUEST_TIMEOUT_S = float(os.environ.get("COURT_FETCH_HTTP_TIMEOUT_S", "30"))
|
||||
_INTER_REQUEST_COOLDOWN_S = float(os.environ.get("COURT_FETCH_COOLDOWN_S", "2"))
|
||||
|
||||
# type=4 → PDF in the portal's Download endpoint (from resultsControler.js).
|
||||
_DOC_TYPE_PDF = "4"
|
||||
|
||||
# Empty search clause the portal expects inside the document.
|
||||
_EMPTY_CLAUSE = {
|
||||
"Text": "", "textOperator": 1, "option": 2, "Inverted": False,
|
||||
"Synonym": False, "NearDistance": 3, "MatchOrder": False,
|
||||
}
|
||||
|
||||
|
||||
@dataclass
|
||||
class FetchedVerdict:
|
||||
"""A downloaded verdict file held in memory, ready for ingest."""
|
||||
|
||||
content: bytes
|
||||
filename: str
|
||||
source_url: str
|
||||
court: str = "בית המשפט העליון"
|
||||
def __init__(self, content: bytes, filename: str, source_url: str,
|
||||
court: str = "בית המשפט העליון", case_name: str = ""):
|
||||
self.content = content
|
||||
self.filename = filename
|
||||
self.source_url = source_url
|
||||
self.court = court
|
||||
self.case_name = case_name
|
||||
|
||||
|
||||
class SupremeFetchError(RuntimeError):
|
||||
"""Raised when the public portal returns an unexpected shape / no document.
|
||||
"""The public portal returned an unexpected shape / no document. Carries a
|
||||
Hebrew reason for the job row (INV-CF2)."""
|
||||
|
||||
Carries a human-readable Hebrew reason so the orchestrator can persist it
|
||||
on the job row (INV-CF2) and decide on fallback.
|
||||
|
||||
def _four_digit_year(yy: str) -> str:
|
||||
"""2-digit citation year → 4-digit. Pivot on the current year: a 2-digit
|
||||
value above (this year + 4) is last century. e.g. 05→2005, 87→1987, 16→2016."""
|
||||
yy = re.sub(r"\D", "", yy or "")
|
||||
if len(yy) == 4:
|
||||
return yy
|
||||
if len(yy) != 2:
|
||||
return yy
|
||||
n = int(yy)
|
||||
cutoff = (_dt.date.today().year % 100) + 4
|
||||
return f"20{yy}" if n <= cutoff else f"19{yy}"
|
||||
|
||||
|
||||
def _parse_serial(case_number_norm: str, citation: str) -> tuple[str, str]:
|
||||
"""Extract (CaseNum, YYYY) from a serial citation like 'בג"ץ 3483/05'.
|
||||
|
||||
Works off the normalized number (e.g. '3483-05') with the raw citation as a
|
||||
fallback. Raises SupremeFetchError if it can't find a NNNN/YY pair.
|
||||
"""
|
||||
m = re.search(r"(\d{1,5})[-/](\d{2,4})\b", case_number_norm or "")
|
||||
if not m:
|
||||
m = re.search(r"(\d{1,5})/(\d{2,4})", citation or "")
|
||||
if not m:
|
||||
raise SupremeFetchError(
|
||||
f"לא ניתן לפרק '{citation}' למספר-תיק/שנה (פורמט עליון סדרתי)"
|
||||
)
|
||||
return m.group(1), _four_digit_year(m.group(2))
|
||||
|
||||
|
||||
async def _get(client: httpx.AsyncClient, path: str, **kwargs) -> httpx.Response:
|
||||
await asyncio.sleep(_INTER_REQUEST_COOLDOWN_S)
|
||||
resp = await client.get(f"{_BASE}/{path.lstrip('/')}", **kwargs)
|
||||
resp.raise_for_status()
|
||||
return resp
|
||||
def _dt_key(r: dict) -> int:
|
||||
m = re.search(r"/Date\((\d+)", str(r.get("VerdictDt") or ""))
|
||||
return int(m.group(1)) if m else 0
|
||||
|
||||
|
||||
async def _post(client: httpx.AsyncClient, path: str, json: dict) -> httpx.Response:
|
||||
await asyncio.sleep(_INTER_REQUEST_COOLDOWN_S)
|
||||
resp = await client.post(f"{_BASE}/{path.lstrip('/')}", json=json)
|
||||
resp.raise_for_status()
|
||||
return resp
|
||||
def _rank_candidates(records: list[dict]) -> list[dict]:
|
||||
"""Order a case's documents by how good a corpus target each is, best first.
|
||||
|
||||
|
||||
def _extract_doc_ref(results: object) -> tuple[str, str] | None:
|
||||
"""Pull (path, fileName) of the first verdict document from a results blob.
|
||||
|
||||
The SearchVerdicts/GetCasesYearNum responses nest documents under varying
|
||||
keys across the portal's endpoints. We probe the known shapes defensively
|
||||
and return the first (path, fileName) pair found; ``None`` if none.
|
||||
Preference: the reasoned ruling (Type contains 'פסק') over interim החלטות;
|
||||
then more pages (substantive over one-liners); then most recent. We return
|
||||
a *ranked list*, not one pick, because the formally-labeled פסק-דין is
|
||||
sometimes a published-report ('s'-prefix) file that the free Download
|
||||
endpoint blocks (WAF) — the caller tries each until one downloads as a PDF.
|
||||
Records without a Path/FileName are dropped.
|
||||
"""
|
||||
def walk(node):
|
||||
if isinstance(node, dict):
|
||||
# A document node carries both a path and a file name.
|
||||
path = node.get("Path") or node.get("path")
|
||||
fname = node.get("FileName") or node.get("fileName") or node.get("Filename")
|
||||
if path and fname:
|
||||
yield (str(path), str(fname))
|
||||
for v in node.values():
|
||||
yield from walk(v)
|
||||
elif isinstance(node, list):
|
||||
for v in node:
|
||||
yield from walk(v)
|
||||
usable = [r for r in records if r.get("Path") and r.get("FileName")]
|
||||
|
||||
for pair in walk(results):
|
||||
return pair
|
||||
return None
|
||||
def _score(r: dict) -> tuple:
|
||||
is_verdict = 1 if "פסק" in str(r.get("Type") or "") else 0
|
||||
return (is_verdict, int(r.get("Pages") or 0), _dt_key(r))
|
||||
|
||||
return sorted(usable, key=_score, reverse=True)
|
||||
|
||||
|
||||
async def fetch_supreme_verdict(
|
||||
*, citation: str, case_number_norm: str
|
||||
) -> FetchedVerdict:
|
||||
"""Fetch a Supreme Court verdict PDF by citation. Raises on failure.
|
||||
"""Fetch a Supreme Court verdict PDF by serial citation. Raises on failure."""
|
||||
case_num, yyyy = _parse_serial(case_number_norm, citation)
|
||||
|
||||
Flow: full-text search for the citation → locate the verdict document's
|
||||
(path, fileName) → download the PDF. Serial + cooled-down throughout.
|
||||
"""
|
||||
async with httpx.AsyncClient(
|
||||
http2=True,
|
||||
headers=_HEADERS,
|
||||
timeout=_REQUEST_TIMEOUT_S,
|
||||
http2=False, headers=_HEADERS, timeout=_REQUEST_TIMEOUT_S,
|
||||
follow_redirects=True,
|
||||
) as client:
|
||||
# 1. Search. The portal's quick-search posts {document, lan}; lan=1=Hebrew.
|
||||
document = {
|
||||
"Year": yyyy, "CaseNum": case_num, "Month": {},
|
||||
"dateType": 1, "publishDate": 8, "SearchText": [dict(_EMPTY_CLAUSE)],
|
||||
"OldMainNumFormat": True,
|
||||
}
|
||||
try:
|
||||
search = await _post(
|
||||
client, "Home/SearchVerdicts",
|
||||
json={"document": citation, "lan": 1},
|
||||
await asyncio.sleep(_INTER_REQUEST_COOLDOWN_S)
|
||||
resp = await client.post(
|
||||
f"{_BASE}/Home/SearchVerdicts", json={"document": document, "lan": 1}
|
||||
)
|
||||
results = search.json()
|
||||
resp.raise_for_status()
|
||||
payload = resp.json()
|
||||
except httpx.HTTPError as e:
|
||||
raise SupremeFetchError(
|
||||
f"חיפוש בפורטל העליון נכשל עבור {citation}: {e}"
|
||||
) from e
|
||||
except ValueError as e: # non-JSON body
|
||||
raise SupremeFetchError(
|
||||
f"תשובת-חיפוש לא-JSON מהפורטל עבור {citation}"
|
||||
) from e
|
||||
raise SupremeFetchError(f"חיפוש בפורטל העליון נכשל עבור {citation}: {e}") from e
|
||||
except ValueError as e:
|
||||
raise SupremeFetchError(f"תשובת-חיפוש לא-JSON מהפורטל עבור {citation}") from e
|
||||
|
||||
ref = _extract_doc_ref(results)
|
||||
if not ref:
|
||||
records = payload.get("data") if isinstance(payload, dict) else None
|
||||
candidates = _rank_candidates(records or [])
|
||||
if not candidates:
|
||||
raise SupremeFetchError(
|
||||
f"לא נמצא מסמך-פסק עבור {citation} בפורטל העליון "
|
||||
f"(ייתכן שאינו פורסם או שמבנה-התשובה השתנה)."
|
||||
)
|
||||
path, fname = ref
|
||||
|
||||
# 2. Download the PDF.
|
||||
try:
|
||||
dl = await _get(
|
||||
client, "Home/Download",
|
||||
params={"path": path, "fileName": fname, "type": _DOC_TYPE_PDF},
|
||||
)
|
||||
except httpx.HTTPError as e:
|
||||
raise SupremeFetchError(
|
||||
f"הורדת PDF נכשלה עבור {citation} (path={path}): {e}"
|
||||
) from e
|
||||
|
||||
content = dl.content
|
||||
ctype = dl.headers.get("content-type", "")
|
||||
if not content or ("pdf" not in ctype.lower() and not content[:4] == b"%PDF"):
|
||||
raise SupremeFetchError(
|
||||
f"הקובץ שהתקבל עבור {citation} אינו PDF תקין (content-type={ctype})."
|
||||
f"(תיק {case_num}/{yyyy[-2:]}; ייתכן שאינו פורסם או טרם דיגיטציה)."
|
||||
)
|
||||
|
||||
source_url = (
|
||||
f"{_BASE}/Home/Download?path={path}&fileName={fname}&type={_DOC_TYPE_PDF}"
|
||||
)
|
||||
safe_name = fname if fname.lower().endswith(".pdf") else f"{case_number_norm}.pdf"
|
||||
return FetchedVerdict(
|
||||
content=content, filename=safe_name, source_url=source_url,
|
||||
# Try documents best-first until one downloads as a real PDF. The
|
||||
# formally-labeled פסק-דין is sometimes a published-report file the free
|
||||
# Download endpoint blocks (WAF) — fall back to the next substantive doc.
|
||||
last_reason = ""
|
||||
for rec in candidates[:6]:
|
||||
path, fname = str(rec["Path"]), str(rec["FileName"])
|
||||
qs = urllib.parse.urlencode(
|
||||
{"path": path, "fileName": fname, "type": _DOC_TYPE_PDF}
|
||||
)
|
||||
try:
|
||||
await asyncio.sleep(_INTER_REQUEST_COOLDOWN_S)
|
||||
dl = await client.get(f"{_BASE}/Home/Download?{qs}")
|
||||
dl.raise_for_status()
|
||||
except httpx.HTTPError as e:
|
||||
last_reason = f"הורדה נכשלה ({e})"
|
||||
continue
|
||||
if dl.content[:4] == b"%PDF":
|
||||
return FetchedVerdict(
|
||||
content=dl.content,
|
||||
filename=f"{case_number_norm}.pdf",
|
||||
source_url=f"{_BASE}/Home/Download?{qs}",
|
||||
case_name=str(rec.get("CaseName") or ""),
|
||||
)
|
||||
last_reason = f"מסמך {fname} חסום/לא-PDF ({len(dl.content)}B)"
|
||||
|
||||
raise SupremeFetchError(
|
||||
f"אף מסמך של {citation} לא ירד כ-PDF ({len(candidates)} מועמדים) — {last_reason}"
|
||||
)
|
||||
|
||||
File diff suppressed because it is too large
Load Diff
@@ -2,18 +2,23 @@
|
||||
|
||||
A digest ("כל יום" daily one-pager) is a SECONDARY source that POINTS at a
|
||||
ruling — it is never cited in a decision (INV-DIG1) and never enters the
|
||||
precedent/halacha pipeline (INV-DIG2). Ingest is therefore a short, standalone
|
||||
path that reuses only ATOMIC services (extract_text, embeddings), NOT the
|
||||
canonical ``ingest.ingest_document`` (which is bound to case_law):
|
||||
precedent/halacha pipeline (INV-DIG2). Ingest reuses only ATOMIC services
|
||||
(extract_text, embeddings), NOT the canonical ``ingest.ingest_document``.
|
||||
|
||||
file → extract_text → content_hash (idempotent) → LLM metadata extract
|
||||
→ create_digest → single embedding (concept+headline+summary+analysis)
|
||||
→ try_autolink(underlying_citation → case_law) [INV-DIG3]
|
||||
→ extraction_status='completed'
|
||||
Two intake paths share one enrichment core:
|
||||
|
||||
- ``ingest_digest`` (local/MCP, e.g. batch script) — does everything
|
||||
synchronously: stage → extract_text → create →
|
||||
LLM enrich → embed → autolink → completed.
|
||||
- ``create_pending_digest`` (CONTAINER-SAFE — the web upload) — stage →
|
||||
extract_text → create row with status='pending'.
|
||||
No LLM, no embedding. ``process_pending_digests``
|
||||
(local/MCP) drains the queue and enriches.
|
||||
|
||||
claude_session rule: ``digest_metadata_extractor`` (local CLI) is imported
|
||||
LAZILY inside ``ingest_digest`` only, so this module is import-safe from the
|
||||
FastAPI container for the search/list/link/delete paths (DB + voyage only).
|
||||
LAZILY inside the enrichment core only, so this module stays import-safe from
|
||||
the FastAPI container for create_pending / search / list / link / delete
|
||||
(DB + voyage only — voyage embedding only runs in the local enrich path).
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
@@ -25,7 +30,7 @@ from typing import Awaitable, Callable
|
||||
from uuid import UUID
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import db, embeddings, extractor, ingest
|
||||
from legal_mcp.services import db, embeddings, extractor, ingest, storage
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
@@ -42,13 +47,26 @@ async def _noop_progress(_status: str, _percent: int, _msg: str) -> None:
|
||||
return None
|
||||
|
||||
|
||||
def _embedding_text(fields: dict) -> str:
|
||||
def _coerce_date(v) -> date | None:
|
||||
if v is None or v == "":
|
||||
return None
|
||||
if isinstance(v, date):
|
||||
return v
|
||||
if isinstance(v, str):
|
||||
try:
|
||||
return date.fromisoformat(v[:10])
|
||||
except ValueError:
|
||||
return None
|
||||
return None
|
||||
|
||||
|
||||
def _embedding_text(row: dict) -> str:
|
||||
"""The single vector indexes the digest as an atomic discovery unit."""
|
||||
parts = [
|
||||
fields.get("concept_tag", ""),
|
||||
fields.get("headline_holding", ""),
|
||||
fields.get("summary", ""),
|
||||
fields.get("analysis_text", ""),
|
||||
row.get("concept_tag", ""),
|
||||
row.get("headline_holding", ""),
|
||||
row.get("summary", ""),
|
||||
row.get("analysis_text", ""),
|
||||
]
|
||||
return "\n".join(p for p in parts if p).strip()
|
||||
|
||||
@@ -65,11 +83,254 @@ async def try_autolink(digest_id: UUID | str, underlying_citation: str) -> str |
|
||||
logger.warning("digest try_autolink lookup failed for %r: %s", citation, e)
|
||||
return None
|
||||
if not match:
|
||||
# Gap (INV-DIG3): the underlying ruling isn't in the corpus. Surface it —
|
||||
# never drop silently (INV-CF2). Court verdicts (supreme/admin) get an X13
|
||||
# auto-fetch job; ועדת-ערר / unknown — which נט-המשפט can't serve — get a
|
||||
# missing_precedent the chair sees on /missing-precedents (#136). Never
|
||||
# raises.
|
||||
await _handle_unlinked_citation(digest_id, citation)
|
||||
return None
|
||||
await db.link_digest_to_case_law(digest_id, match["id"])
|
||||
return str(match["id"])
|
||||
|
||||
|
||||
async def _handle_unlinked_citation(digest_id: UUID | str, citation: str) -> None:
|
||||
"""Surface an unlinked digest citation — auto-fetch if possible, else record
|
||||
a missing_precedent. Closes the silent-drop gap (#136, INV-DIG3/CF2).
|
||||
|
||||
Routing via the ONE canonical classifier (``court_citation.classify``):
|
||||
* supreme/admin → ``court_fetch_jobs`` (drained by X13; on fetch failure the
|
||||
orchestrator opens its own missing_precedent, so no double-record here).
|
||||
* skip (ערר/בל"מ) / unknown → ``missing_precedents`` (needs Nevo / manual;
|
||||
נט-המשפט can't serve it). Deduped designator-aware via citation_norm
|
||||
(#143) so re-runs and overlaps don't pile up.
|
||||
"""
|
||||
try:
|
||||
from legal_mcp.services import court_citation
|
||||
cit = court_citation.classify(citation)
|
||||
if cit.tier in ("supreme", "admin"):
|
||||
await db.court_fetch_job_upsert(
|
||||
case_number_norm=cit.case_number_norm,
|
||||
citation_raw=citation,
|
||||
tier=cit.tier,
|
||||
court=cit.court_prefix,
|
||||
digest_id=UUID(str(digest_id)),
|
||||
)
|
||||
logger.info("digest %s: enqueued court-fetch for %r (tier=%s)",
|
||||
digest_id, citation, cit.tier)
|
||||
return
|
||||
# Non-fetchable (ערר/בל"מ/unknown) — open a missing_precedent gap so it's
|
||||
# visible and actionable instead of vanishing. Dedup first (#143).
|
||||
if await db.find_missing_precedent_by_citation(citation):
|
||||
return
|
||||
digest = await db.get_digest(digest_id)
|
||||
yomon = (digest or {}).get("yomon_number") or ""
|
||||
note = (f"זוהה דרך יומון מס' {yomon} (digest_id={digest_id})" if yomon
|
||||
else f"זוהה דרך יומון (digest_id={digest_id})")
|
||||
await db.create_missing_precedent(
|
||||
citation=citation,
|
||||
discovery_source="digest",
|
||||
notes=note,
|
||||
)
|
||||
logger.info("digest %s: opened missing_precedent for %r (tier=%s)",
|
||||
digest_id, citation, cit.tier)
|
||||
except Exception as e: # never break digest ingest
|
||||
logger.warning("digest unlinked-citation handling failed for %r: %s",
|
||||
citation, e)
|
||||
|
||||
|
||||
# ── Container-safe creation (web upload) — no LLM, no embedding ──────
|
||||
|
||||
async def create_pending_digest(
|
||||
*,
|
||||
file_path: str | Path,
|
||||
yomon_number: str = "",
|
||||
digest_date: date | str | None = None,
|
||||
practice_area: str = "",
|
||||
appeal_subtype: str = "",
|
||||
subject_tags: list[str] | None = None,
|
||||
progress: ProgressCb | None = None,
|
||||
) -> dict:
|
||||
"""Stage the file, extract text (PyMuPDF — container-safe), and create a
|
||||
digest row with extraction_status='pending'. The LLM metadata extraction,
|
||||
embedding, and autolink are deferred to ``process_pending_digests`` (local).
|
||||
|
||||
Returns {status, digest_id, extraction_status} or {status:'exists', ...}.
|
||||
Idempotent on content_hash (INV-G3).
|
||||
"""
|
||||
progress = progress or _noop_progress
|
||||
if practice_area and practice_area not in _VALID_PRACTICE_AREAS:
|
||||
raise ValueError(f"invalid practice_area: {practice_area!r}")
|
||||
src = Path(file_path)
|
||||
if not src.exists():
|
||||
raise ValueError(f"file not found: {file_path}")
|
||||
|
||||
await progress("staging", 10, "מעתיק קובץ")
|
||||
# ``_stage_file`` returns the storage KEY (DATA_DIR-relative path). Resolve a
|
||||
# real local path to read from — on s3-only this downloads to a temp file we
|
||||
# own and remove after extraction (INV-STG1; the key is not guaranteed to be
|
||||
# on local disk).
|
||||
rel_path = await ingest._stage_file(src, DIGEST_LIBRARY_DIR, "incoming")
|
||||
local = await storage.ensure_local(rel_path, bucket=storage.Bucket.DOCUMENTS)
|
||||
local_is_tmp = storage.local_path(rel_path, bucket=storage.Bucket.DOCUMENTS) is None
|
||||
|
||||
await progress("extracting_text", 50, "מחלץ טקסט")
|
||||
try:
|
||||
raw_text, _pc, _off = await extractor.extract_text(str(local))
|
||||
finally:
|
||||
if local_is_tmp:
|
||||
try:
|
||||
local.unlink(missing_ok=True)
|
||||
except OSError as e: # noqa: BLE001 — temp cleanup, never fatal
|
||||
logger.debug("could not remove temp digest file %s: %s", local, e)
|
||||
raw_text = (raw_text or "").strip()
|
||||
if not raw_text:
|
||||
raise ValueError("no text extracted from digest")
|
||||
|
||||
content_hash = db._content_hash(raw_text)
|
||||
existing = await db.get_digest_by_content_hash(content_hash)
|
||||
if existing:
|
||||
await progress("completed", 100, "יומון זהה כבר קיים")
|
||||
return {"status": "exists", "digest_id": existing["id"],
|
||||
"extraction_status": existing.get("extraction_status")}
|
||||
|
||||
record = await db.create_digest(
|
||||
analysis_text=raw_text,
|
||||
yomon_number=yomon_number.strip(),
|
||||
digest_date=_coerce_date(digest_date),
|
||||
practice_area=practice_area,
|
||||
appeal_subtype=appeal_subtype.strip(),
|
||||
subject_tags=list(subject_tags) if subject_tags else [],
|
||||
source_document_path=rel_path,
|
||||
extraction_status="pending",
|
||||
)
|
||||
await progress("queued", 100, "ממתין לעיבוד מקומי (LLM)")
|
||||
return {"status": "pending", "digest_id": record["id"],
|
||||
"extraction_status": "pending"}
|
||||
|
||||
|
||||
# ── Local enrichment core (LLM + embed + autolink) ──────────────────
|
||||
|
||||
async def enrich_digest(digest_id: UUID | str, progress: ProgressCb | None = None) -> dict:
|
||||
"""Run LLM metadata extraction over a digest's analysis_text, fill ONLY
|
||||
empty fields (preserve user-supplied values), embed, autolink, complete.
|
||||
|
||||
**MCP-tool-only path** (uses the local LLM extractor). Idempotent.
|
||||
"""
|
||||
progress = progress or _noop_progress
|
||||
row = await db.get_digest(digest_id)
|
||||
if not row:
|
||||
raise ValueError("digest not found")
|
||||
analysis = (row.get("analysis_text") or "").strip()
|
||||
if not analysis:
|
||||
await db.update_digest(digest_id, extraction_status="failed")
|
||||
return {"status": "no_text", "digest_id": str(digest_id)}
|
||||
|
||||
await db.update_digest(digest_id, extraction_status="processing")
|
||||
await progress("extracting_metadata", 40, "מחלץ מטא-דאטה (LLM)")
|
||||
from legal_mcp.services import digest_metadata_extractor
|
||||
extracted = await digest_metadata_extractor.extract(analysis)
|
||||
|
||||
# Fill only empty fields (preserve user-supplied values from the form).
|
||||
fields: dict = {}
|
||||
for key in ("yomon_number", "concept_tag", "headline_holding", "summary",
|
||||
"underlying_citation", "underlying_court", "underlying_judge",
|
||||
"practice_area", "appeal_subtype"):
|
||||
if not (row.get(key) or "").strip() and extracted.get(key):
|
||||
fields[key] = extracted[key]
|
||||
if row.get("digest_date") is None and extracted.get("digest_date"):
|
||||
fields["digest_date"] = extracted["digest_date"]
|
||||
if row.get("underlying_date") is None and extracted.get("underlying_date"):
|
||||
fields["underlying_date"] = extracted["underlying_date"]
|
||||
if not (row.get("subject_tags") or []) and extracted.get("subject_tags"):
|
||||
fields["subject_tags"] = extracted["subject_tags"]
|
||||
# digest_kind classifies the issue (decision vs announcement). A successful
|
||||
# extraction (any field returned) must end with a non-empty kind — that is the
|
||||
# signal the drain self-heal uses to tell "enriched" from "failed". If the
|
||||
# model omitted it, infer: a ruling citation → decision, else announcement.
|
||||
if extracted and not (row.get("digest_kind") or "").strip():
|
||||
kind = extracted.get("digest_kind")
|
||||
if kind not in ("decision", "announcement", "other"):
|
||||
cite = fields.get("underlying_citation") or row.get("underlying_citation") or ""
|
||||
kind = "decision" if cite.strip() else "announcement"
|
||||
fields["digest_kind"] = kind
|
||||
|
||||
if fields:
|
||||
try:
|
||||
await db.update_digest(digest_id, **fields)
|
||||
except Exception as e:
|
||||
# The same yomon issue can arrive as two different PDFs (re-sent /
|
||||
# forwarded twice → different bytes → content_hash dedup misses it),
|
||||
# but the yomon_number is unique. The extracted number then collides
|
||||
# on uq_digests_yomon_number. This row is a duplicate of an already-
|
||||
# ingested yomon → drop it so it isn't retried forever by the cron.
|
||||
if "uq_digests_yomon_number" in str(e):
|
||||
await db.delete_digest(digest_id)
|
||||
logger.info(
|
||||
"digest %s is a duplicate yomon (%s) — deleted",
|
||||
digest_id, fields.get("yomon_number"),
|
||||
)
|
||||
return {"status": "duplicate", "digest_id": str(digest_id),
|
||||
"yomon_number": fields.get("yomon_number")}
|
||||
raise
|
||||
merged = await db.get_digest(digest_id)
|
||||
|
||||
await progress("embedding", 75, "מחשב embedding")
|
||||
emb_text = _embedding_text(merged)
|
||||
if emb_text:
|
||||
try:
|
||||
vecs = await embeddings.embed_texts([emb_text], input_type="document")
|
||||
if vecs:
|
||||
await db.store_digest_embedding(digest_id, vecs[0])
|
||||
except Exception as e: # surfaced, not swallowed (§6)
|
||||
logger.warning("digest embedding failed for %s: %s", digest_id, e)
|
||||
|
||||
await progress("linking", 90, "מנסה לקשר לפסק המקורי")
|
||||
linked_id = None
|
||||
if not merged.get("linked_case_law_id"):
|
||||
linked_id = await try_autolink(digest_id, merged.get("underlying_citation", ""))
|
||||
|
||||
await db.update_digest(digest_id, extraction_status="completed")
|
||||
await progress("completed", 100, "הושלם")
|
||||
return {
|
||||
"status": "completed",
|
||||
"digest_id": str(digest_id),
|
||||
"yomon_number": merged.get("yomon_number", ""),
|
||||
"underlying_citation": merged.get("underlying_citation", ""),
|
||||
"linked_case_law_id": merged.get("linked_case_law_id") or linked_id,
|
||||
"fields_filled": sorted(fields.keys()),
|
||||
}
|
||||
|
||||
|
||||
async def process_pending_digests(limit: int = 20) -> dict:
|
||||
"""Drain the digest extraction queue (rows stamped extraction_status='pending'
|
||||
by the web upload). Local/MCP only — runs the LLM enrichment per row.
|
||||
Sequential (avoids LLM rate-limit storms), mirrors process_pending_extractions."""
|
||||
pending = await db.list_pending_digests(limit=limit)
|
||||
if not pending:
|
||||
return {"status": "no_pending", "processed": 0, "results": []}
|
||||
results = []
|
||||
processed = 0
|
||||
for row in pending:
|
||||
did = row["id"]
|
||||
try:
|
||||
res = await enrich_digest(did)
|
||||
processed += 1
|
||||
results.append({"digest_id": str(did), "status": res.get("status"),
|
||||
"linked": bool(res.get("linked_case_law_id"))})
|
||||
except Exception as e:
|
||||
logger.exception("process_pending_digests failed for %s: %s", did, e)
|
||||
try:
|
||||
await db.update_digest(did, extraction_status="failed")
|
||||
except Exception:
|
||||
logger.exception("could not mark digest %s failed", did)
|
||||
results.append({"digest_id": str(did), "status": "failed", "error": str(e)})
|
||||
return {"status": "completed", "processed": processed,
|
||||
"total_pending": len(pending), "results": results}
|
||||
|
||||
|
||||
# ── Full synchronous ingest (local/MCP, e.g. batch script) ──────────
|
||||
|
||||
async def ingest_digest(
|
||||
*,
|
||||
file_path: str | Path,
|
||||
@@ -80,109 +341,25 @@ async def ingest_digest(
|
||||
subject_tags: list[str] | None = None,
|
||||
progress: ProgressCb | None = None,
|
||||
) -> dict:
|
||||
"""Ingest one digest. **MCP-tool-only** (uses the local LLM extractor).
|
||||
"""Ingest one digest synchronously. **MCP-tool-only** (uses the LLM).
|
||||
|
||||
User-supplied args win over LLM-extracted values for the same field
|
||||
(the chair typed them deliberately); empty args are filled from the LLM.
|
||||
Idempotent on yomon_number / content_hash (INV-G3).
|
||||
Creates the row (with any user-supplied values) then enriches in place.
|
||||
Idempotent on content_hash (INV-G3).
|
||||
"""
|
||||
progress = progress or _noop_progress
|
||||
if practice_area and practice_area not in _VALID_PRACTICE_AREAS:
|
||||
raise ValueError(f"invalid practice_area: {practice_area!r}")
|
||||
created = await create_pending_digest(
|
||||
file_path=file_path, yomon_number=yomon_number, digest_date=digest_date,
|
||||
practice_area=practice_area, appeal_subtype=appeal_subtype,
|
||||
subject_tags=subject_tags, progress=progress,
|
||||
)
|
||||
if created.get("status") == "exists":
|
||||
return created
|
||||
digest_id = created["digest_id"]
|
||||
enriched = await enrich_digest(digest_id, progress=progress)
|
||||
return enriched
|
||||
|
||||
src = Path(file_path)
|
||||
if not src.exists():
|
||||
raise ValueError(f"file not found: {file_path}")
|
||||
|
||||
await progress("staging", 5, "מעתיק קובץ")
|
||||
staged = ingest._stage_file(src, DIGEST_LIBRARY_DIR, "incoming")
|
||||
rel_path = str(staged.relative_to(config.DATA_DIR)) \
|
||||
if str(staged).startswith(str(config.DATA_DIR)) else str(staged)
|
||||
|
||||
await progress("extracting_text", 20, "מחלץ טקסט")
|
||||
raw_text, _page_count, _offsets = await extractor.extract_text(str(staged))
|
||||
raw_text = (raw_text or "").strip()
|
||||
if not raw_text:
|
||||
raise ValueError("no text extracted from digest")
|
||||
|
||||
# Idempotency: identical text already ingested → return existing row.
|
||||
content_hash = db._content_hash(raw_text)
|
||||
existing = await db.get_digest_by_content_hash(content_hash)
|
||||
if existing:
|
||||
await progress("completed", 100, "יומון זהה כבר קיים — לא נוצר כפל")
|
||||
return {
|
||||
"status": "exists",
|
||||
"digest_id": existing["id"],
|
||||
"yomon_number": existing.get("yomon_number", ""),
|
||||
"linked_case_law_id": existing.get("linked_case_law_id"),
|
||||
}
|
||||
|
||||
# LLM metadata extraction (lazy import — keeps this module container-safe).
|
||||
await progress("extracting_metadata", 45, "מחלץ מטא-דאטה (LLM)")
|
||||
from legal_mcp.services import digest_metadata_extractor
|
||||
extracted = await digest_metadata_extractor.extract(raw_text)
|
||||
|
||||
def _coerce_date(v) -> date | None:
|
||||
if v is None or v == "":
|
||||
return None
|
||||
if isinstance(v, date):
|
||||
return v
|
||||
if isinstance(v, str):
|
||||
try:
|
||||
return date.fromisoformat(v[:10])
|
||||
except ValueError:
|
||||
return None
|
||||
return None
|
||||
|
||||
# Merge: explicit user args win; otherwise fall back to LLM extraction.
|
||||
fields = {
|
||||
"analysis_text": raw_text,
|
||||
"yomon_number": yomon_number.strip() or extracted.get("yomon_number", ""),
|
||||
"digest_date": _coerce_date(digest_date) or extracted.get("digest_date"),
|
||||
"concept_tag": extracted.get("concept_tag", ""),
|
||||
"headline_holding": extracted.get("headline_holding", ""),
|
||||
"summary": extracted.get("summary", ""),
|
||||
"underlying_citation": extracted.get("underlying_citation", ""),
|
||||
"underlying_court": extracted.get("underlying_court", ""),
|
||||
"underlying_date": extracted.get("underlying_date"),
|
||||
"underlying_judge": extracted.get("underlying_judge", ""),
|
||||
"practice_area": practice_area or extracted.get("practice_area", ""),
|
||||
"appeal_subtype": appeal_subtype.strip() or extracted.get("appeal_subtype", ""),
|
||||
"subject_tags": list(subject_tags) if subject_tags else extracted.get("subject_tags", []),
|
||||
"source_document_path": rel_path,
|
||||
"extraction_status": "processing",
|
||||
}
|
||||
|
||||
await progress("storing", 70, "שומר רשומה")
|
||||
record = await db.create_digest(**fields)
|
||||
digest_id = record["id"]
|
||||
|
||||
# Single embedding for the whole digest (atomic discovery unit — X12 §6).
|
||||
await progress("embedding", 85, "מחשב embedding")
|
||||
emb_text = _embedding_text(fields)
|
||||
if emb_text:
|
||||
try:
|
||||
vecs = await embeddings.embed_texts([emb_text], input_type="document")
|
||||
if vecs:
|
||||
await db.store_digest_embedding(digest_id, vecs[0])
|
||||
except Exception as e: # surfaced, not swallowed (§6)
|
||||
logger.warning("digest embedding failed for %s: %s", digest_id, e)
|
||||
|
||||
# Bridge to the underlying ruling if it is already in the library (INV-DIG3).
|
||||
await progress("linking", 95, "מנסה לקשר לפסק המקורי")
|
||||
linked_id = await try_autolink(digest_id, fields["underlying_citation"])
|
||||
|
||||
await db.update_digest(digest_id, extraction_status="completed")
|
||||
await progress("completed", 100, "הושלם")
|
||||
return {
|
||||
"status": "completed",
|
||||
"digest_id": digest_id,
|
||||
"yomon_number": fields["yomon_number"],
|
||||
"underlying_citation": fields["underlying_citation"],
|
||||
"linked_case_law_id": linked_id,
|
||||
"fields_extracted": sorted(extracted.keys()),
|
||||
}
|
||||
|
||||
# ── Linking (INV-DIG3) ──────────────────────────────────────────────
|
||||
|
||||
async def link_digest(digest_id: UUID | str, case_law_id: UUID | str) -> dict:
|
||||
"""Manually link a digest to an underlying ruling (INV-DIG3). Idempotent."""
|
||||
@@ -205,8 +382,7 @@ async def link_digest(digest_id: UUID | str, case_law_id: UUID | str) -> dict:
|
||||
|
||||
|
||||
async def relink_digest(digest_id: UUID | str) -> dict:
|
||||
"""Re-run autolink for a digest whose underlying ruling may now be in the
|
||||
library. No-op if already linked or no match found."""
|
||||
"""Re-run autolink for an unlinked digest. No-op if already linked / no match."""
|
||||
digest = await db.get_digest(digest_id)
|
||||
if not digest:
|
||||
raise ValueError("digest not found")
|
||||
@@ -222,6 +398,16 @@ async def relink_digest(digest_id: UUID | str) -> dict:
|
||||
}
|
||||
|
||||
|
||||
async def unlink_digest(digest_id: UUID | str) -> dict:
|
||||
"""Clear a digest's link to the underlying ruling."""
|
||||
updated = await db.link_digest_to_case_law(digest_id, None)
|
||||
if updated is None:
|
||||
raise ValueError("digest not found")
|
||||
return {"unlinked": True, "digest_id": str(digest_id)}
|
||||
|
||||
|
||||
# ── Read / search (container-safe: DB + voyage) ─────────────────────
|
||||
|
||||
async def search_digests(
|
||||
query: str,
|
||||
practice_area: str = "",
|
||||
@@ -251,18 +437,19 @@ async def list_digests(
|
||||
concept_tag: str = "",
|
||||
linked: bool | None = None,
|
||||
search: str = "",
|
||||
publication: str = "",
|
||||
limit: int = 100,
|
||||
offset: int = 0,
|
||||
) -> list[dict]:
|
||||
return await db.list_digests(
|
||||
practice_area=practice_area,
|
||||
concept_tag=concept_tag,
|
||||
linked=linked,
|
||||
search=search,
|
||||
limit=limit,
|
||||
offset=offset,
|
||||
practice_area=practice_area, concept_tag=concept_tag, linked=linked,
|
||||
search=search, publication=publication, limit=limit, offset=offset,
|
||||
)
|
||||
|
||||
|
||||
async def update_digest(digest_id: UUID | str, **fields) -> dict | None:
|
||||
return await db.update_digest(digest_id, **fields)
|
||||
|
||||
|
||||
async def delete_digest(digest_id: UUID | str) -> bool:
|
||||
return await db.delete_digest(digest_id)
|
||||
|
||||
@@ -19,6 +19,7 @@ from __future__ import annotations
|
||||
import logging
|
||||
from datetime import date as date_type
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.config import parse_llm_json
|
||||
from legal_mcp.services import claude_session
|
||||
|
||||
@@ -32,7 +33,7 @@ _VALID_PRACTICE_AREAS = {"", "rishuy_uvniya", "betterment_levy", "compensation_1
|
||||
# below contains '{' / '}' which str.format would treat as placeholders and
|
||||
# crash (same trap documented in precedent_metadata_extractor).
|
||||
DIGEST_EXTRACTION_PROMPT = """אתה מסייע משפטי בכיר. לפניך "יומון" — סיכום עמוד-אחד של משרד עפר טויסטר (עלון "כל יום")
|
||||
על פסק דין/החלטה אחת בתחום תכנון ובנייה / היטל השבחה / פיצויים (ס' 197). חלץ ממנו מטא-דאטה לקטלוג.
|
||||
על **החלטה/פסק דין** אחד, או על **עדכון/הודעה** (חקיקה, נוהל, הודעת-תכנון, ברכת-שנה) בתחום תכנון ובנייה / היטל השבחה / פיצויים (ס' 197). חלץ ממנו מטא-דאטה לקטלוג.
|
||||
|
||||
**אל תמציא** — שדה שלא מופיע בטקסט → השאר ריק (מחרוזת ריקה / מערך ריק).
|
||||
|
||||
@@ -40,12 +41,13 @@ DIGEST_EXTRACTION_PROMPT = """אתה מסייע משפטי בכיר. לפניך
|
||||
החזר JSON אחד (object — לא array), ללא markdown וללא הסברים:
|
||||
|
||||
{
|
||||
"digest_kind": "סווג את הגיליון: 'decision' = סיכום פסק דין/החלטה (יש מראה-מקום בתחתית) · 'announcement' = עדכון/הודעה ללא הכרעה (חקיקה, נוהל, הודעת-תכנון, ברכה) · 'other' = אחר. **חובה למלא תמיד.**",
|
||||
"yomon_number": "מספר היומון מהכותרת ('יומון מס' 5163' → '5163'). ספרות בלבד. אם אין — ריק.",
|
||||
"digest_date_iso": "YYYY-MM-DD — תאריך גיליון היומון (בכותרת, למשל '7 ביוני 2026' → '2026-06-07').",
|
||||
"concept_tag": "תג-המושג שבמרכאות בראש העמוד (למשל 'שיקול הדעת המצומצם', 'Cherry-picking'). ביטוי קצר אחד.",
|
||||
"headline_holding": "כותרת-ההלכה המודגשת מתחת לתג — משפט אחד שמסכם מה נקבע (למשל 'ביהמ\\"ש - שיקול דעת הוועדה המחוזית אינו מצומצם לטעות חמורה').",
|
||||
"summary": "תקציר ניטרלי 2-3 משפטים בגוף שלישי: מה הייתה השאלה ומה הוכרע. בלי שיפוט.",
|
||||
"underlying_citation": "מראה-המקום של פסק הדין/ההחלטה המקורי, כפי שמופיע בתחתית היומון, מילה במילה (למשל 'עת\\"מ 46111-12-22 יכין-אפק בע\\"מ נ' הוועדה המחוזית'). זהו השדה הקריטי — חלץ אותו במלואו ובדיוק.",
|
||||
"concept_tag": "תג-המושג/הכותרת בראש העמוד (למשל 'שיקול הדעת המצומצם', 'Cherry-picking', או 'עדכונים לשנה החדשה' בעדכון). ביטוי קצר אחד. **חלץ תמיד — קיים לכל סוג גיליון.**",
|
||||
"headline_holding": "הכותרת המודגשת מתחת לתג — משפט אחד שמסכם את עיקר הגיליון (מה נקבע בהחלטה, או נושא העדכון). **חלץ תמיד.**",
|
||||
"summary": "תקציר ניטרלי 2-3 משפטים בגוף שלישי: בהחלטה — מה הייתה השאלה ומה הוכרע; בעדכון — מה תוכן/משמעות העדכון. בלי שיפוט. **חלץ תמיד.**",
|
||||
"underlying_citation": "**רק ל-decision** — מראה-המקום של פסק הדין/ההחלטה המקורי, כפי שמופיע בתחתית היומון, מילה במילה (למשל 'עת\\"מ 46111-12-22 יכין-אפק בע\\"מ נ' הוועדה המחוזית'). בעדכון/הודעה — ריק. זהו השדה הקריטי ל-decision — חלץ אותו במלואו ובדיוק.",
|
||||
"underlying_court": "הערכאה שנתנה את פסק הדין המקורי (למשל 'בית המשפט לעניינים מנהליים מרכז-לוד', 'ועדת הערר מחוז ירושלים').",
|
||||
"underlying_date_iso": "YYYY-MM-DD — תאריך מתן פסק הדין/ההחלטה המקורי (לרוב 'ניתן ביום DD.M.YY' בתחתית). שים לב: זה שונה מתאריך גיליון היומון!",
|
||||
"underlying_judge": "שם השופט/ת או יו\\"ר ההרכב שנתן את פסק הדין המקורי (למשל 'יעל טויסטר ישראלי'). בלי תארים ('עו\\"ד', 'כב' השופט').",
|
||||
@@ -55,11 +57,12 @@ DIGEST_EXTRACTION_PROMPT = """אתה מסייע משפטי בכיר. לפניך
|
||||
}
|
||||
|
||||
## כללי איכות
|
||||
1. **underlying_citation** — השדה החשוב ביותר; הוא הגשר לפסק הדין המקורי. חלץ מההערות/התחתית, מילה במילה.
|
||||
2. **הבחן בין שני התאריכים**: digest_date_iso = תאריך גיליון היומון (בכותרת); underlying_date_iso = מועד מתן פסק הדין (בתחתית, 'ניתן ביום...'). אל תבלבל.
|
||||
3. **summary** — ניטרלי, גוף שלישי, בלי מילות שיפוט.
|
||||
4. **subject_tags** — snake_case, תחום ועדת ערר תכנון ובנייה בלבד.
|
||||
5. אם רכיב לא מופיע בבירור — השאר את אותו שדה ריק. אל תנחש.
|
||||
1. **digest_kind** — חובה. אם יש מראה-מקום של פסק דין/החלטה בתחתית → 'decision'. אם זה עדכון/הודעה/נוהל/ברכה ללא הכרעה → 'announcement'.
|
||||
2. **concept_tag / headline_holding / summary** — חלץ **תמיד**, לכל סוג גיליון (גם עדכון). אלה לא ייחודיים להחלטות.
|
||||
3. **underlying_citation** — רק ל-decision; הוא הגשר לפסק הדין. בעדכון — השאר ריק (זה תקין, לא חוסר).
|
||||
4. **הבחן בין שני התאריכים**: digest_date_iso = תאריך גיליון היומון (בכותרת); underlying_date_iso = מועד מתן פסק הדין (בתחתית, 'ניתן ביום...'). אל תבלבל.
|
||||
5. **subject_tags** — snake_case, תחום ועדת ערר תכנון ובנייה בלבד.
|
||||
6. אם רכיב לא מופיע בבירור — השאר את אותו שדה ריק. אל תנחש.
|
||||
"""
|
||||
|
||||
|
||||
@@ -79,13 +82,17 @@ def _norm_date(result: dict, key: str) -> date_type | None:
|
||||
return None
|
||||
|
||||
|
||||
async def extract(raw_text: str) -> dict:
|
||||
async def extract(raw_text: str, model: str | None = None) -> dict:
|
||||
"""Extract digest metadata from raw text. Returns a dict (never raises).
|
||||
|
||||
Keys: yomon_number, digest_date (date|None), concept_tag, headline_holding,
|
||||
summary, underlying_citation, underlying_court, underlying_date (date|None),
|
||||
underlying_judge, practice_area, appeal_subtype, subject_tags (list[str]).
|
||||
Missing/invalid fields are omitted so the caller's merge keeps user values.
|
||||
|
||||
Model: defaults to ``config.DIGEST_EXTRACT_MODEL`` (Sonnet — this is a
|
||||
high-volume, simple extraction; no need for Opus). Override per-call via
|
||||
``model``.
|
||||
"""
|
||||
text = (raw_text or "").strip()
|
||||
if not text:
|
||||
@@ -95,6 +102,9 @@ async def extract(raw_text: str) -> dict:
|
||||
try:
|
||||
result = await claude_session.query_json(
|
||||
user_msg, system=DIGEST_EXTRACTION_PROMPT,
|
||||
model=(model or config.DIGEST_EXTRACT_MODEL or None),
|
||||
tools="", # pure text→JSON: disable tools so the model never emits
|
||||
# stop_reason=tool_use and trips --max-turns (error_max_turns).
|
||||
)
|
||||
except Exception as e: # surfaced as warning, not swallowed silently (§6)
|
||||
logger.warning("digest_metadata_extractor: query failed: %s", e)
|
||||
@@ -117,6 +127,10 @@ async def extract(raw_text: str) -> dict:
|
||||
if s:
|
||||
out[key] = s
|
||||
|
||||
kind = _norm_str(result, "digest_kind").lower()
|
||||
if kind in ("decision", "announcement", "other"):
|
||||
out["digest_kind"] = kind
|
||||
|
||||
dd = _norm_date(result, "digest_date_iso")
|
||||
if dd is not None:
|
||||
out["digest_date"] = dd
|
||||
|
||||
@@ -5,6 +5,7 @@
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import io
|
||||
import logging
|
||||
import re
|
||||
from datetime import date
|
||||
@@ -17,7 +18,7 @@ from docx.oxml import OxmlElement
|
||||
from docx.oxml.ns import qn
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import db
|
||||
from legal_mcp.services import db, storage
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
@@ -474,8 +475,19 @@ async def export_decision(
|
||||
pass
|
||||
output_path = str(export_dir / f"{prefix}-v{next_ver}.docx")
|
||||
|
||||
Path(output_path).parent.mkdir(parents=True, exist_ok=True)
|
||||
doc.save(output_path)
|
||||
# Persist through the storage layer (INV-STG1). Under the filesystem
|
||||
# backend the bytes land at output_path exactly as before; a caller-
|
||||
# provided path outside DATA_DIR falls back to a direct disk write.
|
||||
buf = io.BytesIO()
|
||||
doc.save(buf)
|
||||
data = buf.getvalue()
|
||||
_docx_ctype = "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
|
||||
try:
|
||||
key = Path(output_path).resolve().relative_to(Path(config.DATA_DIR).resolve()).as_posix()
|
||||
await storage.put_bytes(key, data, bucket=storage.Bucket.DOCUMENTS, content_type=_docx_ctype)
|
||||
except ValueError:
|
||||
Path(output_path).parent.mkdir(parents=True, exist_ok=True)
|
||||
Path(output_path).write_bytes(data) # noqa: STG1 — storage fallback (output_path outside DATA_DIR)
|
||||
logger.info("DOCX exported (mode=%s): %s", mode, output_path)
|
||||
return output_path
|
||||
|
||||
|
||||
@@ -14,6 +14,9 @@ from __future__ import annotations
|
||||
import logging
|
||||
import re
|
||||
import shutil
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import storage
|
||||
import zipfile
|
||||
from io import BytesIO
|
||||
from pathlib import Path
|
||||
@@ -304,10 +307,17 @@ def retrofit_bookmarks(
|
||||
end_idx = len(paragraphs) - 1
|
||||
ranges.append((name, start_idx, max(start_idx, end_idx)))
|
||||
|
||||
# Backup if overwriting in place
|
||||
# Backup if overwriting in place — through the storage layer (INV-STG1).
|
||||
if backup and output_path.resolve() == docx_path.resolve():
|
||||
backup_path = docx_path.with_suffix(".pre-retrofit.docx")
|
||||
shutil.copy2(str(docx_path), str(backup_path))
|
||||
try:
|
||||
_bkey = backup_path.resolve().relative_to(
|
||||
Path(config.DATA_DIR).resolve()).as_posix()
|
||||
storage.put_file_sync(
|
||||
docx_path, _bkey, bucket=storage.Bucket.DOCUMENTS,
|
||||
content_type="application/vnd.openxmlformats-officedocument.wordprocessingml.document")
|
||||
except ValueError:
|
||||
shutil.copy2(str(docx_path), str(backup_path)) # noqa: STG1 — storage fallback
|
||||
|
||||
# Inject bookmarks, skipping any that already exist
|
||||
next_id = _next_bookmark_id(doc_tree)
|
||||
|
||||
@@ -13,6 +13,9 @@ from __future__ import annotations
|
||||
|
||||
import logging
|
||||
import shutil
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import storage
|
||||
import zipfile
|
||||
from dataclasses import dataclass, field
|
||||
from datetime import datetime, timezone
|
||||
@@ -98,6 +101,22 @@ def _load_docx_xml(docx_path: Path) -> tuple[dict[str, bytes], etree._Element, e
|
||||
return members, document_tree, settings_tree
|
||||
|
||||
|
||||
_DOCX_CTYPE = "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
|
||||
|
||||
|
||||
def _persist_docx_sync(output_path: Path, data: bytes) -> None:
|
||||
"""Persist DOCX bytes through the storage layer (INV-STG1); fall back to a
|
||||
direct disk write when output_path is outside DATA_DIR (caller-provided)."""
|
||||
out = Path(output_path)
|
||||
try:
|
||||
key = out.resolve().relative_to(Path(config.DATA_DIR).resolve()).as_posix()
|
||||
storage.put_bytes_sync(key, data, bucket=storage.Bucket.DOCUMENTS,
|
||||
content_type=_DOCX_CTYPE)
|
||||
except ValueError:
|
||||
out.parent.mkdir(parents=True, exist_ok=True)
|
||||
out.write_bytes(data) # noqa: STG1 — storage fallback
|
||||
|
||||
|
||||
def _save_docx_xml(
|
||||
members: dict[str, bytes],
|
||||
document_tree: etree._Element,
|
||||
@@ -113,12 +132,11 @@ def _save_docx_xml(
|
||||
settings_tree, xml_declaration=True, encoding="UTF-8", standalone=True
|
||||
)
|
||||
|
||||
output_path.parent.mkdir(parents=True, exist_ok=True)
|
||||
buffer = BytesIO()
|
||||
with zipfile.ZipFile(buffer, "w", zipfile.ZIP_DEFLATED) as zf:
|
||||
for name, data in members.items():
|
||||
zf.writestr(name, data)
|
||||
output_path.write_bytes(buffer.getvalue())
|
||||
_persist_docx_sync(output_path, buffer.getvalue())
|
||||
|
||||
|
||||
def _ensure_track_revisions(settings_tree: etree._Element) -> None:
|
||||
@@ -511,4 +529,11 @@ def copy_with_revisions(
|
||||
source_path: str | Path, output_path: str | Path,
|
||||
) -> None:
|
||||
"""Copy source → output unchanged (used when revisions list is empty)."""
|
||||
shutil.copy2(str(source_path), str(output_path))
|
||||
out = Path(output_path)
|
||||
try:
|
||||
key = out.resolve().relative_to(Path(config.DATA_DIR).resolve()).as_posix()
|
||||
storage.put_file_sync(source_path, key, bucket=storage.Bucket.DOCUMENTS,
|
||||
content_type=_DOCX_CTYPE)
|
||||
except ValueError:
|
||||
out.parent.mkdir(parents=True, exist_ok=True)
|
||||
shutil.copy2(str(source_path), str(out)) # noqa: STG1 — storage fallback
|
||||
|
||||
@@ -23,6 +23,7 @@ from docx import Document as DocxDocument
|
||||
from striprtf.striprtf import rtf_to_text
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import storage
|
||||
|
||||
if TYPE_CHECKING:
|
||||
from google.cloud import vision
|
||||
@@ -345,7 +346,19 @@ def render_pages_for_multimodal(
|
||||
max(1, int(img.height * ratio)),
|
||||
)
|
||||
thumb = img.resize(thumb_size, Image.Resampling.LANCZOS)
|
||||
thumb.save(thumb_path, "JPEG", quality=75, optimize=True)
|
||||
# Persist the thumbnail (a DERIVED, regenerable artifact)
|
||||
# through the storage layer (INV-STG1). Under the filesystem
|
||||
# backend it lands at thumb_path exactly as before.
|
||||
_tbuf = io.BytesIO()
|
||||
thumb.save(_tbuf, "JPEG", quality=75, optimize=True)
|
||||
try:
|
||||
_tkey = thumb_path.resolve().relative_to(
|
||||
Path(config.DATA_DIR).resolve()).as_posix()
|
||||
storage.put_bytes_sync(
|
||||
_tkey, _tbuf.getvalue(), bucket=storage.Bucket.DERIVED,
|
||||
content_type="image/jpeg")
|
||||
except ValueError:
|
||||
thumb.save(thumb_path, "JPEG", quality=75, optimize=True)
|
||||
|
||||
out.append((img, thumb_path))
|
||||
finally:
|
||||
|
||||
106
mcp-server/src/legal_mcp/services/gemini_session.py
Normal file
106
mcp-server/src/legal_mcp/services/gemini_session.py
Normal file
@@ -0,0 +1,106 @@
|
||||
"""Gemini structured-output helper — a drop-in for ``claude_session.query_json``
|
||||
for BOUNDED extraction tasks (text → JSON).
|
||||
|
||||
Why a second LLM path: metadata extraction is a single structured call (fill
|
||||
case_name/summary/headnote/tags from a verdict's text), not an agentic loop. The
|
||||
``claude -p`` CLI behind ``claude_session`` is agentic — it reaches for tools and
|
||||
hits ``error_max_turns`` on a task that should be one shot — so it was slow and
|
||||
flaky for the precedent metadata queue. Gemini Flash with JSON mode
|
||||
(``responseMimeType: application/json``) is the right tool: one call, schema-
|
||||
clean JSON, fast, and ~$0.10/1M tokens (negligible for this volume).
|
||||
|
||||
Scope: **bounded extraction only** (precedent metadata). The agentic, voice-
|
||||
sensitive work — decision writing, analysis, halacha extraction — stays on
|
||||
``claude_session`` (Daphna's subscription, zero API cost). This is a deliberate
|
||||
per-task provider choice, not a wholesale move off Claude.
|
||||
|
||||
Key: ``GOOGLE_GEMINI_API_KEY`` (the canonical host ~/.env / Infisical name, SoT
|
||||
nautilus:/external-apis/gemini); ``GEMINI_API_KEY`` is also accepted as an alias.
|
||||
Model: ``GEMINI_MODEL`` (default gemini-2.5-flash).
|
||||
Direct REST via httpx — no extra SDK dependency.
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import json
|
||||
import logging
|
||||
import os
|
||||
|
||||
import httpx
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
_BASE = "https://generativelanguage.googleapis.com/v1beta"
|
||||
_DEFAULT_MODEL = os.environ.get("GEMINI_MODEL", "gemini-2.5-flash")
|
||||
_DEFAULT_TIMEOUT = float(os.environ.get("GEMINI_TIMEOUT_S", "120"))
|
||||
|
||||
|
||||
class GeminiError(RuntimeError):
|
||||
"""Gemini API call failed or returned an unexpected shape."""
|
||||
|
||||
|
||||
def _api_key() -> str:
|
||||
# Accept BOTH names: the canonical Infisical / host-~/.env secret is
|
||||
# ``GOOGLE_GEMINI_API_KEY`` (SoT nautilus:/external-apis/gemini), while older
|
||||
# call sites / container envs may export ``GEMINI_API_KEY``. Reading only the
|
||||
# latter silently broke ALL host metadata extraction (the key is present but
|
||||
# under the canonical name). Prefer GEMINI_API_KEY if set, else the SoT name.
|
||||
key = (
|
||||
os.environ.get("GEMINI_API_KEY", "").strip()
|
||||
or os.environ.get("GOOGLE_GEMINI_API_KEY", "").strip()
|
||||
)
|
||||
if not key:
|
||||
raise GeminiError(
|
||||
"GEMINI_API_KEY/GOOGLE_GEMINI_API_KEY אינו מוגדר (host ~/.env / "
|
||||
"Infisical nautilus:/external-apis/gemini)."
|
||||
)
|
||||
return key
|
||||
|
||||
|
||||
async def query_json(
|
||||
prompt: str,
|
||||
timeout: float | int = _DEFAULT_TIMEOUT,
|
||||
*,
|
||||
system: str | None = None,
|
||||
model: str | None = None,
|
||||
# Accepted for drop-in parity with claude_session.query_json; ignored here.
|
||||
effort: str | None = None,
|
||||
tools: str | None = None,
|
||||
) -> dict | list | None:
|
||||
"""Single structured-output call → parsed JSON. Drop-in for
|
||||
``claude_session.query_json``. Raises ``GeminiError`` on failure (the caller
|
||||
treats that like any extraction failure — recorded, never silently wrong).
|
||||
"""
|
||||
model = model or _DEFAULT_MODEL
|
||||
body: dict = {
|
||||
"contents": [{"role": "user", "parts": [{"text": prompt}]}],
|
||||
"generationConfig": {
|
||||
"responseMimeType": "application/json",
|
||||
"temperature": 0,
|
||||
},
|
||||
}
|
||||
if system:
|
||||
body["system_instruction"] = {"parts": [{"text": system}]}
|
||||
|
||||
url = f"{_BASE}/models/{model}:generateContent"
|
||||
try:
|
||||
async with httpx.AsyncClient(timeout=float(timeout)) as client:
|
||||
resp = await client.post(url, params={"key": _api_key()}, json=body)
|
||||
except httpx.HTTPError as e:
|
||||
raise GeminiError(f"Gemini request failed: {e}") from e
|
||||
if resp.status_code != 200:
|
||||
raise GeminiError(f"Gemini HTTP {resp.status_code}: {resp.text[:200]}")
|
||||
|
||||
data = resp.json()
|
||||
# Surface an explicit safety/finish block rather than returning empty.
|
||||
cand = (data.get("candidates") or [{}])[0]
|
||||
if cand.get("finishReason") in ("SAFETY", "RECITATION", "PROHIBITED_CONTENT"):
|
||||
raise GeminiError(f"Gemini blocked output: finishReason={cand['finishReason']}")
|
||||
try:
|
||||
text = cand["content"]["parts"][0]["text"]
|
||||
except (KeyError, IndexError, TypeError) as e:
|
||||
raise GeminiError(f"Gemini unexpected response: {str(data)[:200]}") from e
|
||||
try:
|
||||
return json.loads(text)
|
||||
except json.JSONDecodeError as e:
|
||||
raise GeminiError(f"Gemini returned non-JSON: {text[:200]}") from e
|
||||
@@ -6,8 +6,10 @@ structured list of halachot, validates each one against the source text,
|
||||
embeds the rule statement, and stores everything as ``pending_review`` in
|
||||
the ``halachot`` table.
|
||||
|
||||
All extraction is idempotent — calling ``extract(case_law_id)`` twice
|
||||
deletes prior rows for that precedent first.
|
||||
All extraction is idempotent — calling ``extract(case_law_id, force=True)``
|
||||
twice drops the precedent's un-reviewed rows and re-extracts. Chair-approved /
|
||||
published halachot are PRESERVED across a re-extract (INV-G10); see
|
||||
``db.reset_halacha_extraction``.
|
||||
|
||||
Trust model:
|
||||
Per chair decision, NO halacha is auto-published. Every extracted
|
||||
@@ -24,10 +26,12 @@ import logging
|
||||
import re
|
||||
from uuid import UUID
|
||||
|
||||
import asyncpg
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.config import parse_llm_json
|
||||
from legal_mcp.services import (
|
||||
claude_session, db, embeddings, halacha_quality, proofreader,
|
||||
claude_session, db, embeddings, halacha_quality, panel_extraction, proofreader,
|
||||
)
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
@@ -48,6 +52,34 @@ CHUNK_CONCURRENCY = config.HALACHA_CHUNK_CONCURRENCY
|
||||
# 4-5 overlapping driver processes × CHUNK_CONCURRENCY each → 12-16 concurrent
|
||||
# xhigh `claude -p` procs → load 69 → hard reboot.
|
||||
_HALACHA_EXTRACT_LOCK_KEY = 0x48414C41 # 'HALA'
|
||||
|
||||
# The advisory lock is a SESSION lock held on a dedicated ``lock_conn`` that
|
||||
# sits idle while extraction work runs on OTHER pool connections. A hard crash
|
||||
# ("RuntimeError: Event loop is closed", OOM-kill, container restart) skips the
|
||||
# ``finally`` that unlocks AND skips ``pool.release`` — so the backend stays
|
||||
# alive, idle, holding the lock, and EVERY future extraction gets ``busy``
|
||||
# forever (#142: a leaked lock froze all halacha extraction ~4.5 min on
|
||||
# 2026-06-14 until a manual ``pg_terminate_backend``). Two mechanisms make the
|
||||
# lock self-recovering:
|
||||
# 1. KEEPALIVE — a background task touches ``lock_conn`` every
|
||||
# ``_LOCK_KEEPALIVE_INTERVAL`` s, keeping ``pg_stat_activity.state_change``
|
||||
# fresh. A *live* extraction's lock-holder is therefore never stale; a
|
||||
# crashed one's keepalive dies with the loop, so ``state_change`` freezes.
|
||||
# 2. SELF-HEAL ON ACQUIRE — when ``pg_try_advisory_lock`` fails, we inspect
|
||||
# the current holder; if it is idle AND its ``state_change`` is older than
|
||||
# ``_LOCK_STALE_AFTER`` (≫ keepalive interval) it is a leaked orphan, so we
|
||||
# ``pg_terminate_backend`` it (its session locks release on exit) and retry.
|
||||
# This is why a session lock + keepalive is preferred over ``pg_advisory_xact_lock``
|
||||
# (option ג): an xact lock would force a multi-minute open transaction
|
||||
# (idle-in-transaction bloat) and STILL wouldn't release a live-but-orphaned
|
||||
# connection promptly. ``_LOCK_STALE_AFTER`` is large enough that an in-flight
|
||||
# extraction is never mistaken for an orphan — the box-freeze the lock prevents
|
||||
# must never be re-introduced by killing a live holder.
|
||||
_LOCK_KEEPALIVE_INTERVAL = 30 # seconds between lock-conn keepalive touches
|
||||
_LOCK_STALE_AFTER = 150 # seconds idle ⇒ leaked orphan (5× keepalive)
|
||||
_LOCK_RECLAIM_RETRIES = 10 # poll attempts to re-acquire after terminate
|
||||
_LOCK_RECLAIM_DELAY = 0.2 # seconds between reclaim polls
|
||||
|
||||
CHUNK_RETRY_ATTEMPTS = 1
|
||||
|
||||
# If at least this fraction of chunks crash and the precedent yields zero
|
||||
@@ -62,6 +94,15 @@ EXTRACTION_FAILURE_THRESHOLD = 0.5
|
||||
# never contain holdings, only positions, so we skip them.
|
||||
EXTRACTABLE_SECTIONS = ("legal_analysis", "ruling", "conclusion")
|
||||
|
||||
# Sections confidently classified as NON-reasoning (parties' positions, the
|
||||
# factual background, the opening). The fallback path — taken when the chunker
|
||||
# labeled nothing as an extractable section (non-standard headings → 'other') —
|
||||
# excludes these so facts/arguments are NEVER fed into extraction, while
|
||||
# reasoning that merely landed under 'other' is still reached. Raises precision
|
||||
# on the dominant Facts↔Reasoning confusion class (#81.6; INV-LRN2
|
||||
# quality-at-source; LegalSeg / rhetorical-role labeling).
|
||||
NON_REASONING_SECTIONS = ("facts", "appellant_claims", "respondent_claims", "parties_claims", "intro")
|
||||
|
||||
|
||||
# Two prompts — choose by source's is_binding flag.
|
||||
#
|
||||
@@ -76,8 +117,12 @@ EXTRACTABLE_SECTIONS = ("legal_analysis", "ruling", "conclusion")
|
||||
# wants to be able to cite "another committee reached the same conclusion"
|
||||
# even though it is not binding.
|
||||
#
|
||||
# The schema's rule_type field accepts six values:
|
||||
# binding | interpretive | procedural | obiter | application | persuasive
|
||||
# The prompt branches on is_binding only to choose the EXTRACTION STRATEGY
|
||||
# (what to pull, how to phrase) — NOT the rule_type. rule_type is the rule
|
||||
# ROLE and uses the SAME five values for both sources (INV-DM7):
|
||||
# holding | interpretive | procedural | application | obiter
|
||||
# The authority axis (binding/persuasive) is derived from the source, never
|
||||
# a rule_type value — so the model never classifies it.
|
||||
|
||||
HALACHA_EXTRACTION_PROMPT_BINDING = """אתה משפטן בכיר המתמחה בדיני תכנון ובניה (ועדות ערר, היטל השבחה, פיצויים לפי סעיף 197 לחוק התכנון והבניה). תפקידך: לחלץ הלכות מחייבות מתוך פסק דין/החלטה משפטית של ערכאה עליונה (עליון / מנהלי).
|
||||
|
||||
@@ -101,10 +146,12 @@ HALACHA_EXTRACTION_PROMPT_BINDING = """אתה משפטן בכיר המתמחה
|
||||
|
||||
הלכה אחת יכולה לחול על כמה תחומים — practice_areas הוא array ולא string יחיד.
|
||||
|
||||
## סוגי הלכה (rule_type)
|
||||
- binding — הלכה מחייבת שהוחלה על התיק.
|
||||
- interpretive — פרשנות סעיף חוק/תכנית שאומצה.
|
||||
- procedural — כלל פרוצדורלי (סמכות, מועדים, הליכי שמיעה).
|
||||
## סוג הכלל (rule_type) — מהות הכלל בלבד, לא סמכות-המקור
|
||||
**אל תסווג "מחייב/משכנע"** — דרגת-המחייבות נגזרת אוטומטית מזהות הערכאה. כאן בחר רק את **סוג הכלל**:
|
||||
- holding — עיקרון מהותי שהיה הכרחי להכרעה (ה-ratio; מבחן Wambaugh: שלילתו הייתה משנה את התוצאה).
|
||||
- interpretive — פרשנות הוראת-חוק/מונח/תכנית שאומצה.
|
||||
- procedural — כלל סדר-דין (סמכות, מועדים, זכות-עמידה, מיצוי הליכים, נטל).
|
||||
- application — החלת כלל על עובדות התיק (תלוי-עובדות; לרוב לא-הלכה בת-הכללה).
|
||||
- obiter — אמרת אגב חשובה (חלץ רק אם משמעותית; סמן confidence נמוך).
|
||||
|
||||
## פלט נדרש
|
||||
@@ -112,7 +159,7 @@ HALACHA_EXTRACTION_PROMPT_BINDING = """אתה משפטן בכיר המתמחה
|
||||
[
|
||||
{
|
||||
"rule_statement": "ניסוח הכלל בלשון משפטית מדויקת בגוף שלישי, 1-3 משפטים.",
|
||||
"rule_type": "binding",
|
||||
"rule_type": "holding",
|
||||
"reasoning_summary": "תמצית ההיגיון: למה בית המשפט הגיע לכלל הזה (1-2 משפטים).",
|
||||
"supporting_quote": "ציטוט מילולי מדויק מהפסק התומך בכלל. חייב להופיע מילה במילה בטקסט הקלט.",
|
||||
"page_reference": "פס' 12 / עמ' 8 — ככל שניתן לזהות מהקלט.",
|
||||
@@ -139,11 +186,11 @@ HALACHA_EXTRACTION_PROMPT_PERSUASIVE = """אתה משפטן בכיר המתמח
|
||||
|
||||
המקור הזה **אינו** מקור להלכות מחייבות חדשות (binding rules). הלכות מחייבות מגיעות מהעליון/מנהלי. עם זאת, יש כאן ערך משמעותי שצריך לחלץ — איך הפנל הזה ניתח ויישם את הדין הקיים. כשנכתוב החלטה עתידית, נצטט מהמקור הזה כ"גם ועדת הערר ב-X הגיעה למסקנה דומה" — לא כסמכות מחייבת, אלא כתמיכה משכנעת.
|
||||
|
||||
**יש לחלץ:**
|
||||
**יש לחלץ** (סווג לפי **סוג הכלל** בלבד — אל תסווג "מחייב/משכנע", דרגת-המחייבות נגזרת אוטומטית):
|
||||
- **יישום של הלכה ידועה** (rule_type=`application`) — הפנל החיל הלכה ידועה (של עליון/מנהלי) על עובדות הנידונות. תצטט את ניסוח הכלל **כפי שהוצג כאן** (לא בהכרח כפי שנקבע במקור) ואת התוצאה.
|
||||
- **עקרון פרשני שאומץ** (rule_type=`interpretive`) — איך הפנל פירש סעיף חוק / תכנית, באופן שניתן לאמץ.
|
||||
- **כלל פרוצדורלי** (rule_type=`procedural`) — קביעות בנושאי סמכות, מועדים, הליך.
|
||||
- **מסקנה מנומקת ומשכנעת** (rule_type=`persuasive`) — מסקנה שלמה של הפנל בסוגיה, עם ההיגיון התומך, ניתנת לציטוט כאסמכתא משכנעת.
|
||||
- **מסקנה מהותית מנומקת** (rule_type=`holding`) — מסקנה עקרונית שלמה של הפנל בסוגיה, עם ההיגיון התומך, בת-הכללה ובת-הסתמכות.
|
||||
|
||||
**אין לחלץ:**
|
||||
- ממצאים עובדתיים ספציפיים לתיק או יישום על נסיבות התיק ("העורר לא הוכיח X", "במקרה דנן", שמות צדדים, סכומים קונקרטיים) — חלץ את העיקרון/היישום בניסוח בר-הכללה בלבד.
|
||||
@@ -175,7 +222,7 @@ HALACHA_EXTRACTION_PROMPT_PERSUASIVE = """אתה משפטן בכיר המתמח
|
||||
## כללי איכות
|
||||
1. **נאמנות מוחלטת לציטוט** — supporting_quote חייב להיות הדבקה מדויקת מהקלט. אם אין ציטוט מתאים — אל תוסיף את ההלכה.
|
||||
2. **מספר הלכות** — החלטה ארוכה של ועדת ערר יכולה להניב 2-8 פריטים (יישומים + מסקנות). אל תמתח את הרשימה. אם אין מה לחלץ — החזר [].
|
||||
3. **rule_type מדויק** — application = יישום הלכה ידועה. interpretive = פרשנות. procedural = פרוצדורה. persuasive = מסקנה כללית בעלת ערך כאסמכתא.
|
||||
3. **rule_type מדויק (סוג הכלל בלבד)** — application = יישום הלכה ידועה. interpretive = פרשנות. procedural = פרוצדורה. holding = מסקנה מהותית עקרונית. **לא** binding/persuasive (סמכות נגזרת אוטומטית).
|
||||
4. **לא לפצל יתר על המידה — קריטי** — כל פריט = שאלה משפטית מובחנת אחת. פנים שונים של אותה שאלה = פריט אחד (בחר את הניסוח הכללי ביותר). אל תחזיר את אותו עיקרון בכמה ניסוחים.
|
||||
5. **שפה** — עברית משפטית מקצועית, גוף שלישי.
|
||||
6. **subject_tags** — 2-5 תגיות בעברית, snake_case.
|
||||
@@ -184,10 +231,15 @@ HALACHA_EXTRACTION_PROMPT_PERSUASIVE = """אתה משפטן בכיר המתמח
|
||||
|
||||
|
||||
_VALID_PRACTICE_AREAS = {"rishuy_uvniya", "betterment_levy", "compensation_197"}
|
||||
# rule_type holds the rule ROLE only — what KIND of statement it is (INV-DM7).
|
||||
# The authority axis (binding/persuasive) is DERIVED from the source, never a
|
||||
# rule_type value: see halacha_quality.derive_authority.
|
||||
_VALID_RULE_TYPES = {
|
||||
"binding", "interpretive", "procedural", "obiter",
|
||||
"application", "persuasive",
|
||||
"holding", "interpretive", "procedural", "application", "obiter",
|
||||
}
|
||||
# Legacy authority-as-role values → fold to the nearest genuine role. Kept so
|
||||
# old LLM outputs (and pre-split rows re-fed) coerce safely.
|
||||
_LEGACY_RULE_TYPE_FOLD = {"binding": "holding", "persuasive": "interpretive"}
|
||||
|
||||
|
||||
def _normalize_for_comparison(text: str) -> str:
|
||||
@@ -227,13 +279,14 @@ def _verify_quote(supporting_quote: str, full_text: str) -> bool:
|
||||
return False
|
||||
|
||||
|
||||
def _coerce_halacha(raw: dict, is_binding: bool = True) -> dict | None:
|
||||
def _coerce_halacha(raw: dict) -> dict | None:
|
||||
"""Validate and normalize one LLM-returned halacha dict.
|
||||
|
||||
Returns ``None`` if the entry is missing required fields. ``is_binding``
|
||||
only affects the default rule_type when the LLM returned an unknown
|
||||
value — for binding sources we default to ``binding``, otherwise to
|
||||
``persuasive`` (never pretend an appeals committee created halacha).
|
||||
Returns ``None`` if the entry is missing required fields. ``rule_type`` is
|
||||
the rule ROLE only (INV-DM7) — it is NEVER defaulted from the source's
|
||||
bindingness (that was the source-conflation this split removed). Legacy
|
||||
authority values fold to the nearest role; unknown defaults to
|
||||
``interpretive`` (the most common role).
|
||||
"""
|
||||
if not isinstance(raw, dict):
|
||||
return None
|
||||
@@ -242,13 +295,10 @@ def _coerce_halacha(raw: dict, is_binding: bool = True) -> dict | None:
|
||||
if not rule_statement or not supporting_quote:
|
||||
return None
|
||||
|
||||
default_rule_type = "binding" if is_binding else "persuasive"
|
||||
rule_type = (raw.get("rule_type") or default_rule_type).strip().lower()
|
||||
rule_type = (raw.get("rule_type") or "").strip().lower()
|
||||
rule_type = _LEGACY_RULE_TYPE_FOLD.get(rule_type, rule_type)
|
||||
if rule_type not in _VALID_RULE_TYPES:
|
||||
rule_type = default_rule_type
|
||||
# Guard: don't let a non-binding source produce 'binding' rule_type
|
||||
if not is_binding and rule_type == "binding":
|
||||
rule_type = "persuasive"
|
||||
rule_type = "interpretive"
|
||||
|
||||
practice_areas_raw = raw.get("practice_areas") or []
|
||||
if isinstance(practice_areas_raw, str):
|
||||
@@ -298,6 +348,7 @@ async def _nli_check(items: list[dict]) -> list[str]:
|
||||
system=halacha_quality.NLI_SYSTEM,
|
||||
model=config.HALACHA_NLI_MODEL or None,
|
||||
effort=config.HALACHA_NLI_EFFORT or None,
|
||||
tools="", # pure text→JSON — no tool_use → no error_max_turns
|
||||
)
|
||||
except Exception as e:
|
||||
logger.warning("halacha NLI check failed (fail-open, no flags): %s", e)
|
||||
@@ -341,6 +392,7 @@ async def _consolidate_precedent(case_law_id: UUID) -> int:
|
||||
system=halacha_quality.CONSOLIDATE_SYSTEM,
|
||||
model=config.HALACHA_CONSOLIDATE_MODEL or None,
|
||||
effort=config.HALACHA_CONSOLIDATE_EFFORT or None,
|
||||
tools="", # pure text→JSON — no tool_use → no error_max_turns
|
||||
)
|
||||
groups = halacha_quality.parse_fold_groups(raw)
|
||||
if not groups:
|
||||
@@ -412,6 +464,7 @@ async def _extract_chunk(
|
||||
system=base_prompt,
|
||||
model=config.HALACHA_EXTRACT_MODEL or None,
|
||||
effort=(effort or config.HALACHA_EXTRACT_EFFORT) or None,
|
||||
tools="", # pure text→JSON — no tool_use → no error_max_turns
|
||||
)
|
||||
except Exception as e:
|
||||
last_err = e
|
||||
@@ -433,6 +486,82 @@ async def _extract_chunk(
|
||||
return [], False
|
||||
|
||||
|
||||
# Reconstruct the 64-bit advisory key from pg_locks' (classid, objid) pair so
|
||||
# the holder lookup is correct regardless of how Postgres splits the key.
|
||||
_LOCK_HOLDER_SQL = """
|
||||
SELECT a.pid,
|
||||
a.state,
|
||||
EXTRACT(EPOCH FROM (now() - a.state_change)) AS idle_seconds
|
||||
FROM pg_locks l
|
||||
JOIN pg_stat_activity a ON a.pid = l.pid
|
||||
WHERE l.locktype = 'advisory'
|
||||
AND ((l.classid::bigint << 32) | (l.objid::bigint)) = $1
|
||||
AND l.objsubid = 1
|
||||
AND l.granted
|
||||
AND a.pid <> pg_backend_pid()
|
||||
LIMIT 1
|
||||
"""
|
||||
|
||||
|
||||
async def _acquire_global_lock(pool) -> "asyncpg.Connection | None":
|
||||
"""Take the global advisory lock, self-healing a leaked (orphaned) holder.
|
||||
|
||||
Returns a connection that HOLDS the lock, or ``None`` if a *live* extraction
|
||||
legitimately holds it. On failure we look up the holder: only an **idle**
|
||||
backend whose ``state_change`` is older than ``_LOCK_STALE_AFTER`` (i.e. its
|
||||
keepalive stopped — a crash) is treated as a leaked orphan and terminated;
|
||||
a live extraction's holder is kept fresh by its keepalive and is never
|
||||
killed, so the serialization guarantee (and the box-freeze it prevents) is
|
||||
preserved.
|
||||
"""
|
||||
conn = await pool.acquire()
|
||||
try:
|
||||
if await conn.fetchval("SELECT pg_try_advisory_lock($1)",
|
||||
_HALACHA_EXTRACT_LOCK_KEY):
|
||||
return conn
|
||||
holder = await conn.fetchrow(_LOCK_HOLDER_SQL, _HALACHA_EXTRACT_LOCK_KEY)
|
||||
if (holder and holder["state"] == "idle"
|
||||
and (holder["idle_seconds"] or 0) >= _LOCK_STALE_AFTER):
|
||||
logger.warning(
|
||||
"halacha extract: reclaiming LEAKED lock — holder pid=%s idle "
|
||||
"%.0fs (≥%ds, keepalive stopped → crashed). pg_terminate_backend.",
|
||||
holder["pid"], holder["idle_seconds"], _LOCK_STALE_AFTER,
|
||||
)
|
||||
await conn.execute("SELECT pg_terminate_backend($1)", holder["pid"])
|
||||
for _ in range(_LOCK_RECLAIM_RETRIES):
|
||||
if await conn.fetchval("SELECT pg_try_advisory_lock($1)",
|
||||
_HALACHA_EXTRACT_LOCK_KEY):
|
||||
logger.info("halacha extract: leaked lock reclaimed.")
|
||||
return conn
|
||||
await asyncio.sleep(_LOCK_RECLAIM_DELAY)
|
||||
await pool.release(conn)
|
||||
return None
|
||||
except Exception:
|
||||
await pool.release(conn)
|
||||
raise
|
||||
|
||||
|
||||
async def _lock_keepalive(conn, stop: asyncio.Event) -> None:
|
||||
"""Touch ``conn`` every ``_LOCK_KEEPALIVE_INTERVAL`` s while extraction runs.
|
||||
|
||||
Keeps the lock-holder's ``pg_stat_activity.state_change`` fresh so a live
|
||||
extraction is never mistaken for a leaked orphan by ``_acquire_global_lock``.
|
||||
Exits on ``stop`` (clean finish) or on any DB error (so the final unlock,
|
||||
which reuses ``conn``, never races a keepalive query on the same connection).
|
||||
"""
|
||||
while not stop.is_set():
|
||||
try:
|
||||
await asyncio.wait_for(stop.wait(), timeout=_LOCK_KEEPALIVE_INTERVAL)
|
||||
return # stop signaled — clean exit
|
||||
except asyncio.TimeoutError:
|
||||
pass
|
||||
try:
|
||||
await conn.execute("SELECT 1")
|
||||
except Exception as e:
|
||||
logger.warning("halacha lock keepalive failed (stopping): %s", e)
|
||||
return
|
||||
|
||||
|
||||
async def extract(case_law_id: UUID | str, force: bool = False,
|
||||
effort: str | None = None) -> dict:
|
||||
"""Extract halachot from an uploaded precedent — globally serialized.
|
||||
@@ -460,28 +589,116 @@ async def extract(case_law_id: UUID | str, force: bool = False,
|
||||
case_law_id = UUID(case_law_id)
|
||||
|
||||
pool = await db.get_pool()
|
||||
lock_conn = await pool.acquire()
|
||||
try:
|
||||
got = await lock_conn.fetchval(
|
||||
"SELECT pg_try_advisory_lock($1)", _HALACHA_EXTRACT_LOCK_KEY,
|
||||
lock_conn = await _acquire_global_lock(pool)
|
||||
if lock_conn is None:
|
||||
logger.warning(
|
||||
"halacha extract: global lock held by a live extraction — "
|
||||
"skipping %s (stays pending for next drain)", case_law_id,
|
||||
)
|
||||
if not got:
|
||||
logger.warning(
|
||||
"halacha extract: global lock held by another extraction — "
|
||||
"skipping %s (stays pending for next drain)", case_law_id,
|
||||
)
|
||||
return {
|
||||
"status": "busy", "extracted": 0, "stored": 0,
|
||||
"case_law_id": str(case_law_id),
|
||||
}
|
||||
return {
|
||||
"status": "busy", "extracted": 0, "stored": 0,
|
||||
"case_law_id": str(case_law_id),
|
||||
}
|
||||
|
||||
stop_keepalive = asyncio.Event()
|
||||
keepalive_task = asyncio.create_task(_lock_keepalive(lock_conn, stop_keepalive))
|
||||
try:
|
||||
if config.HALACHA_PANEL_REGIME_ENABLED:
|
||||
# #152 Phase B — decision-level 3-model panel (votes+cap+source label).
|
||||
res = await _extract_via_panel(case_law_id, force=force)
|
||||
if res is not None:
|
||||
return res
|
||||
# panel unavailable (all judges down) → degrade to legacy path so
|
||||
# extraction still makes progress instead of stalling the queue.
|
||||
logger.warning("panel regime returned no result for %s — "
|
||||
"falling back to legacy per-chunk extraction", case_law_id)
|
||||
return await _extract_impl(case_law_id, force=force, effort=effort)
|
||||
finally:
|
||||
# Stop the keepalive and await it BEFORE reusing lock_conn for unlock —
|
||||
# two coroutines must never query the same asyncpg connection at once.
|
||||
stop_keepalive.set()
|
||||
try:
|
||||
await keepalive_task
|
||||
except Exception: # pragma: no cover — keepalive swallows its own errors
|
||||
logger.warning("halacha lock keepalive task ended abnormally")
|
||||
try:
|
||||
return await _extract_impl(case_law_id, force=force, effort=effort)
|
||||
finally:
|
||||
await lock_conn.fetchval(
|
||||
"SELECT pg_advisory_unlock($1)", _HALACHA_EXTRACT_LOCK_KEY,
|
||||
)
|
||||
finally:
|
||||
await pool.release(lock_conn)
|
||||
finally:
|
||||
await pool.release(lock_conn)
|
||||
|
||||
|
||||
async def _select_extractable_chunks(
|
||||
case_law_id: UUID,
|
||||
) -> tuple[list[dict], bool]:
|
||||
"""Pick the chunks that are candidates for halacha extraction (#81.6).
|
||||
|
||||
Rhetorical-role pre-filter (INV-LRN2 quality-at-source): only
|
||||
reasoning/decision sections feed extraction.
|
||||
|
||||
Primary: chunks labeled as an extractable section
|
||||
(``EXTRACTABLE_SECTIONS``). Fallback — taken only when the chunker labeled
|
||||
*nothing* extractable (non-standard headings collapse everything to
|
||||
'other') — is every chunk EXCEPT those confidently classified as
|
||||
non-reasoning (``NON_REASONING_SECTIONS``: facts / parties' arguments /
|
||||
intro). This preserves recall for reasoning that landed under 'other' while
|
||||
never feeding the factual background or the parties' positions into
|
||||
extraction. Previously the fallback took *all* chunks, re-admitting exactly
|
||||
the sections the primary filter excludes.
|
||||
|
||||
Positive-anchor guard: when a document has a "דיון/הכרעה" section
|
||||
(section_type='legal_analysis'), extraction starts from that section
|
||||
onwards. Any 'ruling' chunks that appear BEFORE the first legal_analysis
|
||||
chunk by position are dropped — they most likely result from a party-claims
|
||||
section whose header was not recognised by the chunker and was therefore
|
||||
absorbed into the preceding section.
|
||||
|
||||
Returns ``(chunks, used_fallback)`` so the caller can log the fallback once.
|
||||
"""
|
||||
chunks = await db.list_precedent_chunks(
|
||||
case_law_id, section_types=EXTRACTABLE_SECTIONS,
|
||||
)
|
||||
if chunks:
|
||||
chunks = _apply_discussion_anchor(chunks)
|
||||
return chunks, False
|
||||
all_chunks = await db.list_precedent_chunks(case_law_id)
|
||||
filtered = [
|
||||
c for c in all_chunks
|
||||
if c.get("section_type") not in NON_REASONING_SECTIONS
|
||||
]
|
||||
return filtered, True
|
||||
|
||||
|
||||
def _apply_discussion_anchor(chunks: list[dict]) -> list[dict]:
|
||||
"""Drop 'ruling' chunks that precede the first 'legal_analysis' chunk.
|
||||
|
||||
In Israeli planning-committee decisions the discussion section
|
||||
(דיון / הכרעה / דיון והכרעה) always comes after the parties' claims.
|
||||
A 'ruling'-labelled chunk that appears before the discussion is a strong
|
||||
signal that a party-claims section was silently absorbed into it (chunker
|
||||
regex didn't match the header). Dropping those early 'ruling' chunks is
|
||||
safe because all reasoning content falls at or after the 'דיון' anchor.
|
||||
"""
|
||||
analysis_indices = [
|
||||
c["chunk_index"] for c in chunks
|
||||
if c.get("section_type") == "legal_analysis"
|
||||
]
|
||||
if not analysis_indices:
|
||||
return chunks
|
||||
first_analysis = min(analysis_indices)
|
||||
filtered = [
|
||||
c for c in chunks
|
||||
if not (c.get("section_type") == "ruling" and c["chunk_index"] < first_analysis)
|
||||
]
|
||||
dropped = len(chunks) - len(filtered)
|
||||
if dropped:
|
||||
logger.info(
|
||||
"halacha_extractor: positive-anchor guard dropped %d pre-discussion "
|
||||
"'ruling' chunk(s) (first legal_analysis at chunk_index=%d)",
|
||||
dropped, first_analysis,
|
||||
)
|
||||
return filtered
|
||||
|
||||
|
||||
async def _extract_impl(case_law_id: UUID, force: bool = False,
|
||||
@@ -500,29 +717,35 @@ async def _extract_impl(case_law_id: UUID, force: bool = False,
|
||||
|
||||
is_binding = bool(record.get("is_binding"))
|
||||
|
||||
# Try the targeted sections first (legal_analysis / ruling / conclusion).
|
||||
# If the chunker labeled everything as 'other' (common when a ruling
|
||||
# uses non-standard headings or the section markers aren't bracketed
|
||||
# cleanly), fall back to ALL chunks — better to over-include than to
|
||||
# silently skip a ruling that has reasoning under an unexpected label.
|
||||
chunks = await db.list_precedent_chunks(
|
||||
case_law_id, section_types=EXTRACTABLE_SECTIONS,
|
||||
)
|
||||
if not chunks:
|
||||
chunks = await db.list_precedent_chunks(case_law_id)
|
||||
if chunks:
|
||||
logger.info(
|
||||
"halacha_extractor: case_law=%s — no targeted sections, "
|
||||
"falling back to all %d chunks",
|
||||
case_law_id, len(chunks),
|
||||
)
|
||||
# Rhetorical-role pre-filter (#81.6, INV-LRN2): only reasoning/decision
|
||||
# sections are candidates. The fallback (no targeted section labeled)
|
||||
# still excludes facts/arguments/intro — see _select_extractable_chunks.
|
||||
chunks, used_fallback = await _select_extractable_chunks(case_law_id)
|
||||
if used_fallback and chunks:
|
||||
logger.info(
|
||||
"halacha_extractor: case_law=%s — no targeted sections, "
|
||||
"falling back to %d non-argument chunks (facts/arguments excluded)",
|
||||
case_law_id, len(chunks),
|
||||
)
|
||||
if not chunks:
|
||||
await db.set_case_law_halacha_status(case_law_id, "completed")
|
||||
return {"status": "no_chunks", "extracted": 0, "stored": 0}
|
||||
|
||||
# force = clean slate; otherwise resume (skip already-checkpointed chunks).
|
||||
# "Clean slate" preserves chair-approved/published halachot (INV-G10) — only
|
||||
# un-reviewed rows are dropped; the per-chunk dedup-on-insert skips fresh
|
||||
# extractions that duplicate a preserved approval, so approvals survive a
|
||||
# re-extract without duplicating. See db.reset_halacha_extraction / #108.
|
||||
preserved_approved = 0
|
||||
if force:
|
||||
await db.reset_halacha_extraction(case_law_id)
|
||||
reset = await db.reset_halacha_extraction(case_law_id)
|
||||
preserved_approved = reset.get("preserved", 0)
|
||||
if preserved_approved:
|
||||
logger.info(
|
||||
"halacha_extractor: case_law=%s force re-extract — preserved %d "
|
||||
"approved/published halachot (INV-G10), dropped %d un-reviewed.",
|
||||
case_law_id, preserved_approved, reset.get("deleted", 0),
|
||||
)
|
||||
for c in chunks:
|
||||
c["halacha_extracted_at"] = None
|
||||
|
||||
@@ -580,7 +803,7 @@ async def _extract_impl(case_law_id: UUID, force: bool = False,
|
||||
return
|
||||
cleaned: list[dict] = []
|
||||
for raw in items:
|
||||
coerced = _coerce_halacha(raw, is_binding=is_binding)
|
||||
coerced = _coerce_halacha(raw)
|
||||
if coerced is None:
|
||||
continue
|
||||
coerced["quote_verified"] = _verify_quote(
|
||||
@@ -597,10 +820,10 @@ async def _extract_impl(case_law_id: UUID, force: bool = False,
|
||||
coerced["quality_flags"] = flags
|
||||
if halacha_quality.FLAG_NON_DECISION in flags and coerced["rule_type"] != "obiter":
|
||||
coerced["rule_type"] = "obiter"
|
||||
# #81.4 — a binding-labeled rule that reads as a case-application is
|
||||
# #81.4 — a holding-labeled rule that reads as a case-application is
|
||||
# re-typed application (it carries FLAG_APPLICATION either way).
|
||||
elif (halacha_quality.FLAG_APPLICATION in flags
|
||||
and coerced["rule_type"] == "binding"):
|
||||
and coerced["rule_type"] == "holding"):
|
||||
coerced["rule_type"] = "application"
|
||||
cleaned.append(coerced)
|
||||
# #81.3 NLI entailment — one batched judge call per chunk (fail-open).
|
||||
@@ -629,10 +852,10 @@ async def _extract_impl(case_law_id: UUID, force: bool = False,
|
||||
|
||||
await asyncio.gather(*[_process(c) for c in pending])
|
||||
|
||||
# Decide final status from what's LEFT (re-read checkpoints).
|
||||
after = await db.list_precedent_chunks(case_law_id, section_types=EXTRACTABLE_SECTIONS)
|
||||
if not after:
|
||||
after = await db.list_precedent_chunks(case_law_id)
|
||||
# Decide final status from what's LEFT (re-read checkpoints). Use the same
|
||||
# candidate-selection policy as above so the pending count matches the set
|
||||
# we actually extracted from (G2 — single source of truth, no parallel path).
|
||||
after, _ = await _select_extractable_chunks(case_law_id)
|
||||
still_pending = sum(1 for c in after if c.get("halacha_extracted_at") is None)
|
||||
total = len(await db.list_halachot(case_law_id=case_law_id, limit=10_000))
|
||||
|
||||
@@ -677,5 +900,125 @@ async def _extract_impl(case_law_id: UUID, force: bool = False,
|
||||
"folded": folded,
|
||||
"stored": stored,
|
||||
"stored_this_run": stored_total,
|
||||
"preserved_approved": preserved_approved,
|
||||
"total_chunks": len(chunks),
|
||||
}
|
||||
|
||||
|
||||
# Cap the text sent to each judge — extractable chunks already exclude
|
||||
# facts/intro/arguments, but a very long decision could still blow a context.
|
||||
_PANEL_MAX_CHARS = 80_000
|
||||
|
||||
# Canonical states a new extraction may dedup-link against (frees a cap slot).
|
||||
_PANEL_DEDUP_STATES = ("pending_synthesis", "pending_review", "approved", "published")
|
||||
|
||||
|
||||
async def _extract_via_panel(
|
||||
case_law_id: UUID, force: bool = False, dry_run: bool = False,
|
||||
) -> dict | None:
|
||||
"""Decision-level tri-model panel extraction (#152, Phase B).
|
||||
|
||||
Replaces the per-chunk single-model auto-approve with: 3 models propose →
|
||||
cross-model votes + mean-score → chair's approval rule → dedup vs corpus
|
||||
(link known → frees a slot) → cap of HALACHA_PANEL_MAX_NEW genuinely-new
|
||||
principles per decision (by score). A principle from a binding higher court
|
||||
is a הלכה; from the appeals committee a כלל פרשני (labeling via source).
|
||||
|
||||
Returns the result dict, or **None** when fewer than 2 judges are reachable
|
||||
(caller falls back to the legacy path so the queue still drains). ``dry_run``
|
||||
computes the full plan WITHOUT writing — used for validation/chair preview.
|
||||
"""
|
||||
record = await db.get_case_law(case_law_id)
|
||||
if not record:
|
||||
return {"status": "not_found", "extracted": 0, "stored": 0}
|
||||
|
||||
# Idempotency: panel extraction is decision-level (no per-chunk checkpoints).
|
||||
# Without force, skip if this decision already has halachot (avoid dup re-run).
|
||||
if not force and not dry_run:
|
||||
existing = await db.list_halachot(case_law_id=case_law_id, limit=1)
|
||||
if existing:
|
||||
total = len(await db.list_halachot(case_law_id=case_law_id, limit=10_000))
|
||||
await db.set_case_law_halacha_status(case_law_id, "completed")
|
||||
return {"status": "completed", "extracted": total, "stored": total,
|
||||
"resumed": True, "panel": True}
|
||||
|
||||
source_kind = record.get("source_kind") or "external_upload"
|
||||
is_binding = bool(record.get("is_binding"))
|
||||
full_text = record.get("full_text") or ""
|
||||
|
||||
chunks, used_fallback = await _select_extractable_chunks(case_law_id)
|
||||
if not chunks:
|
||||
if not dry_run:
|
||||
await db.set_case_law_halacha_status(case_law_id, "completed")
|
||||
return {"status": "no_chunks", "extracted": 0, "stored": 0, "panel": True}
|
||||
|
||||
preserved = 0
|
||||
if force and not dry_run:
|
||||
reset = await db.reset_halacha_extraction(case_law_id)
|
||||
preserved = reset.get("preserved", 0)
|
||||
|
||||
if not dry_run:
|
||||
await db.set_case_law_halacha_status(case_law_id, "processing")
|
||||
|
||||
text = "\n\n".join(c["content"] for c in chunks)[:_PANEL_MAX_CHARS]
|
||||
clusters = await panel_extraction.panel_extract(
|
||||
text, source_kind=source_kind, is_binding=is_binding,
|
||||
)
|
||||
if not clusters:
|
||||
# distinguish "judges down" (→ fallback) from "genuinely nothing found".
|
||||
if sum(panel_extraction.panel_judges.available().values()) < 2:
|
||||
return None
|
||||
if not dry_run:
|
||||
await db.mark_all_chunks_extracted(case_law_id)
|
||||
await db.set_case_law_halacha_status(case_law_id, "completed")
|
||||
return {"status": "completed", "extracted": 0, "stored": 0,
|
||||
"new": 0, "linked": 0, "panel": True, "preserved_approved": preserved}
|
||||
|
||||
kept = [c for c in clusters if c["verdict"] in ("approved", "pending_review")]
|
||||
max_new = config.HALACHA_PANEL_MAX_NEW
|
||||
new_count = linked = dropped_cap = 0
|
||||
to_store: list[dict] = []
|
||||
for c in kept: # strongest first (panel_extract sorts by votes,score)
|
||||
emb = c.get("embedding")
|
||||
canonical_id, instance_type = None, "original"
|
||||
if emb is not None and config.HALACHA_CANONICAL_LOOKUP_ENABLED:
|
||||
match = await db.nearest_canonical_halacha(
|
||||
emb, threshold=config.HALACHA_CANONICAL_THRESHOLD,
|
||||
status_filter=_PANEL_DEDUP_STATES,
|
||||
)
|
||||
if match:
|
||||
canonical_id, instance_type = match[0], "citation"
|
||||
if instance_type == "original":
|
||||
if new_count >= max_new: # cap: linked don't count, only new
|
||||
dropped_cap += 1
|
||||
continue
|
||||
new_count += 1
|
||||
else:
|
||||
linked += 1
|
||||
to_store.append({
|
||||
"rule_statement": c["rule_statement"], "supporting_quote": c["supporting_quote"],
|
||||
"reasoning_summary": c["reasoning_summary"], "rule_type": c["rule_type"],
|
||||
"confidence": c["score"], "score": c["score"], "votes": c["votes"],
|
||||
"voters": c["voters"], "review_status": c["verdict"], "embedding": emb,
|
||||
"instance_type": instance_type, "canonical_id": canonical_id,
|
||||
"quote_verified": _verify_quote(c["supporting_quote"], full_text),
|
||||
})
|
||||
|
||||
if dry_run:
|
||||
return {"status": "dry_run", "panel": True, "source_kind": source_kind,
|
||||
"candidates": clusters, "to_store": to_store,
|
||||
"new": new_count, "linked": linked, "dropped_over_cap": dropped_cap}
|
||||
|
||||
res = await db.store_panel_principles(case_law_id, to_store)
|
||||
await db.mark_all_chunks_extracted(case_law_id)
|
||||
await db.set_case_law_halacha_status(case_law_id, "completed")
|
||||
total = len(await db.list_halachot(case_law_id=case_law_id, limit=10_000))
|
||||
logger.info(
|
||||
"halacha panel: case_law=%s (%s) — %d new + %d linked stored, "
|
||||
"%d dropped over cap-%d", case_law_id, source_kind,
|
||||
res["created_new"], res["linked"], dropped_cap, max_new,
|
||||
)
|
||||
return {"status": "completed", "extracted": total,
|
||||
"stored": res["created_new"] + res["linked"], "new": res["created_new"],
|
||||
"linked": res["linked"], "dropped_over_cap": dropped_cap,
|
||||
"panel": True, "preserved_approved": preserved}
|
||||
|
||||
@@ -18,6 +18,37 @@ from __future__ import annotations
|
||||
|
||||
import re
|
||||
|
||||
# ── Authority axis — DERIVED from the source, never LLM-classified (INV-DM7) ──
|
||||
#
|
||||
# A halacha's *authority* (binding vs persuasive) is a property of WHERE it came
|
||||
# from, not of the rule's content. It is therefore derived deterministically
|
||||
# from ``case_law.precedent_level`` and never stored on ``halachot`` or guessed
|
||||
# by the extractor — keeping it orthogonal to ``rule_type`` (the rule ROLE).
|
||||
# Higher courts (עליון/מנהלי) bind the appeals committee; another committee is
|
||||
# only persuasive. See docs/spec/02-data-model.md INV-DM7.
|
||||
|
||||
AUTHORITY_BINDING = "binding"
|
||||
AUTHORITY_PERSUASIVE = "persuasive"
|
||||
|
||||
_BINDING_LEVELS = {"עליון", "מנהלי"}
|
||||
_PERSUASIVE_LEVELS = {"ועדת_ערר_מחוזית"}
|
||||
|
||||
|
||||
def derive_authority(precedent_level: str | None) -> str | None:
|
||||
"""Map a source's precedent_level to its authority over the committee.
|
||||
|
||||
Returns ``"binding"`` for higher courts (עליון/מנהלי), ``"persuasive"`` for
|
||||
another appeals committee (ועדת_ערר_מחוזית), or ``None`` when the level is
|
||||
unknown/empty (never guesses). Pure — the single source of truth for the
|
||||
authority axis (INV-DM7).
|
||||
"""
|
||||
level = (precedent_level or "").strip()
|
||||
if level in _BINDING_LEVELS:
|
||||
return AUTHORITY_BINDING
|
||||
if level in _PERSUASIVE_LEVELS:
|
||||
return AUTHORITY_PERSUASIVE
|
||||
return None
|
||||
|
||||
# ── Hebrew text normalization (shared with the extractor's quote check) ──
|
||||
|
||||
_HEB_QUOTE_VARIANTS = "\"'׳״‘’“”«»„′″"
|
||||
@@ -213,15 +244,85 @@ def lexical_near_duplicate(
|
||||
or normalized_levenshtein(a, b) >= levenshtein_min)
|
||||
|
||||
|
||||
def dedup_action(
|
||||
dist: float, rule_new: str, rule_neighbor: str,
|
||||
dedup_distance: float, band_distance: float,
|
||||
) -> str:
|
||||
"""Decide a fresh halacha's fate vs its nearest same-precedent neighbor (#82.4).
|
||||
|
||||
PAIRWISE by construction — it compares the new rule to exactly ONE neighbor
|
||||
(the nearest already-stored one), never to a cluster, so dedup-on-insert can
|
||||
NEVER collapse a chain A~B~C into a single row even when A and C are
|
||||
distinct: each insert is an independent pairwise decision and only the
|
||||
*incoming* row is ever skipped (no existing row is merged or deleted). This
|
||||
is the over-merge guard (#82.6) — connected-components closure, the central
|
||||
over-merge risk in entity-resolution, is deliberately NOT performed here.
|
||||
|
||||
``dist`` is cosine distance (1 − cosine sim) to the neighbor. Returns:
|
||||
* 'skip' — semantic duplicate (dist ≤ dedup_distance): drop the incoming
|
||||
row; the caller unions its provenance (cites) into the surviving
|
||||
neighbor rather than blind-dropping it.
|
||||
* 'flag' — lexical tail (dedup_distance < dist ≤ band_distance AND high
|
||||
lexical overlap): keep the row but mark near_duplicate → chair review.
|
||||
* 'keep' — distinct enough: store normally.
|
||||
"""
|
||||
if dist <= dedup_distance:
|
||||
return "skip"
|
||||
if dist <= band_distance and lexical_near_duplicate(rule_new, rule_neighbor):
|
||||
return "flag"
|
||||
return "keep"
|
||||
|
||||
|
||||
# ── Aggregate ──
|
||||
|
||||
FLAG_NON_DECISION = "non_decision"
|
||||
FLAG_TRUNCATED_QUOTE = "truncated_quote"
|
||||
FLAG_THIN_RESTATEMENT = "thin_restatement"
|
||||
FLAG_QUOTE_UNVERIFIED = "quote_unverified"
|
||||
FLAG_NLI_UNSUPPORTED = "nli_unsupported" # rule not entailed by its quote (#81.3)
|
||||
FLAG_APPLICATION = "application" # fact-dependent, not a holding (#81.4)
|
||||
FLAG_NEAR_DUPLICATE = "near_duplicate" # cosine-tail lexical dup (#82.3)
|
||||
FLAG_NLI_UNSUPPORTED = "nli_unsupported" # rule not entailed by its quote (#81.3)
|
||||
FLAG_APPLICATION = "application" # fact-dependent, not a holding (#81.4)
|
||||
FLAG_NEAR_DUPLICATE = "near_duplicate" # cosine-tail lexical dup (#82.3)
|
||||
FLAG_PARTY_CLAIM = "party_claim_language" # quote reads as a party's position, not the court's
|
||||
|
||||
|
||||
# ── Party-claim language: quote is the court's words, not a party's ──
|
||||
#
|
||||
# Positive markers that a quote comes from a party's argument section rather
|
||||
# than the court's own reasoning. The chunker now correctly classifies these
|
||||
# sections, but a belt-and-suspenders lexical gate catches any case where
|
||||
# the chunker still absorbs a party-claims section into a reasoning chunk
|
||||
# (e.g. an unrecognised header variant). We scan the supporting_quote only —
|
||||
# the rule_statement is already abstracted and should not contain these phrases.
|
||||
|
||||
_PARTY_CLAIM_MARKERS = (
|
||||
# Named-party attribution forms — always party-claim language, never court reasoning
|
||||
"לטענת העורר",
|
||||
"לטענת העוררת",
|
||||
"לטענת העוררים",
|
||||
"לטענת המשיב",
|
||||
"לטענת המשיבה",
|
||||
"לטענת המשיבים",
|
||||
"טוען העורר",
|
||||
"טוענת העוררת",
|
||||
"טוען המשיב",
|
||||
"טוענת המשיבה",
|
||||
# Excluded (too broad — courts also use these in their own reasoning):
|
||||
# "נטען כי", "נטען על ידי", "נטען על-ידי", "לטענתו", "לטענתה", "לטענתם"
|
||||
)
|
||||
|
||||
|
||||
def detect_party_claim_language(supporting_quote: str) -> str | None:
|
||||
"""Return the first party-claim marker found in the quote (or None).
|
||||
|
||||
Only the supporting_quote is scanned — rule_statement is already abstracted.
|
||||
A match means the LLM likely extracted from a party's argument section
|
||||
rather than the court's reasoning.
|
||||
"""
|
||||
norm = normalize_text(supporting_quote)
|
||||
for marker in _PARTY_CLAIM_MARKERS:
|
||||
if marker in norm:
|
||||
return marker
|
||||
return None
|
||||
|
||||
|
||||
# ── NLI entailment check (rule_statement ⊨ supporting_quote) — #81.3 ──
|
||||
@@ -337,7 +438,7 @@ def compute_quality_flags(
|
||||
supporting_quote: str,
|
||||
reasoning_summary: str = "",
|
||||
quote_verified: bool = True,
|
||||
rule_type: str = "binding",
|
||||
rule_type: str = "interpretive",
|
||||
) -> list[str]:
|
||||
"""Return the list of quality flags for one halacha (empty == clean).
|
||||
|
||||
@@ -357,4 +458,8 @@ def compute_quality_flags(
|
||||
# rule_type='application' and add a high-precision deixis catch.
|
||||
if rule_type == "application" or is_fact_dependent(rule_statement):
|
||||
flags.append(FLAG_APPLICATION)
|
||||
# Belt-and-suspenders: if the quote contains party-claim language the
|
||||
# chunker's section filter should have excluded, flag for manual review.
|
||||
if detect_party_claim_language(supporting_quote):
|
||||
flags.append(FLAG_PARTY_CLAIM)
|
||||
return flags
|
||||
|
||||
@@ -14,8 +14,8 @@ from __future__ import annotations
|
||||
|
||||
import asyncio
|
||||
import logging
|
||||
import mimetypes
|
||||
import re
|
||||
import shutil
|
||||
from dataclasses import dataclass
|
||||
from datetime import date
|
||||
from pathlib import Path
|
||||
@@ -23,7 +23,7 @@ from typing import Awaitable, Callable
|
||||
from uuid import UUID, uuid4
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import chunker, db, embeddings, extractor
|
||||
from legal_mcp.services import chunker, db, embeddings, extractor, storage
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
@@ -66,12 +66,22 @@ def _safe_filename(name: str) -> str:
|
||||
return re.sub(r"[^\w.\-+א-ת ]", "_", base) or f"upload-{uuid4().hex[:8]}"
|
||||
|
||||
|
||||
def _stage_file(src_path: Path, root: Path, subdir: str) -> Path:
|
||||
dest_dir = root / (subdir or "other")
|
||||
dest_dir.mkdir(parents=True, exist_ok=True)
|
||||
dest = dest_dir / f"{uuid4().hex[:8]}_{_safe_filename(src_path.name)}"
|
||||
shutil.copy2(src_path, dest)
|
||||
return dest
|
||||
async def _stage_file(src_path: Path, root: Path, subdir: str) -> str:
|
||||
"""Stage an intake file through the unified storage layer (INV-STG1).
|
||||
|
||||
Returns the storage KEY (DATA_DIR-relative path) the blob was written under.
|
||||
The caller resolves a readable local path via ``storage.ensure_local`` — the
|
||||
key is NOT guaranteed to map to an existing on-disk file (under the s3-only
|
||||
backend the bytes live only in object storage). The Hebrew original filename
|
||||
rides as object metadata, never as the key (INV-STG2)."""
|
||||
dest = root / (subdir or "other") / f"{uuid4().hex[:8]}_{_safe_filename(src_path.name)}"
|
||||
key = dest.relative_to(config.DATA_DIR).as_posix()
|
||||
await storage.put_file(
|
||||
src_path, key, bucket=storage.Bucket.DOCUMENTS,
|
||||
content_type=mimetypes.guess_type(src_path.name)[0],
|
||||
metadata={"filename": src_path.name},
|
||||
)
|
||||
return key
|
||||
|
||||
|
||||
def _validate_enums(spec: IntakeSpec, inputs: dict) -> None:
|
||||
@@ -146,88 +156,108 @@ async def ingest_document(
|
||||
page_count = 0
|
||||
page_offsets = None
|
||||
staged: Path | None = None
|
||||
staged_is_tmp = False
|
||||
if file_path:
|
||||
src = Path(file_path)
|
||||
if not src.is_file():
|
||||
raise FileNotFoundError(f"file not found: {src}")
|
||||
await progress("staging", 5, "מעתיק את הקובץ לאחסון")
|
||||
staged = _stage_file(src, spec.staging_root, spec.staging_subdir(inputs))
|
||||
await progress("extracting", 15, "מחלץ טקסט מהקובץ")
|
||||
try:
|
||||
raw_text, page_count, page_offsets = await extractor.extract_text(str(staged))
|
||||
except Exception as e:
|
||||
await progress("failed", 100, f"כשל בחילוץ טקסט: {e}")
|
||||
raise
|
||||
raw_text = (raw_text or "")
|
||||
else:
|
||||
raw_text = (text or "")
|
||||
# Capture the Nevo מיני-רציו (editorial holdings summary) BEFORE stripping
|
||||
# it out — it is a free professional gold-set for benchmarking halacha
|
||||
# extraction (#86.3). Stored on the case_law row below once we have its id.
|
||||
nevo_ratio = extractor.extract_nevo_ratio(raw_text)
|
||||
raw_text = extractor.strip_nevo_preamble(raw_text).strip()
|
||||
if not raw_text:
|
||||
await progress("failed", 100, "לא נמצא טקסט בקובץ")
|
||||
raise ValueError("no extractable text in file")
|
||||
|
||||
# Step 6: DB create (type-specific, routed — get case_law_id).
|
||||
await progress("storing_metadata", 25, "שומר את הרשומה במסד הנתונים")
|
||||
display_name = (inputs.get("case_name") or "").strip() or (
|
||||
inputs.get(spec.display_name_fallback) or ""
|
||||
).strip()
|
||||
record = await spec.create_record(
|
||||
full_text=raw_text,
|
||||
case_name=display_name,
|
||||
decision_date=_coerce_date(inputs.get("decision_date")),
|
||||
document_id=document_id,
|
||||
**{k: v for k, v in inputs.items()
|
||||
if k not in {"case_name", "decision_date", "file_path", "text"}},
|
||||
)
|
||||
case_law_id = UUID(str(record["id"]))
|
||||
|
||||
# Persist the captured mini-ratio (best-effort; never block ingest on it).
|
||||
if nevo_ratio:
|
||||
try:
|
||||
await db.update_case_law(case_law_id, nevo_ratio=nevo_ratio)
|
||||
except Exception as e: # noqa: BLE001 — additive metadata, non-fatal
|
||||
logger.warning("could not store nevo_ratio for %s: %s", case_law_id, e)
|
||||
|
||||
staged_key = await _stage_file(src, spec.staging_root, spec.staging_subdir(inputs))
|
||||
# Resolve a real local path to read from. Under filesystem/dual this is
|
||||
# the on-disk copy; under s3-only the blob lives only in object storage,
|
||||
# so ensure_local downloads it to a temp file we own and must clean up
|
||||
# (INV-STG1 — the pipeline must read through the storage layer, never
|
||||
# assume the key maps to an existing DATA_DIR file).
|
||||
staged_is_tmp = storage.local_path(
|
||||
staged_key, bucket=storage.Bucket.DOCUMENTS) is None
|
||||
staged = await storage.ensure_local(
|
||||
staged_key, bucket=storage.Bucket.DOCUMENTS)
|
||||
try:
|
||||
stored_chunks = await _chunk_embed_store(case_law_id, raw_text, page_offsets, page_count, progress)
|
||||
await db.mark_indexed(case_law_id)
|
||||
|
||||
# Step 9: multimodal — uniform: flag + PDF + page_count, NOT intake type.
|
||||
if (config.MULTIMODAL_ENABLED and page_count > 0
|
||||
and staged is not None and staged.suffix.lower() == ".pdf"):
|
||||
if staged is not None:
|
||||
await progress("extracting", 15, "מחלץ טקסט מהקובץ")
|
||||
try:
|
||||
await progress("embedding_images", 70, f"מטמיע {page_count} עמודי תמונה (multimodal)")
|
||||
await _embed_pages(case_law_id, staged, page_count)
|
||||
raw_text, page_count, page_offsets = await extractor.extract_text(str(staged))
|
||||
except Exception as e:
|
||||
logger.warning("Multimodal embedding failed (non-fatal): %s", e)
|
||||
await progress("failed", 100, f"כשל בחילוץ טקסט: {e}")
|
||||
raise
|
||||
raw_text = (raw_text or "")
|
||||
else:
|
||||
raw_text = (text or "")
|
||||
# Capture the Nevo מיני-רציו (editorial holdings summary) BEFORE stripping
|
||||
# it out — it is a free professional gold-set for benchmarking halacha
|
||||
# extraction (#86.3). Stored on the case_law row below once we have its id.
|
||||
nevo_ratio = extractor.extract_nevo_ratio(raw_text)
|
||||
raw_text = extractor.strip_nevo_preamble(raw_text).strip()
|
||||
if not raw_text:
|
||||
await progress("failed", 100, "לא נמצא טקסט בקובץ")
|
||||
raise ValueError("no extractable text in file")
|
||||
|
||||
# Steps 10-12: queue BOTH extractions (GAP-02 fix) + statuses.
|
||||
await db.set_case_law_extraction_status(case_law_id, "completed")
|
||||
await db.set_case_law_halacha_status(case_law_id, "pending")
|
||||
await db.request_metadata_extraction(case_law_id)
|
||||
await db.request_halacha_extraction(case_law_id)
|
||||
await db.recompute_searchable(case_law_id)
|
||||
# Step 6: DB create (type-specific, routed — get case_law_id).
|
||||
await progress("storing_metadata", 25, "שומר את הרשומה במסד הנתונים")
|
||||
display_name = (inputs.get("case_name") or "").strip() or (
|
||||
inputs.get(spec.display_name_fallback) or ""
|
||||
).strip()
|
||||
record = await spec.create_record(
|
||||
full_text=raw_text,
|
||||
case_name=display_name,
|
||||
decision_date=_coerce_date(inputs.get("decision_date")),
|
||||
document_id=document_id,
|
||||
**{k: v for k, v in inputs.items()
|
||||
if k not in {"case_name", "decision_date", "file_path", "text"}},
|
||||
)
|
||||
case_law_id = UUID(str(record["id"]))
|
||||
|
||||
await progress("completed", 100,
|
||||
f"נקלט: {stored_chunks} chunks. חילוץ הלכות ומטא-דאטה ממתינים בתור.")
|
||||
return {
|
||||
"status": "completed",
|
||||
"case_law_id": str(case_law_id),
|
||||
"chunks": stored_chunks,
|
||||
"halachot": 0,
|
||||
"halachot_pending": True,
|
||||
"metadata_filled": [],
|
||||
"pages": page_count,
|
||||
}
|
||||
except Exception as e:
|
||||
logger.exception("ingest_document failed (%s): %s", spec.source_kind, e)
|
||||
await db.set_case_law_extraction_status(case_law_id, "failed")
|
||||
await progress("failed", 100, f"כשל בעיבוד: {e}")
|
||||
raise
|
||||
# Persist the captured mini-ratio (best-effort; never block ingest on it).
|
||||
if nevo_ratio:
|
||||
try:
|
||||
await db.update_case_law(case_law_id, nevo_ratio=nevo_ratio)
|
||||
except Exception as e: # noqa: BLE001 — additive metadata, non-fatal
|
||||
logger.warning("could not store nevo_ratio for %s: %s", case_law_id, e)
|
||||
|
||||
try:
|
||||
stored_chunks = await _chunk_embed_store(case_law_id, raw_text, page_offsets, page_count, progress)
|
||||
await db.mark_indexed(case_law_id)
|
||||
|
||||
# Step 9: multimodal — uniform: flag + PDF + page_count, NOT intake type.
|
||||
if (config.MULTIMODAL_ENABLED and page_count > 0
|
||||
and staged is not None and staged.suffix.lower() == ".pdf"):
|
||||
try:
|
||||
await progress("embedding_images", 70, f"מטמיע {page_count} עמודי תמונה (multimodal)")
|
||||
await _embed_pages(case_law_id, staged, page_count)
|
||||
except Exception as e:
|
||||
logger.warning("Multimodal embedding failed (non-fatal): %s", e)
|
||||
|
||||
# Steps 10-12: queue BOTH extractions (GAP-02 fix) + statuses.
|
||||
await db.set_case_law_extraction_status(case_law_id, "completed")
|
||||
await db.set_case_law_halacha_status(case_law_id, "pending")
|
||||
await db.request_metadata_extraction(case_law_id)
|
||||
await db.request_halacha_extraction(case_law_id)
|
||||
await db.recompute_searchable(case_law_id)
|
||||
|
||||
await progress("completed", 100,
|
||||
f"נקלט: {stored_chunks} chunks. חילוץ הלכות ומטא-דאטה ממתינים בתור.")
|
||||
return {
|
||||
"status": "completed",
|
||||
"case_law_id": str(case_law_id),
|
||||
"chunks": stored_chunks,
|
||||
"halachot": 0,
|
||||
"halachot_pending": True,
|
||||
"metadata_filled": [],
|
||||
"pages": page_count,
|
||||
}
|
||||
except Exception as e:
|
||||
logger.exception("ingest_document failed (%s): %s", spec.source_kind, e)
|
||||
await db.set_case_law_extraction_status(case_law_id, "failed")
|
||||
await progress("failed", 100, f"כשל בעיבוד: {e}")
|
||||
raise
|
||||
finally:
|
||||
# Drop the temp download (s3-only); on filesystem/dual ``staged`` is the
|
||||
# canonical on-disk copy and must NOT be removed.
|
||||
if staged_is_tmp and staged is not None:
|
||||
try:
|
||||
staged.unlink(missing_ok=True)
|
||||
except OSError as e: # noqa: BLE001 — temp cleanup, never fatal
|
||||
logger.debug("could not remove temp staged file %s: %s", staged, e)
|
||||
|
||||
|
||||
async def _chunk_embed_store(case_law_id, text, page_offsets, page_count, progress) -> int:
|
||||
|
||||
@@ -58,6 +58,7 @@ def _internal_validate(inputs: dict) -> None:
|
||||
def _internal_derive(inputs: dict) -> dict:
|
||||
district = (inputs.get("district") or "").strip() or _district_from_court(inputs.get("court") or "")
|
||||
proc = (inputs.get("proceeding_type") or "").strip() or derive_proceeding_type(
|
||||
case_number=inputs.get("case_number") or "",
|
||||
appeal_subtype=inputs.get("appeal_subtype") or "", subject=inputs.get("case_name") or "",
|
||||
)
|
||||
return {"district": district, "proceeding_type": proc}
|
||||
|
||||
@@ -89,7 +89,7 @@ async def analyze_changes(draft_text: str, final_text: str) -> dict:
|
||||
--- גרסה סופית ---
|
||||
{final_sample}
|
||||
"""
|
||||
result = await claude_session.query_json(prompt)
|
||||
result = await claude_session.query_json(prompt, tools="") # no tool_use → no error_max_turns
|
||||
if result is None:
|
||||
logger.warning("Failed to parse lessons response")
|
||||
return {"changes": [], "new_expressions": [], "overall_assessment": ""}
|
||||
@@ -149,14 +149,28 @@ async def process_final_version(
|
||||
# it (→ decision_lessons / appeal_type_rules, surfaced by T15) via the gate.
|
||||
# (Previously this auto-upserted every new_expression as a style_pattern —
|
||||
# that both bypassed the gate and contaminated style with substance. Removed.)
|
||||
if pair_id is not None:
|
||||
await db.update_draft_final_pair(
|
||||
UUID(str(pair_id)),
|
||||
final_text=final_text,
|
||||
diff_stats=diff_stats,
|
||||
analysis=analysis,
|
||||
status="analyzed",
|
||||
#
|
||||
# create-or-update (INV-LRN4): normally mark-final already opened a
|
||||
# 'final_received' pair, so we just advance it. For a case whose final
|
||||
# pre-dates the mark-final snapshot mechanism (historical backfill) or a direct
|
||||
# ingest_final_version call, no pair exists — open one now from the live blocks
|
||||
# so the distillation is actually persisted instead of silently discarded.
|
||||
# Caveat: the captured draft is the CURRENT blocks (possibly edited after
|
||||
# sign-off), not a true mark-final snapshot.
|
||||
if pair_id is None:
|
||||
pair_id = await db.create_draft_final_pair(case_id, draft_text, "")
|
||||
logger.info(
|
||||
"process_final_version: no 'final_received' pair for case %s — opened one "
|
||||
"from live blocks (backfill path; draft may post-date sign-off)",
|
||||
case_id,
|
||||
)
|
||||
await db.update_draft_final_pair(
|
||||
UUID(str(pair_id)),
|
||||
final_text=final_text,
|
||||
diff_stats=diff_stats,
|
||||
analysis=analysis,
|
||||
status="analyzed",
|
||||
)
|
||||
|
||||
# Update decision + case status
|
||||
await db.update_decision(UUID(decision["id"]), status="final")
|
||||
|
||||
@@ -103,12 +103,25 @@ async def get_case_metrics(case_id: UUID) -> dict:
|
||||
return metrics
|
||||
|
||||
|
||||
def _median(values: list[float]) -> float | None:
|
||||
"""Median of a numeric list (None if empty). Pure — unit-tested."""
|
||||
s = sorted(v for v in values if v is not None)
|
||||
if not s:
|
||||
return None
|
||||
mid = len(s) // 2
|
||||
return s[mid] if len(s) % 2 else (s[mid - 1] + s[mid]) / 2
|
||||
|
||||
|
||||
async def halacha_backlog(conn) -> dict:
|
||||
"""תור אישור-ההלכות (GAP-14 / INV-QA1 / G10) — נראות ה-backlog האנושי.
|
||||
|
||||
הלכות נכנסות כ-`pending_review` ובלתי-נראות לחיפוש עד אישור היו"ר; בלי ספירה
|
||||
גלויה, אישור-חסר נשאר סמוי (10/19 התגלה במקרה). מקבל connection פתוח כדי
|
||||
שאפשר יהיה לשלב בסנאפ-שוט קיים (get_dashboard, /api/system/diagnostics).
|
||||
|
||||
כולל גם מדדי-תור (#84.7): throughput (24ש'/7ימים), יחסי approve/reject/defer,
|
||||
זמן-חציוני-לפריט (פער בין החלטות עוקבות בתוך session של 30 דק'), ופילוח
|
||||
מי-החליט (panel/auto/chair) — כדי לראות גם מהירות וגם איכות, לא רק backlog.
|
||||
"""
|
||||
rows = await conn.fetch(
|
||||
"SELECT review_status, COUNT(*) AS n FROM halachot GROUP BY review_status"
|
||||
@@ -132,6 +145,38 @@ async def halacha_backlog(conn) -> dict:
|
||||
)
|
||||
pending_total = counts.get("pending_review", 0)
|
||||
reviewed = counts.get("approved", 0) + counts.get("rejected", 0) + counts.get("published", 0)
|
||||
|
||||
# ── #84.7 queue throughput + quality ──────────────────────────────────────
|
||||
# throughput windows (decisions = anything with a reviewed_at stamp)
|
||||
tp = await conn.fetchrow(
|
||||
"SELECT COUNT(*) FILTER (WHERE reviewed_at >= now() - interval '24 hours') AS d24, "
|
||||
" COUNT(*) FILTER (WHERE reviewed_at >= now() - interval '7 days') AS d7 "
|
||||
"FROM halachot WHERE reviewed_at IS NOT NULL"
|
||||
)
|
||||
# who decided — panel (tri-model), auto (confidence gate), chair (human), other
|
||||
who_rows = await conn.fetch(
|
||||
"SELECT CASE "
|
||||
" WHEN reviewer LIKE 'panel:%' THEN 'panel' "
|
||||
" WHEN reviewer LIKE 'auto-approved%' THEN 'auto' "
|
||||
" WHEN reviewer LIKE 'chair%' THEN 'chair' "
|
||||
" ELSE 'other' END AS who, COUNT(*) AS n "
|
||||
"FROM halachot WHERE reviewed_at IS NOT NULL GROUP BY 1"
|
||||
)
|
||||
by_reviewer = {r["who"]: r["n"] for r in who_rows}
|
||||
# time-per-item proxy: median seconds between consecutive HAND-PACED
|
||||
# decisions — gaps in [1s, 30min]. Excludes 0-second gaps (batch operations
|
||||
# like panel/auto stamp many rows with the same reviewed_at) and >30-min gaps
|
||||
# (between sessions), so the number reflects interactive review pacing, not
|
||||
# machine throughput. None when the queue is entirely batch-decided.
|
||||
gap_rows = await conn.fetch(
|
||||
"SELECT EXTRACT(EPOCH FROM (reviewed_at - prev)) AS gap FROM ("
|
||||
" SELECT reviewed_at, LAG(reviewed_at) OVER (ORDER BY reviewed_at) AS prev "
|
||||
" FROM halachot WHERE reviewed_at IS NOT NULL"
|
||||
") t WHERE prev IS NOT NULL "
|
||||
"AND reviewed_at - prev BETWEEN interval '1 second' AND interval '30 minutes'"
|
||||
)
|
||||
median_secs = _median([float(r["gap"]) for r in gap_rows if r["gap"] is not None])
|
||||
|
||||
return {
|
||||
"pending_review": pending_total,
|
||||
"pending_clean": pending_clean, # real review candidates (#84.1)
|
||||
@@ -143,8 +188,16 @@ async def halacha_backlog(conn) -> dict:
|
||||
"total": sum(counts.values()),
|
||||
"reviewed_total": reviewed,
|
||||
"approve_ratio": round(counts.get("approved", 0) / reviewed, 3) if reviewed else None,
|
||||
"reject_ratio": round(counts.get("rejected", 0) / reviewed, 3) if reviewed else None,
|
||||
"defer_ratio": (round(counts.get("deferred", 0) / (reviewed + counts.get("deferred", 0)), 3)
|
||||
if (reviewed + counts.get("deferred", 0)) else None),
|
||||
"pending_by_flag": {r["flag"]: r["n"] for r in flag_rows},
|
||||
"oldest_pending_at": oldest.isoformat() if oldest else None,
|
||||
# #84.7 throughput + quality
|
||||
"throughput_24h": tp["d24"] if tp else 0,
|
||||
"throughput_7d": tp["d7"] if tp else 0,
|
||||
"median_seconds_per_decision": round(median_secs, 1) if median_secs is not None else None,
|
||||
"by_reviewer": by_reviewer,
|
||||
}
|
||||
|
||||
|
||||
|
||||
323
mcp-server/src/legal_mcp/services/panel_extraction.py
Normal file
323
mcp-server/src/legal_mcp/services/panel_extraction.py
Normal file
@@ -0,0 +1,323 @@
|
||||
"""Tri-model panel extraction regime (legal-principles-redesign, #152).
|
||||
|
||||
The shared core (G2) for BOTH the going-forward extractor (Phase B) and the
|
||||
retroactive cull (Phase C). chaim 2026-06-19:
|
||||
|
||||
1. THREE models (Claude local + DeepSeek + Gemini) deep-analyze a decision and
|
||||
each PROPOSES candidate principles, each with a 0-1 score.
|
||||
2. Candidates are matched ACROSS models by embedding cosine → a "merged
|
||||
candidate" carries: votes (# distinct models that proposed it) and score
|
||||
(mean of the voters' scores).
|
||||
3. Approval rule:
|
||||
votes == 3 → approved (even if score < floor)
|
||||
votes >= 2 AND score >= SCORE_FLOOR → approved
|
||||
votes == 2 AND score < SCORE_FLOOR → pending_review (chair, G10)
|
||||
votes <= 1 → rejected (dropped)
|
||||
4. The CALLER applies the corpus-dedup (V41 link → frees a slot) and the
|
||||
MAX_NEW cap (top-N approved-new by score). This module is corpus-agnostic
|
||||
and DB-free so it is unit-testable and reused identically by B and C.
|
||||
|
||||
Terminology (#152): a principle from a binding higher court is a הלכה; one from
|
||||
the appeals committee (internal_committee) is a כלל פרשני (interpretive rule) —
|
||||
the committee applies law, it does not make binding precedent. The extract prompt
|
||||
adapts to ``source_kind`` and, for the committee, demands genuine novelty.
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
import math
|
||||
|
||||
import httpx
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import embeddings, panel_judges
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
_RULE_TYPES = ("holding", "interpretive", "procedural") # citable kinds only
|
||||
|
||||
|
||||
def _extract_system(source_kind: str, is_binding: bool, max_candidates: int) -> str:
|
||||
if source_kind == "internal_committee":
|
||||
nature = (
|
||||
"המקור הוא החלטת ועדת-ערר. ועדת ערר מיישמת דין קיים ואינה יוצרת הלכה מחייבת. "
|
||||
"חלץ אך ורק כללים פרשניים חדשים לגמרי שהוועדה גיבשה — לא יישום של הלכה ידועה, "
|
||||
"לא חזרה על דין מוכר, ולא תיאור עובדות. אם אין כלל פרשני חדש אמיתי — החזר []."
|
||||
)
|
||||
elif is_binding:
|
||||
nature = (
|
||||
"המקור הוא פסק-דין של בית-משפט מחוזי/עליון. חלץ הלכות — כללים משפטיים "
|
||||
"בני-הכללה והסתמכות שהפסק קובע או מאמץ ומיישם."
|
||||
)
|
||||
else:
|
||||
nature = (
|
||||
"המקור הוא פסיקה משכנעת (לא-מחייבת). חלץ עקרונות משפטיים בני-הכללה בלבד."
|
||||
)
|
||||
return (
|
||||
"אתה משפטן בכיר בוועדת ערר לתכנון ובנייה, מנתח פסיקה לבסיס-ידע בר-ציטוט. "
|
||||
f"{nature}\n\n"
|
||||
"כללי-ברזל:\n"
|
||||
"• רק עיקרון כללי בר-הכללה והסתמכות — לא החלה תלוית-עובדות/צדדים/סכומים, "
|
||||
"לא אמרת-אגב (סוגיה שלא הוכרעה), לא חזרה מילולית על הציטוט ללא הפשטה.\n"
|
||||
"• כל עיקרון חייב עיגון: ציטוט מילולי מהמקור התומך בו (INV-AH).\n"
|
||||
f"• החזר עד {max_candidates} המועמדים החזקים ביותר בלבד; מוטב מעט ואיכותי.\n\n"
|
||||
"פלט — JSON array בלבד, ללא markdown:\n"
|
||||
"[{\n"
|
||||
' "rule_statement": "<העיקרון, כללי ובלתי-תלוי-תיק>",\n'
|
||||
' "supporting_quote": "<ציטוט מילולי מהמקור>",\n'
|
||||
' "reasoning_summary": "<מדוע זה עיקרון בר-הסתמכות>",\n'
|
||||
' "rule_type": "holding|interpretive|procedural",\n'
|
||||
' "score": 0.0-1.0\n'
|
||||
"}]\n"
|
||||
"אם אין עקרונות ראויים — החזר []."
|
||||
)
|
||||
|
||||
|
||||
def _coerce_list(reply) -> list[dict]:
|
||||
"""A judge may return a list, or {"principles":[...]}/{"items":[...]}, or junk."""
|
||||
if isinstance(reply, list):
|
||||
items = reply
|
||||
elif isinstance(reply, dict):
|
||||
for k in ("principles", "items", "halachot", "results", "candidates"):
|
||||
if isinstance(reply.get(k), list):
|
||||
items = reply[k]
|
||||
break
|
||||
else:
|
||||
items = [reply] if reply.get("rule_statement") else []
|
||||
else:
|
||||
return []
|
||||
out = []
|
||||
for it in items:
|
||||
if not isinstance(it, dict):
|
||||
continue
|
||||
rule = (it.get("rule_statement") or "").strip()
|
||||
quote = (it.get("supporting_quote") or "").strip()
|
||||
if not rule or not quote:
|
||||
continue
|
||||
rt = (it.get("rule_type") or "interpretive").strip().lower()
|
||||
try:
|
||||
score = float(it.get("score", 0.0))
|
||||
except (TypeError, ValueError):
|
||||
score = 0.0
|
||||
out.append({
|
||||
"rule_statement": rule,
|
||||
"supporting_quote": quote,
|
||||
"reasoning_summary": (it.get("reasoning_summary") or "").strip(),
|
||||
"rule_type": rt if rt in _RULE_TYPES else "interpretive",
|
||||
"score": max(0.0, min(1.0, score)),
|
||||
})
|
||||
return out
|
||||
|
||||
|
||||
def _cosine(a: list[float], b: list[float]) -> float:
|
||||
dot = sum(x * y for x, y in zip(a, b))
|
||||
na = math.sqrt(sum(x * x for x in a))
|
||||
nb = math.sqrt(sum(y * y for y in b))
|
||||
return 0.0 if na == 0 or nb == 0 else dot / (na * nb)
|
||||
|
||||
|
||||
def classify(votes: int, score: float) -> str:
|
||||
"""The chair's approval rule → 'approved' | 'pending_review' | 'rejected'."""
|
||||
floor = config.HALACHA_PANEL_SCORE_FLOOR
|
||||
if votes >= 3:
|
||||
return "approved"
|
||||
if votes == 2:
|
||||
return "approved" if score >= floor else "pending_review"
|
||||
return "rejected"
|
||||
|
||||
|
||||
def apply_cap(judged: list[dict], max_new: int | None = None) -> list[dict]:
|
||||
"""Per-decision cap for the retroactive cull (#152, Phase C).
|
||||
|
||||
``judged`` = a decision's principles, each with a panel ``verdict`` + ``score``.
|
||||
Survivors (approved/pending_review) are ranked by score; those beyond ``max_new``
|
||||
are downgraded to 'rejected' (over-cap). Already-rejected stay rejected. Returns
|
||||
a new list with ``final_verdict`` set on each (order preserved). Pure.
|
||||
"""
|
||||
max_new = config.HALACHA_PANEL_MAX_NEW if max_new is None else max_new
|
||||
survivors = [j for j in judged if j.get("verdict") in ("approved", "pending_review")]
|
||||
survivors.sort(key=lambda j: j.get("score", 0.0), reverse=True)
|
||||
keep_ids = {id(j) for j in survivors[:max_new]}
|
||||
out = []
|
||||
for j in judged:
|
||||
v = j.get("verdict")
|
||||
if v in ("approved", "pending_review") and id(j) not in keep_ids:
|
||||
final = "rejected" # over the cap
|
||||
else:
|
||||
final = v
|
||||
out.append({**j, "final_verdict": final})
|
||||
return out
|
||||
|
||||
|
||||
def cluster_candidates(
|
||||
per_model: dict[str, list[dict]], embs: dict[int, list[float]],
|
||||
) -> list[dict]:
|
||||
"""Greedy cross-model clustering. ``per_model`` maps judge→its candidate list;
|
||||
``embs`` maps id(candidate)→embedding. Each cluster merges near-duplicate
|
||||
proposals: votes = # distinct models present, score = mean of each model's
|
||||
BEST score in the cluster, representative = highest-scoring member.
|
||||
|
||||
Pure (no I/O) given the embeddings — unit-testable.
|
||||
"""
|
||||
match = config.HALACHA_PANEL_MATCH_COSINE
|
||||
clusters: list[dict] = []
|
||||
# deterministic order: model order, then model-local order
|
||||
flat: list[tuple[str, dict]] = []
|
||||
for m in panel_judges.JUDGE_NAMES:
|
||||
for c in per_model.get(m, []):
|
||||
flat.append((m, c))
|
||||
|
||||
for model, cand in flat:
|
||||
emb = embs.get(id(cand))
|
||||
placed = False
|
||||
if emb is not None:
|
||||
for cl in clusters:
|
||||
if cl["_emb"] is not None and _cosine(cl["_emb"], emb) >= match:
|
||||
cl["members"].append({"model": model, **cand})
|
||||
prev = cl["per_model_score"].get(model, -1.0)
|
||||
cl["per_model_score"][model] = max(prev, cand["score"])
|
||||
if cand["score"] > cl["score_rep"]:
|
||||
cl["score_rep"] = cand["score"]
|
||||
cl["rule_statement"] = cand["rule_statement"]
|
||||
cl["supporting_quote"] = cand["supporting_quote"]
|
||||
cl["reasoning_summary"] = cand["reasoning_summary"]
|
||||
cl["rule_type"] = cand["rule_type"]
|
||||
cl["_emb"] = emb
|
||||
placed = True
|
||||
break
|
||||
if not placed:
|
||||
clusters.append({
|
||||
"rule_statement": cand["rule_statement"],
|
||||
"supporting_quote": cand["supporting_quote"],
|
||||
"reasoning_summary": cand["reasoning_summary"],
|
||||
"rule_type": cand["rule_type"],
|
||||
"members": [{"model": model, **cand}],
|
||||
"per_model_score": {model: cand["score"]},
|
||||
"score_rep": cand["score"],
|
||||
"_emb": emb,
|
||||
})
|
||||
|
||||
out = []
|
||||
for cl in clusters:
|
||||
pms = cl["per_model_score"]
|
||||
votes = len(pms)
|
||||
score = sum(pms.values()) / votes if votes else 0.0
|
||||
out.append({
|
||||
"rule_statement": cl["rule_statement"],
|
||||
"supporting_quote": cl["supporting_quote"],
|
||||
"reasoning_summary": cl["reasoning_summary"],
|
||||
"rule_type": cl["rule_type"],
|
||||
"votes": votes,
|
||||
"score": round(score, 4),
|
||||
"voters": sorted(pms.keys()),
|
||||
"verdict": classify(votes, score),
|
||||
"embedding": cl["_emb"],
|
||||
})
|
||||
# strongest first
|
||||
out.sort(key=lambda c: (c["votes"], c["score"]), reverse=True)
|
||||
return out
|
||||
|
||||
|
||||
def _keep_score_system(source_kind: str, is_binding: bool) -> str:
|
||||
if source_kind == "internal_committee":
|
||||
nature = ("המקור הוא החלטת ועדת-ערר (מיישמת דין, אינה יוצרת הלכה). ראוי-לשמירה = "
|
||||
"כלל פרשני חדש ובר-הכללה שהוועדה גיבשה; לא-ראוי = יישום תלוי-עובדות, "
|
||||
"חזרה על דין מוכר, אמרת-אגב, או חזרה מילולית על הציטוט.")
|
||||
else:
|
||||
nature = ("ראוי-לשמירה = עיקרון משפטי בר-הכללה והסתמכות (הלכה/פרשנות/כלל-פרוצדורלי); "
|
||||
"לא-ראוי = החלה תלוית-עובדות, אמרת-אגב, או חזרה מילולית על הציטוט.")
|
||||
return (
|
||||
"אתה משפטן בכיר בוועדת ערר לתכנון ובנייה. הוכרע אם עיקרון שחולץ מפסיקה ראוי "
|
||||
f"להישמר כתקדים בר-ציטוט. {nature}\n"
|
||||
"תן גם ציון-ביטחון 0-1 לכך שזהו עיקרון בר-הסתמכות אמיתי.\n"
|
||||
'החזר JSON בלבד: {"keep": true/false, "score": 0.0-1.0, "reason": "<משפט קצר>"}. ללא markdown.'
|
||||
)
|
||||
|
||||
|
||||
async def panel_keep_score(
|
||||
rule_statement: str,
|
||||
supporting_quote: str,
|
||||
reasoning_summary: str = "",
|
||||
*,
|
||||
source_kind: str = "external_upload",
|
||||
is_binding: bool = True,
|
||||
) -> dict:
|
||||
"""Run the 3-judge panel on ONE existing principle (Phase C cull, #152).
|
||||
|
||||
Each judge votes keep + score; votes = # keepers, score = mean of the keepers'
|
||||
scores (chaim: "ממוצע המצביעים"), verdict via the shared :func:`classify`.
|
||||
Returns {votes, score, verdict, voters, per_judge} — per_judge keeps raw
|
||||
replies for the active-learning round (FU-1). Used by the retroactive cull;
|
||||
the extractor uses :func:`panel_extract` instead.
|
||||
"""
|
||||
import asyncio
|
||||
system = _keep_score_system(source_kind, is_binding)
|
||||
user = (f"ניסוח העיקרון:\n{rule_statement}\n\n"
|
||||
f"היגיון:\n{reasoning_summary}\n\nציטוט תומך:\n{supporting_quote}")
|
||||
async with httpx.AsyncClient() as client:
|
||||
c, ds, gm = await asyncio.gather(
|
||||
panel_judges.judge_claude(system, user, max_tokens=300),
|
||||
panel_judges.judge_deepseek(client, system, user, max_tokens=300),
|
||||
panel_judges.judge_gemini(client, system, user, max_tokens=2000),
|
||||
)
|
||||
raw = {"claude": c, "deepseek": ds, "gemini": gm}
|
||||
keepers, scores = [], []
|
||||
for name, reply in raw.items():
|
||||
if panel_judges.to_bool(reply, "keep"):
|
||||
keepers.append(name)
|
||||
try:
|
||||
scores.append(max(0.0, min(1.0, float(reply.get("score", 0.0)))))
|
||||
except (TypeError, ValueError):
|
||||
scores.append(0.0)
|
||||
votes = len(keepers)
|
||||
score = round(sum(scores) / votes, 4) if votes else 0.0
|
||||
return {"votes": votes, "score": score, "verdict": classify(votes, score),
|
||||
"voters": sorted(keepers), "per_judge": raw}
|
||||
|
||||
|
||||
async def _run_three(system: str, user: str, max_tokens: int) -> dict[str, object]:
|
||||
async with httpx.AsyncClient() as client:
|
||||
import asyncio
|
||||
c, ds, gm = await asyncio.gather(
|
||||
panel_judges.judge_claude(system, user, max_tokens=max_tokens),
|
||||
panel_judges.judge_deepseek(client, system, user, max_tokens=max_tokens),
|
||||
panel_judges.judge_gemini(client, system, user, max_tokens=max_tokens),
|
||||
)
|
||||
return {"claude": c, "deepseek": ds, "gemini": gm}
|
||||
|
||||
|
||||
async def panel_extract(
|
||||
text: str,
|
||||
*,
|
||||
source_kind: str = "external_upload",
|
||||
is_binding: bool = True,
|
||||
propose_n: int | None = None,
|
||||
) -> list[dict]:
|
||||
"""Run the 3-model panel over a decision's text → merged candidate principles.
|
||||
|
||||
Returns clusters (strongest first), each:
|
||||
{rule_statement, supporting_quote, reasoning_summary, rule_type,
|
||||
votes, score, voters, verdict, embedding}
|
||||
Does NOT dedup vs the corpus and does NOT apply the MAX_NEW cap — the caller
|
||||
(extractor / cull) owns those (they need DB + differ B vs C).
|
||||
"""
|
||||
propose_n = propose_n if propose_n is not None else config.HALACHA_PANEL_MAX_NEW + 3
|
||||
system = _extract_system(source_kind, is_binding, propose_n)
|
||||
user = f"--- תחילת המקור ---\n{text}\n--- סוף המקור ---"
|
||||
replies = await _run_three(system, user, max_tokens=8000)
|
||||
|
||||
per_model: dict[str, list[dict]] = {}
|
||||
for name in panel_judges.JUDGE_NAMES:
|
||||
per_model[name] = _coerce_list(replies.get(name))
|
||||
if not any(per_model.values()):
|
||||
logger.warning("panel_extract: all three judges returned no candidates")
|
||||
return []
|
||||
|
||||
# embed every candidate's rule_statement for cross-model matching
|
||||
flat = [c for m in panel_judges.JUDGE_NAMES for c in per_model[m]]
|
||||
embs: dict[int, list[float]] = {}
|
||||
if flat:
|
||||
vecs = await embeddings.embed_texts([c["rule_statement"] for c in flat])
|
||||
for c, v in zip(flat, vecs):
|
||||
embs[id(c)] = list(v)
|
||||
return cluster_candidates(per_model, embs)
|
||||
114
mcp-server/src/legal_mcp/services/panel_judges.py
Normal file
114
mcp-server/src/legal_mcp/services/panel_judges.py
Normal file
@@ -0,0 +1,114 @@
|
||||
"""Three independent-lineage LLM judges — the shared primitive (G2).
|
||||
|
||||
Extracted from scripts/halacha_panel_approve.py so the panel-extraction regime
|
||||
(#152) and the existing approval-triage share ONE implementation of the judges
|
||||
(no parallel HTTP/auth paths). Diversity of lineage is the point — cross-model
|
||||
agreement is the reliable signal (gold-set AC1=0.92):
|
||||
|
||||
• claude — Opus via claude_session (local CLI, zero marginal cost) [Anthropic]
|
||||
• deepseek — api.deepseek.com (deepseek-chat) [DeepSeek]
|
||||
• gemini — generativelanguage (gemini-2.5-flash, #1 LegalBench) [Google]
|
||||
|
||||
Every judge has the SAME signature ``(system, user) -> dict | None`` and returns
|
||||
None on ANY failure (missing key, HTTP error, bad JSON) — callers must tolerate a
|
||||
missing judge (a 2/3 panel is still actionable).
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
import json
|
||||
import os
|
||||
from pathlib import Path
|
||||
|
||||
import httpx
|
||||
|
||||
from legal_mcp.services import claude_session
|
||||
|
||||
|
||||
def _env_key(name: str, *files: str) -> str:
|
||||
for f in files:
|
||||
p = Path(f).expanduser()
|
||||
if p.exists():
|
||||
for line in p.read_text().splitlines():
|
||||
if line.startswith(name + "="):
|
||||
return line.split("=", 1)[1].strip()
|
||||
return os.environ.get(name, "")
|
||||
|
||||
|
||||
DEEPSEEK_KEY = _env_key("DEEPSEEK_API_KEY", "~/.hermes/profiles/deepseek/.env", "~/.env")
|
||||
# canonical Infisical name is GOOGLE_GEMINI_API_KEY (/external-apis/gemini); accept
|
||||
# the bare GEMINI_API_KEY too for back-compat.
|
||||
GEMINI_KEY = _env_key("GOOGLE_GEMINI_API_KEY", "~/.env") or _env_key("GEMINI_API_KEY", "~/.env")
|
||||
|
||||
JUDGE_NAMES = ("claude", "deepseek", "gemini")
|
||||
|
||||
|
||||
def available() -> dict[str, bool]:
|
||||
return {"claude": True, "deepseek": bool(DEEPSEEK_KEY), "gemini": bool(GEMINI_KEY)}
|
||||
|
||||
|
||||
async def judge_claude(system: str, user: str, *, max_tokens: int = 2000) -> dict | list | None:
|
||||
try:
|
||||
# tools="" → no tool_use, so a pure text→JSON extraction never trips
|
||||
# error_max_turns (and wastes no retries on a web-search detour).
|
||||
return await claude_session.query_json(user, system=system, tools="")
|
||||
except Exception:
|
||||
return None
|
||||
|
||||
|
||||
async def judge_deepseek(
|
||||
client: httpx.AsyncClient, system: str, user: str, *, max_tokens: int = 2000,
|
||||
) -> dict | list | None:
|
||||
if not DEEPSEEK_KEY:
|
||||
return None
|
||||
try:
|
||||
r = await client.post(
|
||||
"https://api.deepseek.com/v1/chat/completions",
|
||||
headers={"Authorization": f"Bearer {DEEPSEEK_KEY}", "Content-Type": "application/json"},
|
||||
json={"model": "deepseek-chat", "temperature": 0, "max_tokens": max_tokens,
|
||||
"response_format": {"type": "json_object"},
|
||||
"messages": [{"role": "system", "content": system},
|
||||
{"role": "user", "content": user}]},
|
||||
timeout=120,
|
||||
)
|
||||
r.raise_for_status()
|
||||
return json.loads(r.json()["choices"][0]["message"]["content"])
|
||||
except Exception:
|
||||
return None
|
||||
|
||||
|
||||
async def judge_gemini(
|
||||
client: httpx.AsyncClient, system: str, user: str, *, max_tokens: int = 8000,
|
||||
) -> dict | list | None:
|
||||
if not GEMINI_KEY:
|
||||
return None
|
||||
try:
|
||||
r = await client.post(
|
||||
f"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-flash:generateContent?key={GEMINI_KEY}",
|
||||
headers={"Content-Type": "application/json"},
|
||||
json={"system_instruction": {"parts": [{"text": system}]},
|
||||
"contents": [{"parts": [{"text": user}]}],
|
||||
# thinkingBudget=0 disables gemini-2.5-flash's "thinking", which
|
||||
# otherwise eats the output budget on large inputs → empty parts
|
||||
# → finishReason MAX_TOKENS → the judge silently dropped out.
|
||||
"generationConfig": {"temperature": 0, "maxOutputTokens": max_tokens,
|
||||
"responseMimeType": "application/json",
|
||||
"thinkingConfig": {"thinkingBudget": 0}}},
|
||||
timeout=120,
|
||||
)
|
||||
r.raise_for_status()
|
||||
parts = (r.json().get("candidates") or [{}])[0].get("content", {}).get("parts")
|
||||
if not parts:
|
||||
return None
|
||||
return json.loads(parts[0]["text"])
|
||||
except Exception:
|
||||
return None
|
||||
|
||||
|
||||
def to_bool(d: dict | None, key: str) -> bool | None:
|
||||
"""Robust bool coercion for a judge JSON field (handles he/en truthy strings)."""
|
||||
if not isinstance(d, dict) or key not in d:
|
||||
return None
|
||||
v = d[key]
|
||||
if isinstance(v, bool):
|
||||
return v
|
||||
return str(v).strip().lower() in ("true", "1", "yes", "כן")
|
||||
279
mcp-server/src/legal_mcp/services/plans_extractor.py
Normal file
279
mcp-server/src/legal_mcp/services/plans_extractor.py
Normal file
@@ -0,0 +1,279 @@
|
||||
"""חילוץ מובנה של תכניות בניין-עיר ותוקפן לתוך מרשם-התכניות (טבלת plans).
|
||||
|
||||
תכלית: לבנות SSOT קנוני לתכניות שחוזרות בין תיקים — מספר-תכנית מנורמל, תוקף
|
||||
(פרסום למתן תוקף ברשומות + מס' ילקוט-הפרסומים), ומשפט-ייעוד אחד — כדי שבלוק ט
|
||||
יצטט אותן בנוסח אחיד ודטרמיניסטי (format_plan_citation) במקום לגזור מחדש מהשומות
|
||||
בכל תיק (G2).
|
||||
|
||||
חילוץ עובדתי בלבד. הרשומות נכנסות review_status='pending_review' וממתינות
|
||||
לאישור-יו"ר (INV-DM5/G10) לפני שישמשו בכתיבה. הקריאות ל-LLM מתבצעות דרך
|
||||
claude_session המקומי בלבד (כמו שאר המחלצים) — לא Anthropic SDK ישיר.
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
import os
|
||||
import re
|
||||
from uuid import UUID
|
||||
|
||||
from legal_mcp.services import claude_session, db
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
# Descriptive provenance tag for INV-DM4 (we call the local claude CLI session,
|
||||
# not a pinned model id — the session model is whatever is configured).
|
||||
MODEL_TAG = "claude_local"
|
||||
|
||||
# ── mavat auto-enrichment (Phase C trigger 2) ──────────────────────────────────
|
||||
# When an extracted candidate is missing its validity (gazette_date / yalkut), we
|
||||
# fill the gaps from the official source (mavat) via the host bridge. Conservative
|
||||
# by design: only modern numeric plan numbers resolve on mavat search, each fetch
|
||||
# drives a real browser (~30-60s, serial), so we gate by format + cap per call and
|
||||
# fail soft. Set PLAN_ENRICH_FROM_MAVAT=0 to disable.
|
||||
_ENRICH_ENABLED = os.environ.get("PLAN_ENRICH_FROM_MAVAT", "1").strip() not in ("0", "false", "")
|
||||
_ENRICH_MAX_PER_CALL = int(os.environ.get("PLAN_ENRICH_MAX_PER_CALL", "8"))
|
||||
# mavat search resolves the modern "NN-NNNNNNN" identifiers; legacy forms
|
||||
# (מי/820, 5166/ב, תמ"א 38) don't, so don't waste a browser launch on them.
|
||||
_MAVAT_NUM_RE = re.compile(r"^\d{2,4}-\d{6,8}$")
|
||||
|
||||
|
||||
EXTRACT_PLANS_PROMPT = """אתה מחלץ מידע עובדתי על תכניות בניין-עיר (תב"ע) עבור מרשם-תכניות של ועדת ערר.
|
||||
|
||||
תפקידך: לחלץ כל תכנית שמצוין לגביה **תוקף** — מתי פורסמה למתן תוקף (ברשומות / בילקוט הפרסומים) — או ייעוד ברור.
|
||||
|
||||
## כללים
|
||||
- עובדתי בלבד. אל תסיק, אל תפרש, ואל תמציא תאריך שאינו כתוב במפורש.
|
||||
- חלץ רק תכניות שמופיע לגביהן מידע-תוקף או ייעוד ברור. דלג על אזכור-אגב ללא פרטים.
|
||||
- gazette_date: תאריך הפרסום למתן תוקף, בפורמט ISO (YYYY-MM-DD). אם לא צוין תאריך — השאר "".
|
||||
- yalkut_number: מספר ילקוט הפרסומים / י"פ אם צוין (למשל "5965"). אחרת "".
|
||||
- display_name: שם-התכנית כפי שמקובל לכתוב בהחלטה, כולל המילה "תכנית" (למשל "תכנית מי/820").
|
||||
- plan_number: מזהה-התכנית בלבד, ללא המילה "תכנית" (למשל "מי/820", "5166/ב", "152-0132902", "תמ\\"א 38").
|
||||
- plan_type: אחד מ- ארצית / מחוזית / מקומית / מפורטת / כוללנית, אם ניתן לקבוע מהטקסט. אחרת "".
|
||||
- purpose: משפט-ייעוד אחד תמציתי (מה התכנית עושה/משנה/קובעת). אחרת "".
|
||||
- raw_quote: ציטוט מילולי של המשפט שממנו חולץ התוקף, עד 200 תווים.
|
||||
|
||||
## פלט
|
||||
החזר JSON array בלבד — ללא markdown, ללא הסברים:
|
||||
[
|
||||
{
|
||||
"plan_number": "מי/820",
|
||||
"display_name": "תכנית מי/820",
|
||||
"plan_type": "מקומית",
|
||||
"gazette_date": "2001-08-09",
|
||||
"yalkut_number": "",
|
||||
"purpose": "משנה את הוראות תכנית מי/200 ומרחיבה את השימושים המותרים באזור חקלאי",
|
||||
"raw_quote": "תוכנית מי/820 ... פורסמה למתן תוקף ביום 9.8.2001"
|
||||
}
|
||||
]
|
||||
|
||||
אם אין תכניות עם מידע-תוקף/ייעוד — החזר [].
|
||||
"""
|
||||
|
||||
|
||||
def _chunk_text(text: str, max_chars: int = 25000) -> list[str]:
|
||||
"""Split a long document at paragraph boundaries (mirrors appraiser extractor)."""
|
||||
if len(text) <= max_chars:
|
||||
return [text]
|
||||
chunks: list[str] = []
|
||||
pos = 0
|
||||
while pos < len(text):
|
||||
end = min(pos + max_chars, len(text))
|
||||
if end < len(text):
|
||||
break_pos = text.rfind("\n\n", pos, end)
|
||||
if break_pos > pos + max_chars // 2:
|
||||
end = break_pos
|
||||
chunks.append(text[pos:end])
|
||||
pos = end
|
||||
return chunks
|
||||
|
||||
|
||||
async def extract_plans_from_text(text: str) -> list[dict]:
|
||||
"""Extract plan candidates from arbitrary text via the local claude session.
|
||||
|
||||
Returns a list of normalized candidate dicts (not yet persisted). Factual only.
|
||||
"""
|
||||
candidates: list[dict] = []
|
||||
chunks = _chunk_text(text)
|
||||
for i, chunk in enumerate(chunks):
|
||||
chunk_label = f" (חלק {i+1}/{len(chunks)})" if len(chunks) > 1 else ""
|
||||
prompt = (
|
||||
f"{EXTRACT_PLANS_PROMPT}\n\n"
|
||||
f"--- תחילת מסמך{chunk_label} ---\n{chunk}\n--- סוף מסמך ---"
|
||||
)
|
||||
result = await claude_session.query_json(prompt, tools="") # no tool_use
|
||||
if not isinstance(result, list):
|
||||
logger.warning(
|
||||
"extract_plans_from_text: chunk %d returned non-list (%s)",
|
||||
i, type(result).__name__,
|
||||
)
|
||||
continue
|
||||
for item in result:
|
||||
if not isinstance(item, dict):
|
||||
continue
|
||||
num = (item.get("plan_number") or "").strip()
|
||||
if not num:
|
||||
continue
|
||||
candidates.append({
|
||||
"plan_number": num,
|
||||
"display_name": (item.get("display_name") or "").strip(),
|
||||
"plan_type": (item.get("plan_type") or "").strip(),
|
||||
"gazette_date": (item.get("gazette_date") or "").strip(),
|
||||
"yalkut_number": (item.get("yalkut_number") or "").strip(),
|
||||
"purpose": (item.get("purpose") or "").strip(),
|
||||
"raw_quote": (item.get("raw_quote") or "").strip(),
|
||||
})
|
||||
return candidates
|
||||
|
||||
|
||||
def _needs_enrichment(c: dict) -> bool:
|
||||
"""A candidate is worth enriching iff its validity is incomplete AND its
|
||||
number is a mavat-resolvable modern identifier."""
|
||||
if not (_ENRICH_ENABLED and _MAVAT_NUM_RE.match((c.get("plan_number") or "").strip())):
|
||||
return False
|
||||
return not (c.get("gazette_date") and c.get("yalkut_number"))
|
||||
|
||||
|
||||
async def _enrich_from_mavat(c: dict) -> tuple[dict, bool]:
|
||||
"""Fill a candidate's MISSING fields from mavat (never override case-grounded
|
||||
values). Returns (candidate, enriched?). Fails soft — a bridge-down / not-found
|
||||
/ blocked fetch leaves the candidate untouched (logged, never swallowed)."""
|
||||
from legal_mcp.services import plans_fetch
|
||||
|
||||
num = c["plan_number"].strip()
|
||||
try:
|
||||
fetched = await plans_fetch.fetch_plan(num)
|
||||
except plans_fetch.PlanFetchUnavailable as e:
|
||||
logger.info("plan-enrich: bridge unavailable for %s — %s", num, e)
|
||||
return c, False
|
||||
except plans_fetch.PlanFetchError as e:
|
||||
logger.info("plan-enrich: mavat had no usable result for %s — %s", num, e)
|
||||
return c, False
|
||||
except Exception as e: # noqa: BLE001 — never let enrichment break extraction
|
||||
logger.warning("plan-enrich: unexpected error for %s — %s", num, e)
|
||||
return c, False
|
||||
|
||||
enriched = dict(c)
|
||||
filled: list[str] = []
|
||||
for f in ("gazette_date", "yalkut_number", "display_name", "plan_type", "purpose"):
|
||||
if not enriched.get(f) and fetched.get(f):
|
||||
enriched[f] = fetched[f]
|
||||
filled.append(f)
|
||||
if filled:
|
||||
logger.info("plan-enrich: %s filled %s from mavat (%s)",
|
||||
num, ",".join(filled), fetched.get("source_url", ""))
|
||||
return enriched, True
|
||||
return c, False
|
||||
|
||||
|
||||
async def upsert_candidates(
|
||||
candidates: list[dict],
|
||||
*,
|
||||
source_case_number: str = "",
|
||||
source_document_id: UUID | None = None,
|
||||
model_used: str = MODEL_TAG,
|
||||
enrich: bool = True,
|
||||
) -> list[dict]:
|
||||
"""Upsert extracted candidates into the registry as pending_review (G10).
|
||||
|
||||
When ``enrich`` (default) and a candidate's validity is incomplete, its
|
||||
missing fields are pulled from mavat first (capped per call). The row still
|
||||
enters pending_review — enrichment changes the candidate, not the chair gate.
|
||||
"""
|
||||
out: list[dict] = []
|
||||
enriched_count = 0
|
||||
for c in candidates:
|
||||
used = model_used
|
||||
if enrich and enriched_count < _ENRICH_MAX_PER_CALL and _needs_enrichment(c):
|
||||
c, did = await _enrich_from_mavat(c)
|
||||
if did:
|
||||
enriched_count += 1
|
||||
used = f"{model_used}+mavat"
|
||||
try:
|
||||
plan = await db.upsert_plan(
|
||||
plan_number=c["plan_number"],
|
||||
display_name=c.get("display_name", ""),
|
||||
plan_type=c.get("plan_type", ""),
|
||||
gazette_date=c.get("gazette_date") or None,
|
||||
yalkut_number=c.get("yalkut_number", ""),
|
||||
purpose=c.get("purpose", ""),
|
||||
review_status="pending_review",
|
||||
source_case_number=source_case_number,
|
||||
source_document_id=source_document_id,
|
||||
model_used=used,
|
||||
)
|
||||
out.append(plan)
|
||||
except ValueError as e:
|
||||
# Don't swallow — surface the bad candidate so it isn't silently dropped.
|
||||
logger.warning("upsert_candidates: skipped %r — %s", c.get("plan_number"), e)
|
||||
if enrich and enriched_count >= _ENRICH_MAX_PER_CALL:
|
||||
logger.warning(
|
||||
"plan-enrich: hit the per-call cap (%d) — remaining candidates kept "
|
||||
"as-extracted (no silent truncation; raise PLAN_ENRICH_MAX_PER_CALL).",
|
||||
_ENRICH_MAX_PER_CALL,
|
||||
)
|
||||
return out
|
||||
|
||||
|
||||
async def extract_plans_for_case(case_id: UUID) -> dict:
|
||||
"""Extract plan candidates from every document with text in the case.
|
||||
|
||||
Upserts them into the registry as pending_review. Thorough by design (we do not
|
||||
pre-filter by doc_type — a plan's validity can be cited anywhere). Returns a
|
||||
summary for serialization back to the caller.
|
||||
"""
|
||||
case = await db.get_case(case_id)
|
||||
source_case_number = (case or {}).get("case_number", "") or ""
|
||||
docs = await db.list_documents(case_id)
|
||||
|
||||
by_doc: list[dict] = []
|
||||
seen_numbers: dict[str, dict] = {}
|
||||
total_candidates = 0
|
||||
for doc in docs:
|
||||
text = await db.get_document_text(UUID(doc["id"]))
|
||||
if not text:
|
||||
continue
|
||||
try:
|
||||
cands = await extract_plans_from_text(text)
|
||||
except Exception as e: # noqa: BLE001 — record, don't swallow
|
||||
logger.exception("extract_plans_for_case: failed on doc %s", doc["id"])
|
||||
by_doc.append({
|
||||
"document_id": doc["id"], "title": doc.get("title", ""),
|
||||
"status": "error", "error": str(e), "candidates": 0,
|
||||
})
|
||||
continue
|
||||
plans = await upsert_candidates(
|
||||
cands,
|
||||
source_case_number=source_case_number,
|
||||
source_document_id=UUID(doc["id"]),
|
||||
)
|
||||
total_candidates += len(cands)
|
||||
for p in plans:
|
||||
seen_numbers[p["plan_number"]] = p
|
||||
by_doc.append({
|
||||
"document_id": doc["id"], "title": doc.get("title", ""),
|
||||
"status": "completed", "candidates": len(cands),
|
||||
})
|
||||
|
||||
# Surface near-duplicates for the chair to merge manually (G10) — never
|
||||
# auto-merged. A variant of an existing plan written differently won't share
|
||||
# the normalized key, so flag it here instead of silently creating a dup.
|
||||
plans_out = list(seen_numbers.values())
|
||||
dup_hits = 0
|
||||
for p in plans_out:
|
||||
sims = await db.find_similar_plans(
|
||||
p["plan_number"], p.get("display_name", ""), exclude_id=UUID(p["id"]),
|
||||
)
|
||||
p["possible_duplicates"] = sims
|
||||
dup_hits += len(sims)
|
||||
|
||||
return {
|
||||
"status": "completed",
|
||||
"case_number": source_case_number,
|
||||
"documents_scanned": len(by_doc),
|
||||
"total_candidates": total_candidates,
|
||||
"distinct_plans": len(plans_out),
|
||||
"possible_duplicate_hits": dup_hits,
|
||||
"plans": plans_out,
|
||||
"by_document": by_doc,
|
||||
}
|
||||
95
mcp-server/src/legal_mcp/services/plans_fetch.py
Normal file
95
mcp-server/src/legal_mcp/services/plans_fetch.py
Normal file
@@ -0,0 +1,95 @@
|
||||
"""Pull תב"ע identity + validity from mavat (מנהל התכנון) — container/MCP side.
|
||||
|
||||
The thin container-side half of the mavat plan fetcher. The actual browser work
|
||||
happens on the **host** (`court_fetch_service` + `mavat_client`, Camoufox over
|
||||
Xvfb) because mavat sits behind an F5 BIG-IP ASM bot-wall that only a real
|
||||
JS-executing browser clears — a scripted httpx from the container gets a
|
||||
302→maintenance. This module just calls that host bridge over the docker0
|
||||
loopback (same bridge, secret and bind as X13 court-fetch — G2: no second
|
||||
service/port/secret) and normalises the result into registry fields.
|
||||
|
||||
INV-AH: every pulled value carries `source_url` (the mavat plan page); a field
|
||||
the source doesn't expose (notably yalkut on some plans) comes back empty rather
|
||||
than guessed. The chair still gates the row (review_status) before block-ט cites
|
||||
it — this fetcher never writes the registry, it only returns a candidate dict.
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
import os
|
||||
|
||||
import httpx
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
# Same host bridge as X13 (pm2 `legal-court-fetch-service`, docker0 gateway). The
|
||||
# container and the host MCP server both reach 10.0.1.1:8771; the secret is the
|
||||
# shared COURT_FETCH_SHARED_SECRET (Coolify env on the container).
|
||||
_SERVICE_URL = os.environ.get("COURT_FETCH_SERVICE_URL", "http://10.0.1.1:8771")
|
||||
_SHARED_SECRET = os.environ.get("COURT_FETCH_SHARED_SECRET", "").strip()
|
||||
# mavat is slow (F5 challenge + SPA hydration + SV4); give the browser room but
|
||||
# stay under the host driver's own hard cap.
|
||||
_TIMEOUT_S = float(os.environ.get("PLAN_FETCH_TIMEOUT_S", "180"))
|
||||
|
||||
# The fields the bridge returns and we surface to the form / upsert.
|
||||
_PLAN_FIELDS = (
|
||||
"plan_number", "display_name", "plan_type", "purpose",
|
||||
"gazette_date", "yalkut_number", "yalkut_page", "source_url",
|
||||
)
|
||||
|
||||
|
||||
class PlanFetchUnavailable(RuntimeError):
|
||||
"""The host browser bridge isn't reachable / not configured."""
|
||||
|
||||
|
||||
class PlanFetchError(RuntimeError):
|
||||
"""mavat was reached but the plan couldn't be fetched/parsed."""
|
||||
|
||||
|
||||
async def fetch_plan(plan_number: str) -> dict:
|
||||
"""Fetch one plan's metadata from mavat via the host bridge.
|
||||
|
||||
Returns a dict with the keys in ``_PLAN_FIELDS`` (missing values empty, never
|
||||
invented). Raises ``PlanFetchUnavailable`` if the bridge is down/unset, or
|
||||
``PlanFetchError`` if mavat was reached but the plan wasn't found/parsed.
|
||||
"""
|
||||
plan_number = (plan_number or "").strip()
|
||||
if not plan_number:
|
||||
raise PlanFetchError("חסר מספר-תכנית")
|
||||
if not _SHARED_SECRET:
|
||||
raise PlanFetchUnavailable(
|
||||
"COURT_FETCH_SHARED_SECRET אינו מוגדר — לא ניתן לפנות לשירות-המשיכה."
|
||||
)
|
||||
|
||||
headers = {"Authorization": f"Bearer {_SHARED_SECRET}"}
|
||||
try:
|
||||
async with httpx.AsyncClient(timeout=_TIMEOUT_S) as client:
|
||||
resp = await client.post(
|
||||
f"{_SERVICE_URL}/plan-fetch",
|
||||
json={"plan_number": plan_number},
|
||||
headers=headers,
|
||||
)
|
||||
except httpx.ConnectError as e:
|
||||
raise PlanFetchUnavailable(
|
||||
f"שירות-המשיכה (legal-court-fetch-service) אינו זמין ב-{_SERVICE_URL}: {e}"
|
||||
) from e
|
||||
except httpx.HTTPError as e:
|
||||
raise PlanFetchUnavailable(f"שגיאת-תקשורת לשירות-המשיכה: {e}") from e
|
||||
|
||||
if resp.status_code == 401:
|
||||
raise PlanFetchUnavailable("שירות-המשיכה דחה את הסוד (401) — בדוק drift של COURT_FETCH_SHARED_SECRET.")
|
||||
if resp.status_code != 200:
|
||||
raise PlanFetchError(f"שירות-המשיכה החזיר {resp.status_code}: {resp.text[:200]}")
|
||||
|
||||
body = resp.json()
|
||||
if not body.get("ok"):
|
||||
raise PlanFetchError(body.get("reason") or "התכנית לא נמצאה ב-מנהל-התכנון")
|
||||
|
||||
plan = body.get("plan") or {}
|
||||
# Normalise to exactly our fields; keep source_url mandatory (INV-AH).
|
||||
out = {k: (plan.get(k) or "") for k in _PLAN_FIELDS}
|
||||
out["plan_number"] = out["plan_number"] or plan_number
|
||||
if not out["source_url"]:
|
||||
raise PlanFetchError("התקבלה תכנית ללא source_url — נדחה (INV-AH).")
|
||||
return out
|
||||
@@ -176,8 +176,12 @@ _APPEALS_COMMITTEE_DIGIT_TO_SUBTYPE = {
|
||||
|
||||
# Match the case number (last numeric group) in formats like:
|
||||
# ARAR-25-8126, ARAR-24-01-8007-33, 8126/25, 1170, ערר 1024-25
|
||||
_CASE_NUM = re.compile(r"(?:ARAR[-\s]*\d{2}[-\s]*(?:\d{2}[-\s]*)?)(\d{4})", re.IGNORECASE)
|
||||
_PLAIN_NUM = re.compile(r"(\d{4})")
|
||||
# Serial is 4 OR 5 digits: 4 = ערר (appeal), 5 = בל"מ (extension-of-time) per
|
||||
# the post-reform numbering convention (Jerusalem adopted 5-digit בל"מ; Tel Aviv
|
||||
# long predates it — e.g. 81002-01-21). The leading digit still encodes the
|
||||
# domain (1→רישוי, 8→היטל, 9→פיצויים) in BOTH widths — see is_blam_by_number().
|
||||
_CASE_NUM = re.compile(r"(?:ARAR[-\s]*\d{2}[-\s]*(?:\d{2}[-\s]*)?)(\d{4,5})", re.IGNORECASE)
|
||||
_PLAIN_NUM = re.compile(r"(\d{4,5})")
|
||||
|
||||
|
||||
_DOMAIN_TO_SUBTYPE: dict[str, str] = {
|
||||
@@ -216,6 +220,29 @@ def derive_subtype(case_number: str, practice_area: str = DEFAULT_PRACTICE_AREA)
|
||||
return _APPEALS_COMMITTEE_DIGIT_TO_SUBTYPE.get(first_digit, "unknown")
|
||||
|
||||
|
||||
def case_serial_digits(case_number: str) -> int | None:
|
||||
"""Return the digit-count of the case serial, or None if unparseable.
|
||||
|
||||
The serial is the leading numeric group of the case number (the part
|
||||
before month/year): ``8126-03-25`` → 4, ``81002-01-21`` → 5.
|
||||
"""
|
||||
cn = case_number or ""
|
||||
m = _CASE_NUM.search(cn) or _PLAIN_NUM.search(cn)
|
||||
return len(m.group(1)) if m else None
|
||||
|
||||
|
||||
def is_blam_by_number(case_number: str) -> bool:
|
||||
"""True iff the case serial has 5 digits.
|
||||
|
||||
Post-reform numbering convention: a 4-digit serial is an ערר (appeal),
|
||||
a 5-digit serial is a בל"מ (בקשה להארכת מועד). This is the authoritative
|
||||
signal going forward; legacy 4-digit בל"מ cases are still detected from
|
||||
the subject via ``is_blam_subject``. The rule is **one-directional** — a
|
||||
5-digit serial implies בל"מ, but a 4-digit serial does NOT imply ערר.
|
||||
"""
|
||||
return case_serial_digits(case_number) == 5
|
||||
|
||||
|
||||
def derive_subtype_with_blam(
|
||||
case_number: str,
|
||||
subject: str = "",
|
||||
@@ -236,9 +263,11 @@ def derive_subtype_with_blam(
|
||||
'building_permit'
|
||||
"""
|
||||
base = derive_subtype(case_number, practice_area)
|
||||
if not is_blam_subject(subject):
|
||||
# בל"מ is signalled either by the subject text (legacy 4-digit cases) or by
|
||||
# a 5-digit serial (post-reform convention).
|
||||
if not (is_blam_subject(subject) or is_blam_by_number(case_number)):
|
||||
return base
|
||||
# subject says it's בל"מ — return the matching extension_request_* variant.
|
||||
# it's a בל"מ — return the matching extension_request_* variant.
|
||||
# For domain practice_area (axis B), use the direct mapping.
|
||||
if practice_area in DOMAIN_PRACTICE_AREAS:
|
||||
return _DOMAIN_TO_BLAM_SUBTYPE.get(practice_area, base)
|
||||
@@ -263,15 +292,21 @@ def is_blam_subtype(appeal_subtype: str) -> bool:
|
||||
return appeal_subtype in BLAM_SUBTYPES
|
||||
|
||||
|
||||
def derive_proceeding_type(*, appeal_subtype: str = "", subject: str = "") -> str:
|
||||
def derive_proceeding_type(
|
||||
*, case_number: str = "", appeal_subtype: str = "", subject: str = "",
|
||||
) -> str:
|
||||
"""Return 'בל"מ' / 'ערר' for appeals-committee decisions/cases.
|
||||
|
||||
Priority: explicit subtype prefix → subject regex → default 'ערר'.
|
||||
Priority: explicit subtype prefix → subject regex → 5-digit serial →
|
||||
default 'ערר'. The 5-digit signal is one-directional (a 4-digit serial
|
||||
does not force 'ערר' — a legacy 4-digit בל"מ is caught by the subject).
|
||||
"""
|
||||
if appeal_subtype and appeal_subtype.startswith("extension_request_"):
|
||||
return 'בל"מ'
|
||||
if subject and is_blam_subject(subject):
|
||||
return 'בל"מ'
|
||||
if case_number and is_blam_by_number(case_number):
|
||||
return 'בל"מ'
|
||||
return "ערר"
|
||||
|
||||
|
||||
|
||||
@@ -15,6 +15,7 @@ from __future__ import annotations
|
||||
|
||||
import asyncio
|
||||
import logging
|
||||
import os
|
||||
from pathlib import Path
|
||||
from typing import Awaitable, Callable
|
||||
from uuid import UUID
|
||||
@@ -137,6 +138,10 @@ async def reextract_halachot(
|
||||
) -> dict:
|
||||
"""Re-run the halacha extractor on an existing precedent. Idempotent.
|
||||
|
||||
Chair-approved / published halachot are PRESERVED across the re-extract
|
||||
(INV-G10) — only un-reviewed rows are replaced. See
|
||||
``db.reset_halacha_extraction`` / TaskMaster #108.
|
||||
|
||||
**MCP-tool-only path.** This function calls into ``halacha_extractor``,
|
||||
which calls ``claude_session`` — the local CLI is required. Invoking
|
||||
this from the FastAPI container will raise ``Claude CLI not found``.
|
||||
@@ -156,9 +161,10 @@ async def reextract_halachot(
|
||||
# bad data. See note in db.request_metadata_extraction.
|
||||
|
||||
await progress("extracting_halachot", 50, "מחלץ הלכות מחדש")
|
||||
# Explicit re-extraction = clean slate (force): wipe prior halachot +
|
||||
# per-chunk checkpoints and redo all. (Queue draining / resume uses the
|
||||
# default force=False so an interrupted run continues where it stopped.)
|
||||
# Explicit re-extraction = clean slate (force): drop un-reviewed halachot +
|
||||
# clear per-chunk checkpoints and redo all, but PRESERVE chair-approved /
|
||||
# published rows (INV-G10; dedup-on-insert avoids duplicating them). (Queue
|
||||
# draining / resume uses force=False so an interrupted run continues.)
|
||||
result = await halacha_extractor.extract(case_law_id, force=True)
|
||||
# Clear the queue timestamp on completion so the UI badge / worker queue
|
||||
# don't keep showing this row. The queue worker (process_pending_extractions)
|
||||
@@ -179,6 +185,9 @@ async def reextract_halachot(
|
||||
# precedent into a 429 storm. Observed 2026-05-03: 1110/20 succeeded with 9
|
||||
# halachot, 317/10 immediately after returned silent no_halachot.
|
||||
INTER_PRECEDENT_COOLDOWN_SEC = 30
|
||||
# Metadata extraction is on Gemini (fast, high rate limits) — a brief spacer is
|
||||
# enough; the 30s above is for the Claude-backed halacha path.
|
||||
METADATA_COOLDOWN_SEC = float(os.environ.get("METADATA_COOLDOWN_SEC", "2"))
|
||||
|
||||
# How many times to retry a precedent that came back as 'extraction_failed'
|
||||
# (i.e. >50% chunks crashed). Each retry uses a longer cooldown.
|
||||
@@ -212,6 +221,27 @@ async def process_pending_extractions(kind: str = "metadata", limit: int = 20) -
|
||||
if kind not in {"metadata", "halacha"}:
|
||||
raise ValueError("kind must be 'metadata' or 'halacha'")
|
||||
|
||||
# Self-heal stale 'processing' rows (fully unattended): a drain that crashed
|
||||
# mid-extraction can leave a row status='processing' with its requested_at
|
||||
# cleared — orphaned, so it would never be re-picked. Re-stamp it so it
|
||||
# re-drains (the halacha extractor uses force=False → resumes from chunk
|
||||
# checkpoints, no duplicates). Safe under the global advisory lock (only one
|
||||
# drain runs at a time). Mirrors the digests-drain self-heal.
|
||||
healed = await db.requeue_stale_processing_extractions(kind=kind)
|
||||
if healed:
|
||||
logger.warning("self-healed %d stale '%s' processing row(s)", healed, kind)
|
||||
|
||||
# Re-enqueue eligible 'pending' rows that never got a queue stamp (orphaned
|
||||
# from the queue — bulk/migration paths). requeue_stale only covers
|
||||
# 'processing'; this covers 'pending' with requested_at IS NULL (#139). Runs
|
||||
# before the list below so reclaimed rows drain in this same pass.
|
||||
reconciled = await db.reconcile_orphaned_pending_extractions(kind=kind)
|
||||
if reconciled:
|
||||
logger.warning(
|
||||
"reconciled %d orphaned 'pending' (no queue stamp) '%s' row(s)",
|
||||
reconciled, kind,
|
||||
)
|
||||
|
||||
pending = await db.list_pending_extraction_requests(kind=kind, limit=limit)
|
||||
if not pending:
|
||||
return {"status": "no_pending", "kind": kind, "processed": 0, "results": []}
|
||||
@@ -226,11 +256,14 @@ async def process_pending_extractions(kind: str = "metadata", limit: int = 20) -
|
||||
cid, effort=config.HALACHA_BULK_EXTRACT_EFFORT,
|
||||
)
|
||||
|
||||
# Metadata extraction runs on Gemini (high rate limits, fast) — the long
|
||||
# cooldown is only needed for halacha (Claude/Anthropic rate limits).
|
||||
cooldown = METADATA_COOLDOWN_SEC if kind == "metadata" else INTER_PRECEDENT_COOLDOWN_SEC
|
||||
results: list[dict] = []
|
||||
processed = 0
|
||||
for idx, row in enumerate(pending):
|
||||
if idx > 0:
|
||||
await asyncio.sleep(INTER_PRECEDENT_COOLDOWN_SEC)
|
||||
await asyncio.sleep(cooldown)
|
||||
cid = UUID(str(row["id"]))
|
||||
attempts = 0
|
||||
result: dict = {}
|
||||
@@ -269,10 +302,16 @@ async def process_pending_extractions(kind: str = "metadata", limit: int = 20) -
|
||||
if result.get("status") == "extraction_failed":
|
||||
await db.set_case_law_halacha_status(cid, "failed")
|
||||
await db.clear_extraction_request(cid, kind=kind)
|
||||
elif result.get("status") == "extraction_failed":
|
||||
# metadata transient failure (Gemini hiccup despite full text) —
|
||||
# do NOT settle 'completed' or the row is silently stranded with
|
||||
# empty metadata and the drain never revisits it (#138). Revert
|
||||
# to 'pending' (the queue timestamp is preserved) so it re-drains.
|
||||
await db.set_case_law_metadata_status(cid, "pending")
|
||||
else:
|
||||
# metadata — set terminal 'completed' status (also clears the
|
||||
# request timestamp) so the UI badge settles instead of
|
||||
# lingering on 'processing'.
|
||||
# metadata success / no_changes / no_metadata(no text) — set
|
||||
# terminal 'completed' (also clears the request timestamp) so the
|
||||
# UI badge settles instead of lingering on 'processing'.
|
||||
await db.set_case_law_metadata_status(cid, "completed")
|
||||
processed += 1
|
||||
results.append({
|
||||
|
||||
@@ -1,12 +1,18 @@
|
||||
"""Auto-extract precedent metadata from a freshly-uploaded ruling.
|
||||
|
||||
Runs after chunking. Reads the precedent's full_text and asks Claude to
|
||||
Runs after chunking. Reads the precedent's full_text and asks Gemini to
|
||||
fill in the metadata fields that an upload form usually leaves empty:
|
||||
short case_name, summary, headnote, key_quote, subject_tags,
|
||||
appeal_subtype, decision_date, precedent_level, court — plus
|
||||
chair_name + district for internal_committee rows (which the upload
|
||||
path stamps with PLACEHOLDER_PENDING_EXTRACTION when missing).
|
||||
|
||||
The full citation (citation_formatted) is NOT formatted by the LLM — a Flash
|
||||
model reliably extracts the party line but drops the formatted string outright
|
||||
(#145). Instead the LLM extracts COMPONENTS (parties, citation_prefix) and
|
||||
``apply_to_record`` assembles the citation deterministically via
|
||||
``db.format_precedent_citation`` (X1 §3 / INV-ID2 — a derived display field).
|
||||
|
||||
Caller policy: only empty user-supplied fields are filled. Anything the
|
||||
chair already typed in the upload form is preserved. This is enforced
|
||||
in ``apply_to_record``.
|
||||
@@ -15,11 +21,16 @@ in ``apply_to_record``.
|
||||
from __future__ import annotations
|
||||
|
||||
import logging
|
||||
import re
|
||||
from datetime import date as date_type
|
||||
from uuid import UUID
|
||||
|
||||
from legal_mcp.config import parse_llm_json
|
||||
from legal_mcp.services import claude_session, db
|
||||
from legal_mcp.services import db, gemini_session
|
||||
from legal_mcp.services.practice_area import (
|
||||
DOMAIN_PRACTICE_AREAS,
|
||||
derive_domain_practice_area,
|
||||
)
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
@@ -51,6 +62,7 @@ METADATA_EXTRACTION_PROMPT = """אתה מסייע משפטי בכיר. קרא א
|
||||
{
|
||||
"case_name_short": "שם קצר ל-3-6 מילים (למשל 'אהרון ברק' או 'ב. קרן-נכסים'). אל תכלול מספר תיק. שם המבקש/העורר העיקרי. אם זו החלטה מאוחדת — שם הצד המוביל.",
|
||||
"appeal_subtype": "תת-סוג ספציפי בתוך תחום המשפט (למשל 'תכנית רחביה', 'מימוש במכר', 'תמ\\"א 38', 'שימוש חורג', 'סופיות ההחלטה'). מילה אחת או צירוף קצר.",
|
||||
"practice_area": "תחום-העל המשפטי — אחד מ-3 בלבד: 'rishuy_uvniya' (רישוי ובנייה / היתרי בנייה / שימוש חורג / הקלות / תכנון), 'betterment_levy' (היטל השבחה — חיוב בעל מקרקעין בגין עליית-שווי מאישור תכנית), 'compensation_197' (פיצויים לפי סעיף 197 לחוק התכנון והבנייה — פגיעה במקרקעין ע\\\"י תכנית). קבע לפי מהות הסכסוך כפי שהוא עולה מהטקסט. אם לא ברור לאיזה מהשלושה — מחרוזת ריקה (אל תנחש).",
|
||||
"summary": "תקציר עניני 2-3 משפטים: מה הייתה השאלה, מה הוכרע. בלי שיפוט.",
|
||||
"headnote": "headnote בסגנון נבו: 1-2 משפטים שמסכמים את העיקרון שנקבע/יושם בפסק. למשל 'תכנית רחביה — היטל השבחה במימוש במכר — אין לחייב כשהזכויות צפות'.",
|
||||
"key_quote": "ציטוט מילולי בודד, 30-100 מילים, שמייצג את לב הפסק. חייב להופיע מילה במילה בטקסט. אם אין ציטוט מתאים — מחרוזת ריקה.",
|
||||
@@ -61,9 +73,10 @@ METADATA_EXTRACTION_PROMPT = """אתה מסייע משפטי בכיר. קרא א
|
||||
"proceeding_type": "אחד מ-2 (רק להחלטות ועדת ערר): 'ערר' (הליך ערר עיקרי על החלטת ועדה מקומית) / 'בל\\\"מ' (בקשה להארכת מועד להגשת ערר). זהה דרך כותרת המסמך: 'ערר (ועדות ערר ...) NNNN/YY' → 'ערר'; 'בל\\\"מ NNNN/YY' או נושא 'בקשה להארכת מועד להגשת ערר' → 'בל\\\"מ'. בפסיקת בית משפט (לא ועדת ערר) — מחרוזת ריקה.",
|
||||
"court": "שם הערכאה כפי שהוא מופיע בכותרת (למשל 'בית המשפט העליון', 'בית המשפט המחוזי בירושלים בשבתו כבית משפט לעניינים מנהליים', 'ועדת הערר לתכנון ובניה פיצויים והיטלי השבחה — מחוז ירושלים'). מחרוזת ריקה אם לא ניתן לזהות.",
|
||||
"case_number_clean": "מספר הערר/תיק כפי שמופיע בכותרת — רק הספרות והאלכסון, למשל '1062/24' או '8031/21'. ללא המילה 'ערר', ללא שם הצדדים, ללא סוגריים. אם יש כמה עררים מאוחדים — הרשום הראשון. מחרוזת ריקה אם לא ניתן לזהות.",
|
||||
"chair_name": "שם יו\\\"ר ההרכב — רלוונטי **רק להחלטות ועדת ערר**, לא לפסקי בית משפט. חפש בכותרת/חתימה: 'עו\\\"ד דפנה תמיר, יו\\\"ר ועדת הערר', 'בפני: עו\\\"ד פלוני אלמוני (יו\\\"ר)'. השאר שם פרטי+משפחה בלי תוארים ('עו\\\"ד', 'אדריכל'). אם זה פסק דין של בית משפט — מחרוזת ריקה.",
|
||||
"chair_name": "שם יו\\\"ר ההרכב של **ההחלטה הזו** — רלוונטי **רק להחלטות ועדת ערר**, לא לפסקי בית משפט. כמעט תמיד מופיע — בשני מקומות: (א) בכותרת/רובריקה בראש המסמך, ליד 'בפני:' / 'בהרכב:' / רשימת חברי הוועדה; (ב) בבלוק-החתימה בסוף ההחלטה, אחרי 'ההחלטה ניתנה' — שם מופיעים זה-לצד-זה מזכיר/ת הוועדה והיו\\\"ר (למשל בשתי עמודות: בצד אחד 'פלוני, עו\\\"ד / מזכיר ועדת הערר' ובצד השני 'אלמוני, עו\\\"ד / יו\\\"ר ועדת הערר'). **קח את השם שמעליו/לצדו כתוב 'יו\\\"ר' — לא את המזכיר/ה.** השאר שם פרטי+משפחה בלבד, בלי תוארים ('עו\\\"ד', 'אדריכל', 'עו\\\"ד דפנה תמיר'→'דפנה תמיר'). **אזהרה קריטית:** אל תיקח שם יו\\\"ר של פסק/החלטה אחרים ש**מצוטטים** בגוף ההחלטה (למשל 'כפי שנקבע ברשותה של יו\\\"ר פלונית בערר אחר...') — אלה תקדימים מצוטטים, לא היו\\\"ר של ההחלטה הנוכחית. אם זה פסק דין של בית משפט — מחרוזת ריקה.",
|
||||
"district": "מחוז ועדת הערר — רלוונטי **רק להחלטות ועדת ערר**. ערכים מותרים: 'ירושלים', 'תל אביב', 'מרכז', 'חיפה', 'צפון', 'דרום', 'ארצית'. זהה מהכותרת ('ועדת הערר לתכנון ובניה — מחוז ירושלים' → 'ירושלים'; 'ועדות ערר - תכנון ובנייה תל אביב-יפו' → 'תל אביב'). אם זה פסק דין של בית משפט — מחרוזת ריקה.",
|
||||
"citation_formatted": "המראה מקום המלא לפי **כללי הציטוט האחיד**, בפורמט Markdown — שמות הצדדים בלבד מוקפים בכפול-כוכבית (`**…**`), הכל השאר רגיל. ראה כללים מפורטים בסעיף 12 למטה."
|
||||
"parties": "שמות הצדדים בשורה אחת בצורה 'עורר נ\\' משיב' — בדיוק כפי שמופיעים בכותרת/רובריקה. בלי הדגשה, בלי מספר-תיק, בלי תוארים מיותרים. למשל 'ישיבת חברת אהבת שלום נ\\' תאיה' או 'ראם חיים נ\\' הוועדה המקומית לתכנון ובניה ירושלים'. אם הצדדים אינם מופיעים בטקסט (למשל החלטה שמתחילה בגוף בלי רובריקה) — מחרוזת ריקה. **אל תמציא שמות.**",
|
||||
"citation_prefix": "קידומת-ההליך של פסיקת בית-משפט בלבד, כפי שמופיעה בראש הכותרת: ע\\"א / רע\\"א / בג\\"ץ / עע\\"מ / עת\\"מ / ע\\"פ / דנ\\"א / ת\\"א וכד'. **רק לפסקי בית-משפט (עליון/מנהלי)** — להחלטות ועדת-ערר השאר ריק (הקוד גוזר 'ערר'/'בל\\"מ' מעצמו). אם לא ברור — מחרוזת ריקה."
|
||||
}
|
||||
|
||||
## כללי איכות
|
||||
@@ -79,22 +92,10 @@ METADATA_EXTRACTION_PROMPT = """אתה מסייע משפטי בכיר. קרא א
|
||||
10. **court** — מהכותרת הראשית של הפסק. ניסוח מלא (לא קיצור). מחרוזת ריקה אם לא ניתן לזהות.
|
||||
11. **proceeding_type** — חובה לזהות עבור החלטות ועדת ערר; ריק עבור פסיקת בית משפט. הסימן הברור: בכותרת הראשונה של המסמך כתוב "ערר (ועדות ערר ...) NNNN/YY" → 'ערר'; "בל\"מ NNNN/YY" או הנושא "בקשה להארכת מועד להגשת ערר" → 'בל\"מ'. שני הסוגים יכולים לחלוק אותו מספר תיק — לכן חשוב להבחין מפורשות.
|
||||
12. **chair_name / district** — חובה למלא רק עבור החלטות ועדת ערר (source_type='appeals_committee'). chair_name נמצא בכותרת ("בפני: עו\"ד פלוני אלמוני, יו\"ר") או בחתימה. district = מחוז הוועדה, מתוך רשימה סגורה. עבור פסקי בית משפט — שני השדות ריקים.
|
||||
13. **citation_formatted — כללי הציטוט האחיד הישראלי**. הרכב את המראה מקום במחרוזת אחת בפורמט Markdown, **כשרק שמות הצדדים מודגשים** (מוקפים ב-`**…**`). כל השאר — קיצור הערכאה, סוגריים של הרכב/מחוז, מספר תיק, מאגר/תאריך — **רגיל ללא הדגשה**.
|
||||
|
||||
תבניות לסוגי פסיקה:
|
||||
* **בית משפט עליון — לא פורסם:** `ע"א 1234/56 **פלוני נ' אלמוני** (נבו 1.2.3456)`
|
||||
* **בית משפט עליון — פורסם:** `ע"א 1234/56 **פלוני נ' אלמוני**, פ"ד יב(3) 456 (1990)`
|
||||
* **בית משפט מנהלי:** `עת"מ (י-ם) 1234/56 **פלוני נ' הוועדה** (נבו 1.2.3456)` — "(י-ם)" / "(ת"א)" / וכד' = קיצור המחוז
|
||||
* **ועדת ערר תכנון ובנייה (מחוזית):** `ערר (ועדות ערר - תכנון ובנייה ת"א-יפו) 81002-01-21 **אברהם אגסי נ' הועדה המקומית לתכנון ובנייה תל אביב** (נבו 25.9.2025)`
|
||||
* **בל"מ (בקשה להארכת מועד):** `בל"מ (ועדות ערר - ירושלים) 1028/20 **חלוואני ריאד נ' רשות הרישוי - הוועדה המקומית ירושלים** (נבו 7.1.2021)`
|
||||
* **ועדת ערר ארצית:** `ערר ארצי 8047/23 **פלוני נ' אלמוני** (נבו 1.2.3456)`
|
||||
|
||||
כללים:
|
||||
- **הצדדים מודגשים בלבד** — כל השאר רגיל. אל תדגיש את "ע"א" / "ערר" / מספר התיק / "(נבו ...)" / "פ"ד".
|
||||
- הצדדים = מי שמופיע **בין מספר התיק לבין הסוגריים הסופיים** (תאריך/מאגר), כלומר "[עורר/מבקש] נ' [משיב]".
|
||||
- תאריך בסוגריים סופיים בפורמט עברי "(נבו 25.9.2025)" — יום.חודש.שנה ללא אפסים מובילים.
|
||||
- אם המאגר הוא נבו והפסיקה לא פורסמה ב-פ"ד — השתמש ב-"(נבו DATE)". אם פורסמה ב-פ"ד — הוסף את ההפניה הפורמלית אחרי הצדדים: `..., פ"ד יב(3) 456 (1990)`.
|
||||
- אם לא ניתן לזהות איזשהו רכיב במדויק — השאר את **כל** השדה ריק. אל תניח / תמציא.
|
||||
13. **parties / citation_prefix — רכיבי המראה-מקום (לא המראה-מקום עצמו)**. אינך מרכיב את הציטוט המעוצב — המערכת מרכיבה אותו דטרמיניסטית מהרכיבים. עליך רק **לחלץ** שני רכיבים נקיים:
|
||||
- **parties** — שורת הצדדים "[עורר/מבקש] נ' [משיב]" כפי שמופיעה בכותרת/רובריקה. בלי מספר-תיק, בלי קידומת-הליך, בלי הדגשה. הצדדים = מי שמופיע בין מספר-התיק לבין שם-הערכאה/התאריך. אם אין רובריקה עם צדדים (החלטה שפותחת ישר בגוף) — השאר ריק; **אל תמציא שמות**.
|
||||
- **citation_prefix** — קידומת-ההליך **רק לפסקי בית-משפט** (ע"א / רע"א / בג"ץ / עע"מ / עת"מ / ע"פ / דנ"א / ת"א…), כפי שכתובה בראש הכותרת. להחלטות ועדת-ערר — ריק (המערכת גוזרת 'ערר'/'בל"מ' מ-proceeding_type).
|
||||
- שניהם רשות; ריק עדיף על ניחוש (INV-AH — abstention על המצאה).
|
||||
"""
|
||||
|
||||
|
||||
@@ -150,7 +151,10 @@ async def extract_metadata(case_law_id: UUID | str) -> dict:
|
||||
)
|
||||
|
||||
try:
|
||||
result = await claude_session.query_json(
|
||||
# Bounded structured extraction → Gemini Flash (JSON mode). The agentic
|
||||
# claude CLI hit error_max_turns on this single-shot task; see
|
||||
# gemini_session.py. Voice-sensitive/agentic work stays on claude_session.
|
||||
result = await gemini_session.query_json(
|
||||
user_msg, system=METADATA_EXTRACTION_PROMPT,
|
||||
)
|
||||
except Exception as e:
|
||||
@@ -170,6 +174,16 @@ async def extract_metadata(case_law_id: UUID | str) -> dict:
|
||||
out["case_name_short"] = result["case_name_short"].strip()
|
||||
if isinstance(result.get("appeal_subtype"), str):
|
||||
out["appeal_subtype"] = result["appeal_subtype"].strip()
|
||||
if isinstance(result.get("practice_area"), str):
|
||||
# Closed domain enum (axis B). Anything else (incl. the legacy
|
||||
# multi-tenant 'appeals_committee' value or free text) is dropped so a
|
||||
# slip can't write an unrenderable value into the radio facet — the
|
||||
# deterministic case_number-prefix derivation in apply_to_record is the
|
||||
# authoritative source anyway; this is the content fallback for court
|
||||
# rulings whose docket prefix doesn't encode the domain.
|
||||
pa = result["practice_area"].strip()
|
||||
if pa in DOMAIN_PRACTICE_AREAS:
|
||||
out["practice_area"] = pa
|
||||
if isinstance(result.get("summary"), str):
|
||||
out["summary"] = result["summary"].strip()
|
||||
if isinstance(result.get("headnote"), str):
|
||||
@@ -206,17 +220,42 @@ async def extract_metadata(case_law_id: UUID | str) -> dict:
|
||||
# silently storing free-text in what callers treat as a filter facet.
|
||||
if d in {"ירושלים", "תל אביב", "מרכז", "חיפה", "צפון", "דרום", "ארצית"}:
|
||||
out["district"] = d
|
||||
if isinstance(result.get("citation_formatted"), str):
|
||||
cf = result["citation_formatted"].strip()
|
||||
# Sanity check: a valid citation should contain at least one bold
|
||||
# marker pair (the parties) AND a closing paren (the reporter/date).
|
||||
# If the LLM returned a half-formed string, drop it rather than
|
||||
# store junk that the UI then has to special-case.
|
||||
if cf.count("**") >= 2 and ")" in cf:
|
||||
out["citation_formatted"] = cf
|
||||
# parties / citation_prefix — COMPONENTS of the citation, not the formatted
|
||||
# string. citation_formatted itself is assembled deterministically by
|
||||
# db.format_precedent_citation in apply_to_record (#145): a Flash model reliably
|
||||
# extracts the party line but dropped the formatted citation outright.
|
||||
if isinstance(result.get("parties"), str):
|
||||
out["parties"] = result["parties"].strip()
|
||||
if isinstance(result.get("citation_prefix"), str):
|
||||
out["citation_prefix"] = result["citation_prefix"].strip()
|
||||
return out
|
||||
|
||||
|
||||
# Israeli court docket: digits with slash/dash separators, no spaces, no letters
|
||||
# (e.g. "1132-09-24", "4768/22", "35758-09-25"). Used to (a) detect a
|
||||
# citation-shaped case_number that must be normalized and (b) guard against ever
|
||||
# writing a non-docket string into the identity field.
|
||||
_DOCKET_RE = re.compile(r"\d{1,6}(?:[-/]\d{1,4}){1,2}")
|
||||
|
||||
|
||||
def _is_clean_docket(s: str) -> bool:
|
||||
return bool(_DOCKET_RE.fullmatch((s or "").strip()))
|
||||
|
||||
|
||||
def _source_type_for_level(level: str) -> str:
|
||||
"""Derive source_type from precedent_level — the library section is driven by
|
||||
source_type, so the two MUST agree (an LLM slip pairing
|
||||
precedent_level='ועדת_ערר_מחוזית' with source_type='court_ruling' files a
|
||||
committee decision under "court rulings"). Empty when the level is
|
||||
indeterminate (don't force a guess)."""
|
||||
level = (level or "").strip()
|
||||
if level.startswith("ועדת_ערר"):
|
||||
return "appeals_committee"
|
||||
if level in ("עליון", "מנהלי"):
|
||||
return "court_ruling"
|
||||
return ""
|
||||
|
||||
|
||||
async def apply_to_record(
|
||||
case_law_id: UUID | str,
|
||||
suggested: dict,
|
||||
@@ -324,23 +363,88 @@ async def apply_to_record(
|
||||
if pt and (record.get("source_kind") == "internal_committee"):
|
||||
fields_to_update["proceeding_type"] = pt
|
||||
|
||||
if overwrite_case_number:
|
||||
cn = (suggested.get("case_number_clean") or "").strip()
|
||||
if cn:
|
||||
fields_to_update["case_number"] = cn
|
||||
# case_number normalization. The precedent upload / missing-precedent flow
|
||||
# stores the FULL citation string into case_number (precedent_library:
|
||||
# case_number=citation). Replace it with the clean docket when the LLM gives
|
||||
# one AND either (a) caller forces it (overwrite_case_number — migrations) or
|
||||
# (b) the stored value is clearly citation-shaped (has a space / is long — a
|
||||
# real docket never is). Guard: only write a value that IS a clean docket, so
|
||||
# a bad LLM output can never corrupt the identity field.
|
||||
cn_clean = (suggested.get("case_number_clean") or "").strip()
|
||||
cur_cn = cur_case_number
|
||||
citation_shaped = bool(cur_cn) and (" " in cur_cn or len(cur_cn) > 20)
|
||||
if (
|
||||
cn_clean
|
||||
and _is_clean_docket(cn_clean)
|
||||
and cn_clean != cur_cn
|
||||
and (overwrite_case_number or citation_shaped)
|
||||
):
|
||||
# Skip (don't crash) when the clean docket already belongs to ANOTHER
|
||||
# non-internal row — a duplicate to dedupe later, not this run's concern.
|
||||
# Writing it would hit uq_case_law_external_number and abort the whole merge
|
||||
# (including the citation). No-silent-swallow: log the skip.
|
||||
if (
|
||||
record.get("source_kind") != "internal_committee"
|
||||
and await db.case_number_collides(cn_clean, case_law_id)
|
||||
):
|
||||
logger.warning(
|
||||
"metadata_extractor: case_number normalization %r→%r skipped — docket "
|
||||
"already owned by another non-internal row (likely duplicate)",
|
||||
cur_cn, cn_clean,
|
||||
)
|
||||
else:
|
||||
fields_to_update["case_number"] = cn_clean
|
||||
|
||||
# citation_formatted — full citation per Israeli citation rules. Only
|
||||
# fill if empty; user edits in /precedents/[id] are preserved.
|
||||
if not (record.get("citation_formatted") or "").strip():
|
||||
s = (suggested.get("citation_formatted") or "").strip()
|
||||
if s:
|
||||
fields_to_update["citation_formatted"] = s
|
||||
# practice_area — the domain facet (axis B) that drives the /precedents radio
|
||||
# and search filters. The LLM never set it historically (it was passed in as
|
||||
# read-only context), so committee/court uploads that left it blank stayed
|
||||
# blank forever. Fill when empty, preferring the DETERMINISTIC case_number
|
||||
# prefix (1xxx→rishuy, 8xxx→היטל, 9xxx→197 — authoritative for ועדת-ערר
|
||||
# dockets, INV-AH rule-based) and falling back to the LLM's content
|
||||
# classification for court rulings whose docket prefix doesn't encode a
|
||||
# domain. Built off the EFFECTIVE case_number so a same-run normalization is
|
||||
# seen. Abstains (no write) when neither yields a domain value.
|
||||
if not (record.get("practice_area") or "").strip():
|
||||
eff_cn = (
|
||||
fields_to_update.get("case_number") or record.get("case_number") or ""
|
||||
)
|
||||
pa = derive_domain_practice_area(eff_cn) or (
|
||||
suggested.get("practice_area") or ""
|
||||
).strip()
|
||||
if pa in DOMAIN_PRACTICE_AREAS:
|
||||
fields_to_update["practice_area"] = pa
|
||||
|
||||
# chair_name / district — only for internal_committee rows. The DB CHECK
|
||||
# forces these to be non-empty, so the upload endpoint stamps the row
|
||||
# with "(טרם חולץ)" as a placeholder. Treat that placeholder as empty
|
||||
# so the LLM-extracted value can overwrite it.
|
||||
if record.get("source_kind") == "internal_committee":
|
||||
# parties — store the extracted "עורר נ' משיב" line (the re-derivable basis for
|
||||
# the deterministic citation). Only fill when empty; chair edits are preserved.
|
||||
if not (record.get("parties") or "").strip():
|
||||
p = (suggested.get("parties") or "").strip()
|
||||
if p:
|
||||
fields_to_update["parties"] = p
|
||||
|
||||
# chair_name / district — for ANY ועדת-ערר decision, regardless of how it
|
||||
# entered the corpus. Previously gated on source_kind=='internal_committee',
|
||||
# which silently skipped committee decisions uploaded via the EXTERNAL
|
||||
# precedent path (source_kind='external_upload', source_type='appeals_committee'
|
||||
# — e.g. another district's decision pulled from נבו): the chair sat in the
|
||||
# signature block but was never extracted. The CHECK only forces non-empty for
|
||||
# internal_committee, so writing a chair onto an external_upload row is safe;
|
||||
# for internal rows the upload endpoint stamps "(טרם חולץ)" which we treat as
|
||||
# empty. The LLM prompt already abstains (empty) for court rulings, so this is
|
||||
# additionally gated on the decision actually being a committee one — never a
|
||||
# court ruling. Derive "is committee" from the effective source_type/level so a
|
||||
# same-run fill is seen.
|
||||
eff_st_chair = (
|
||||
fields_to_update.get("source_type") or record.get("source_type") or ""
|
||||
).strip()
|
||||
eff_lvl_chair = (
|
||||
fields_to_update.get("precedent_level") or record.get("precedent_level") or ""
|
||||
).strip()
|
||||
is_committee_decision = (
|
||||
record.get("source_kind") == "internal_committee"
|
||||
or eff_st_chair == "appeals_committee"
|
||||
or eff_lvl_chair.startswith("ועדת_ערר")
|
||||
)
|
||||
if is_committee_decision:
|
||||
cur_chair = (record.get("chair_name") or "").strip()
|
||||
if cur_chair in ("", PLACEHOLDER_PENDING_EXTRACTION):
|
||||
s = (suggested.get("chair_name") or "").strip()
|
||||
@@ -352,6 +456,45 @@ async def apply_to_record(
|
||||
if s:
|
||||
fields_to_update["district"] = s
|
||||
|
||||
# Enforce source_type ↔ precedent_level consistency in CODE (the LLM prompt
|
||||
# asks for it, but a slip would file a ועדת-ערר decision under "court
|
||||
# rulings"). Derive from the EFFECTIVE level (this run's update or the stored
|
||||
# value) and override an inconsistent source_type — even one already on the
|
||||
# record, since the library section depends on it.
|
||||
eff_level = (
|
||||
fields_to_update.get("precedent_level")
|
||||
or record.get("precedent_level")
|
||||
or ""
|
||||
).strip()
|
||||
derived_st = _source_type_for_level(eff_level)
|
||||
if derived_st:
|
||||
eff_st = (
|
||||
fields_to_update.get("source_type")
|
||||
or record.get("source_type")
|
||||
or ""
|
||||
).strip()
|
||||
if eff_st != derived_st:
|
||||
fields_to_update["source_type"] = derived_st
|
||||
|
||||
# citation_formatted — DERIVED deterministically from the effective record
|
||||
# (db.format_precedent_citation), NEVER formatted by the LLM (#145, INV-ID2).
|
||||
# Built last, so it sees this run's component updates (case_number/date/level/
|
||||
# source_type/district/proceeding_type/parties). Only fill when empty so chair
|
||||
# edits in /precedents/[id] are preserved; abstains (no write) when a component
|
||||
# is missing.
|
||||
if not (record.get("citation_formatted") or "").strip():
|
||||
eff = {**record, **fields_to_update}
|
||||
eff_parties = (
|
||||
fields_to_update.get("parties") or record.get("parties") or ""
|
||||
).strip()
|
||||
cit = db.format_precedent_citation(
|
||||
eff,
|
||||
parties=eff_parties,
|
||||
court_prefix=(suggested.get("citation_prefix") or "").strip(),
|
||||
)
|
||||
if cit:
|
||||
fields_to_update["citation_formatted"] = cit
|
||||
|
||||
if not fields_to_update:
|
||||
return {"updated": False, "fields": []}
|
||||
|
||||
@@ -366,7 +509,20 @@ async def extract_and_apply(
|
||||
"""Convenience wrapper: extract → merge into row → return summary."""
|
||||
suggested = await extract_metadata(case_law_id)
|
||||
if not suggested:
|
||||
return {"status": "no_metadata", "fields": []}
|
||||
# Empty result has two very different meanings (#138): the precedent has
|
||||
# NO text to extract from (permanent — nothing the queue can ever do), vs
|
||||
# the Gemini call FAILED despite the row having full text (transient — a
|
||||
# key/network/rate-limit hiccup that a retry can recover). Conflating
|
||||
# them as 'no_metadata' let the drain settle the row to 'completed' on a
|
||||
# transient failure, silently stranding it with empty metadata. Branch on
|
||||
# whether text was actually present so the caller can retry the transient
|
||||
# case and only settle the genuinely-empty one.
|
||||
record = await db.get_case_law(case_law_id)
|
||||
has_text = bool(((record or {}).get("full_text") or "").strip())
|
||||
return {
|
||||
"status": "extraction_failed" if has_text else "no_metadata",
|
||||
"fields": [],
|
||||
}
|
||||
result = await apply_to_record(case_law_id, suggested, overwrite_case_number=overwrite_case_number)
|
||||
if result["updated"]:
|
||||
await db.recompute_searchable(case_law_id)
|
||||
|
||||
45
mcp-server/src/legal_mcp/services/principles.py
Normal file
45
mcp-server/src/legal_mcp/services/principles.py
Normal file
@@ -0,0 +1,45 @@
|
||||
"""Legal-principles terminology — the single source for what a principle is CALLED (#152).
|
||||
|
||||
chaim 2026-06-19: "הלכה" was the wrong umbrella. The corpus holds **עקרונות
|
||||
משפטיים** (legal principles); the term for one depends on its SOURCE:
|
||||
|
||||
• binding higher court (מחוזי/עליון) → "הלכה" (binding precedent)
|
||||
• appeals committee (internal_committee) → "כלל פרשני" (interpretive rule —
|
||||
the committee applies law, never makes it)
|
||||
• non-binding external (persuasive) → "עיקרון" (persuasive principle)
|
||||
|
||||
The class is derived from where a principle was FIRST established
|
||||
(canonical_halachot.first_established_in → case_law.source_kind/is_binding), so no
|
||||
new column is needed. UI/tools call :func:`label` instead of hardcoding "הלכה".
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
UMBRELLA = "עקרונות משפטיים"
|
||||
|
||||
CLASS_HALACHA = "halacha"
|
||||
CLASS_INTERPRETIVE_RULE = "interpretive_rule"
|
||||
CLASS_PRINCIPLE = "principle"
|
||||
|
||||
_LABEL = {
|
||||
CLASS_HALACHA: "הלכה",
|
||||
CLASS_INTERPRETIVE_RULE: "כלל פרשני",
|
||||
CLASS_PRINCIPLE: "עיקרון",
|
||||
}
|
||||
|
||||
|
||||
def principle_class(source_kind: str | None, is_binding: bool | None) -> str:
|
||||
"""Map a source to its principle class (stable key, not display text)."""
|
||||
if source_kind == "internal_committee":
|
||||
return CLASS_INTERPRETIVE_RULE
|
||||
if is_binding:
|
||||
return CLASS_HALACHA
|
||||
return CLASS_PRINCIPLE
|
||||
|
||||
|
||||
def label(source_kind: str | None, is_binding: bool | None) -> str:
|
||||
"""Hebrew display term for a principle from this source (#152)."""
|
||||
return _LABEL[principle_class(source_kind, is_binding)]
|
||||
|
||||
|
||||
def label_for_class(cls: str) -> str:
|
||||
return _LABEL.get(cls, _LABEL[CLASS_PRINCIPLE])
|
||||
@@ -8,7 +8,9 @@ from pathlib import Path
|
||||
from uuid import UUID
|
||||
|
||||
from legal_mcp import config
|
||||
from legal_mcp.services import chunker, db, embeddings, extractor, references_extractor
|
||||
from legal_mcp.services import (
|
||||
chunker, db, embeddings, extractor, references_extractor, storage,
|
||||
)
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
@@ -40,13 +42,17 @@ async def process_document(document_id: UUID, case_id: UUID) -> dict:
|
||||
page_count=page_count,
|
||||
)
|
||||
|
||||
# Save extracted text to documents/extracted/ directory
|
||||
# Save extracted text (a DERIVED artifact — the DB column holds the
|
||||
# source of truth, INV-STG5) through the storage layer (INV-STG1).
|
||||
# Non-fatal: the .txt is a convenience copy, the pipeline reads the DB.
|
||||
original_path = Path(doc["file_path"])
|
||||
extracted_dir = original_path.parent.parent / "extracted"
|
||||
extracted_dir.mkdir(parents=True, exist_ok=True)
|
||||
txt_path = extracted_dir / (original_path.stem + ".txt")
|
||||
txt_path = original_path.parent.parent / "extracted" / (original_path.stem + ".txt")
|
||||
try:
|
||||
txt_path.write_text(text, encoding="utf-8")
|
||||
await storage.put_bytes(
|
||||
txt_path.relative_to(config.DATA_DIR).as_posix(),
|
||||
text.encode("utf-8"), bucket=storage.Bucket.DERIVED,
|
||||
content_type="text/plain; charset=utf-8",
|
||||
)
|
||||
logger.info("Saved extracted text to %s", txt_path)
|
||||
except Exception as e:
|
||||
logger.warning("Failed to save text file (non-fatal): %s", e)
|
||||
|
||||
@@ -268,12 +268,13 @@ async def proofread(path: Path) -> tuple[str, dict]:
|
||||
|
||||
# ── Metadata extraction ──────────────────────────────────────────
|
||||
|
||||
# Serial is 3–5 digits: 4 = ערר, 5 = בל"מ (post-reform). 3 tolerates legacy short serials.
|
||||
FILENAME_NUMBER_PATTERNS = [
|
||||
re.compile(r"^ARAR-(\d{2})-(\d{3,4})"),
|
||||
re.compile(r"^ערר\s+(\d{3,4})-(\d{2})"),
|
||||
re.compile(r"^ערר\s+(\d{3,4})\s*-"),
|
||||
re.compile(r"^ARAR-(\d{2})-(\d{3,5})"),
|
||||
re.compile(r"^ערר\s+(\d{3,5})-(\d{2})"),
|
||||
re.compile(r"^ערר\s+(\d{3,5})\s*-"),
|
||||
]
|
||||
LEGACY_MULTI_PATTERN = re.compile(r"(\d{3,4})\+(\d{3,4})")
|
||||
LEGACY_MULTI_PATTERN = re.compile(r"(\d{3,5})\+(\d{3,5})")
|
||||
|
||||
|
||||
def decision_number_from_filename(stem: str) -> str | None:
|
||||
|
||||
@@ -154,7 +154,7 @@ async def check_claims_coverage(blocks: list[dict], claims: list[dict], outcome:
|
||||
## בלוק הדיון:
|
||||
{discussion}"""
|
||||
|
||||
parsed = await claude_session.query_json(prompt)
|
||||
parsed = await claude_session.query_json(prompt, tools="") # no tool_use → no error_max_turns
|
||||
if parsed is None:
|
||||
logger.warning("Failed to parse claims check")
|
||||
# Fallback: assume all covered (don't block export on parse failure)
|
||||
|
||||
@@ -346,7 +346,7 @@ def update_chair_position(
|
||||
|
||||
# Atomic write
|
||||
tmp_path = file_path.with_suffix(file_path.suffix + ".tmp")
|
||||
tmp_path.write_text(new_content, encoding="utf-8")
|
||||
tmp_path.write_text(new_content, encoding="utf-8") # noqa: STG1 — atomic .tmp; in-place edit, S3 re-sync in Phase-2 read-wiring
|
||||
os.replace(tmp_path, file_path)
|
||||
|
||||
preview = new_text.strip()[:120]
|
||||
|
||||
50
mcp-server/src/legal_mcp/services/script_runner.py
Normal file
50
mcp-server/src/legal_mcp/services/script_runner.py
Normal file
@@ -0,0 +1,50 @@
|
||||
"""Allowlist of read-only scripts runnable from the /scripts page (#4).
|
||||
|
||||
Single source of truth shared by BOTH:
|
||||
- the host bridge (``court_fetch_service.server`` — the ENFORCER that actually
|
||||
launches the process), and
|
||||
- the container API (``web/app.py`` — display-only: tells the UI which rows get
|
||||
a "הרץ" button).
|
||||
|
||||
Each entry maps a script's basename to the EXACT, fixed argument list it runs
|
||||
with. **Read-only / audit scripts only**, with a safe fixed argv and **no
|
||||
user-supplied arguments** — never ``--apply``/``--force``. The system is
|
||||
single-user/internal, so this allowlist is a footgun-guard, not an auth boundary;
|
||||
enforcement lives on the trusted host side.
|
||||
|
||||
Adding an entry is a security decision: verify the script is read-only (no DB
|
||||
writes, no destructive side effects) with the given argv before listing it.
|
||||
|
||||
stdlib-only on purpose, so the lightweight host bridge can import it cheaply.
|
||||
"""
|
||||
|
||||
from __future__ import annotations
|
||||
|
||||
_REPO = "/home/chaim/legal-ai"
|
||||
_PYTHON = f"{_REPO}/mcp-server/.venv/bin/python"
|
||||
|
||||
# basename → argv tail (script path relative to the repo root, then fixed flags).
|
||||
# Verified read-only 2026-06-17. `audit_corpus_integrity` runs with --no-notify
|
||||
# so it stays report-only (no notification side-effect) when run from the dashboard.
|
||||
SCRIPT_RUN_ALLOWLIST: dict[str, list[str]] = {
|
||||
"leak_guard.py": ["scripts/leak_guard.py"],
|
||||
"check_undefined_names.py": ["scripts/check_undefined_names.py"],
|
||||
"storage_leak_tripwire.py": ["scripts/storage_leak_tripwire.py"],
|
||||
"audit_training_corpus.py": ["scripts/audit_training_corpus.py"],
|
||||
"audit_corpus_integrity.py": ["scripts/audit_corpus_integrity.py", "--no-notify"],
|
||||
}
|
||||
|
||||
|
||||
def runnable_names() -> list[str]:
|
||||
"""Sorted basenames the UI may show a "הרץ" button for (display-only)."""
|
||||
return sorted(SCRIPT_RUN_ALLOWLIST)
|
||||
|
||||
|
||||
def build_argv(name: str) -> list[str] | None:
|
||||
"""Full argv (python + absolute script path + fixed flags) for an allowlisted
|
||||
script, or ``None`` when *name* is not allowlisted. Arguments are taken ONLY
|
||||
from the allowlist — anything the caller passes is ignored."""
|
||||
tail = SCRIPT_RUN_ALLOWLIST.get(name)
|
||||
if tail is None:
|
||||
return None
|
||||
return [_PYTHON, f"{_REPO}/{tail[0]}", *tail[1:]]
|
||||
578
mcp-server/src/legal_mcp/services/storage.py
Normal file
578
mcp-server/src/legal_mcp/services/storage.py
Normal file
@@ -0,0 +1,578 @@
|
||||
"""Unified object-storage layer (X14, INV-STG1).
|
||||
|
||||
THE single choke-point for all binary file I/O — originals, derived
|
||||
artifacts (thumbnails / extracted text), and exports. It replaces the
|
||||
scattered ``open()`` / ``shutil.copy`` / ``Path.write_bytes`` calls spread
|
||||
across ~8 services (G2: one storage path, no parallel routes). See
|
||||
docs/spec/X14-storage-minio.md.
|
||||
|
||||
Keys
|
||||
----
|
||||
A *key* is a DATA_DIR-relative POSIX path, e.g.::
|
||||
|
||||
cases/8174-24/documents/originals/<uuid>.pdf
|
||||
precedent-library/thumbnails/<case_law_id>/p001.jpg
|
||||
|
||||
The filesystem backend maps ``key -> DATA_DIR / key``, preserving the exact
|
||||
current on-disk layout (zero behaviour change when ``STORAGE_BACKEND`` is the
|
||||
default ``filesystem``). The S3 backend maps a logical *bucket*
|
||||
(documents/immutable/derived) to a MinIO bucket and uses the key verbatim as
|
||||
the object key.
|
||||
|
||||
INV-STG2: keys are atomic ASCII/UUID paths; a Hebrew original filename is
|
||||
carried as object metadata / a DB column, never as the key itself.
|
||||
INV-STG5: pgvector stays the source of truth for text + embeddings — this
|
||||
layer stores blobs only. INV-STG6: presigned URLs (minted against the public
|
||||
endpoint) serve bytes straight to the browser.
|
||||
|
||||
Backends (config.STORAGE_BACKEND)
|
||||
---------------------------------
|
||||
- ``filesystem`` (default) — disk only; current behaviour.
|
||||
- ``dual`` — write disk + S3; read S3, fall back to disk.
|
||||
The migration window; disk stays authoritative.
|
||||
- ``s3`` — MinIO only.
|
||||
|
||||
``aioboto3`` is imported lazily so this module loads even where the dependency
|
||||
is absent (the default filesystem backend needs nothing extra).
|
||||
"""
|
||||
from __future__ import annotations
|
||||
|
||||
import asyncio
|
||||
import logging
|
||||
import shutil
|
||||
import tempfile
|
||||
from enum import Enum
|
||||
from pathlib import Path, PurePosixPath
|
||||
from typing import Iterable
|
||||
|
||||
from legal_mcp import config
|
||||
|
||||
logger = logging.getLogger(__name__)
|
||||
|
||||
|
||||
class Bucket(str, Enum):
|
||||
"""Logical governance buckets (INV-STG3). Resolved to MinIO bucket names
|
||||
via config; ignored by the filesystem backend (which keeps one tree)."""
|
||||
|
||||
DOCUMENTS = "documents"
|
||||
IMMUTABLE = "immutable"
|
||||
DERIVED = "derived"
|
||||
|
||||
|
||||
def _bucket_name(bucket: Bucket) -> str:
|
||||
return {
|
||||
Bucket.DOCUMENTS: config.MINIO_BUCKET_DOCUMENTS,
|
||||
Bucket.IMMUTABLE: config.MINIO_BUCKET_IMMUTABLE,
|
||||
Bucket.DERIVED: config.MINIO_BUCKET_DERIVED,
|
||||
}[bucket]
|
||||
|
||||
|
||||
def normalize_key(key: str | Path) -> str:
|
||||
"""Return a clean DATA_DIR-relative POSIX key.
|
||||
|
||||
Rejects absolute paths and ``..`` traversal (defence in depth — keys are
|
||||
built internally, never from raw user input). An absolute path under
|
||||
DATA_DIR is accepted and re-relativised so call-sites can pass either a
|
||||
key or a full ``Path`` during the migration.
|
||||
"""
|
||||
p = Path(key)
|
||||
if p.is_absolute():
|
||||
try:
|
||||
p = p.relative_to(config.DATA_DIR)
|
||||
except ValueError as exc:
|
||||
raise ValueError(f"absolute path outside DATA_DIR: {key!r}") from exc
|
||||
posix = PurePosixPath(p.as_posix())
|
||||
parts = posix.parts
|
||||
if not parts or any(part == ".." for part in parts):
|
||||
raise ValueError(f"invalid storage key: {key!r}")
|
||||
return posix.as_posix().lstrip("/")
|
||||
|
||||
|
||||
def _ascii_metadata(value) -> str:
|
||||
"""Coerce an S3 user-metadata value to ASCII.
|
||||
|
||||
S3/MinIO object metadata must be ASCII (botocore raises ParamValidationError
|
||||
otherwise). The only non-ASCII value we attach is the original Hebrew
|
||||
filename (``ingest._stage_file`` → ``metadata={"filename": ...}``), so a
|
||||
Hebrew name like ``"יומון 5167 - 11.6.26.pdf"`` would 500 every s3-only
|
||||
upload. Percent-encode non-ASCII losslessly (recover with
|
||||
``urllib.parse.unquote``) while leaving plain-ASCII values readable."""
|
||||
s = str(value)
|
||||
if s.isascii():
|
||||
return s
|
||||
from urllib.parse import quote
|
||||
return quote(s)
|
||||
|
||||
|
||||
class StorageBackend:
|
||||
"""Abstract backend. All methods are async except the cheap path helpers."""
|
||||
|
||||
name = "abstract"
|
||||
|
||||
async def put_bytes(self, key, data, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> str:
|
||||
raise NotImplementedError
|
||||
|
||||
async def put_file(self, src, key, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> str:
|
||||
with open(src, "rb") as fh:
|
||||
return await self.put_bytes(
|
||||
key, fh.read(), bucket=bucket,
|
||||
content_type=content_type, metadata=metadata,
|
||||
)
|
||||
|
||||
async def get_bytes(self, key, *, bucket=Bucket.DOCUMENTS) -> bytes:
|
||||
raise NotImplementedError
|
||||
|
||||
async def exists(self, key, *, bucket=Bucket.DOCUMENTS) -> bool:
|
||||
raise NotImplementedError
|
||||
|
||||
async def delete(self, key, *, bucket=Bucket.DOCUMENTS) -> None:
|
||||
raise NotImplementedError
|
||||
|
||||
async def list_keys(self, prefix, *, bucket=Bucket.DOCUMENTS) -> list[str]:
|
||||
raise NotImplementedError
|
||||
|
||||
async def presign_get(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
download_name=None) -> str:
|
||||
raise NotImplementedError
|
||||
|
||||
async def presign_put(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
content_type=None) -> str:
|
||||
raise NotImplementedError
|
||||
|
||||
def local_path(self, key, *, bucket=Bucket.DOCUMENTS) -> Path | None:
|
||||
"""Return a real filesystem path if one exists *without* downloading,
|
||||
else ``None``. Use :meth:`ensure_local` when a path is required."""
|
||||
return None
|
||||
|
||||
async def ensure_local(self, key, *, bucket=Bucket.DOCUMENTS) -> Path:
|
||||
"""Return a local path to the object, downloading to a temp file if the
|
||||
backend has no on-disk copy. Caller owns cleanup of temp files."""
|
||||
path = self.local_path(key, bucket=bucket)
|
||||
if path is not None:
|
||||
return path
|
||||
data = await self.get_bytes(key, bucket=bucket)
|
||||
suffix = PurePosixPath(normalize_key(key)).suffix
|
||||
tmp = tempfile.NamedTemporaryFile(delete=False, suffix=suffix)
|
||||
tmp.write(data)
|
||||
tmp.close()
|
||||
return Path(tmp.name)
|
||||
|
||||
|
||||
class FilesystemBackend(StorageBackend):
|
||||
"""Disk under DATA_DIR. ``bucket`` is ignored — the existing single tree is
|
||||
preserved verbatim, so the default backend is byte-for-byte the legacy
|
||||
behaviour."""
|
||||
|
||||
name = "filesystem"
|
||||
|
||||
def _abs(self, key, *, bucket=Bucket.DOCUMENTS) -> Path:
|
||||
rel = normalize_key(key)
|
||||
path = (Path(config.DATA_DIR) / rel).resolve()
|
||||
root = Path(config.DATA_DIR).resolve()
|
||||
if root not in path.parents and path != root:
|
||||
raise ValueError(f"resolved path escapes DATA_DIR: {key!r}")
|
||||
return path
|
||||
|
||||
async def put_bytes(self, key, data, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> str:
|
||||
path = self._abs(key, bucket=bucket)
|
||||
path.parent.mkdir(parents=True, exist_ok=True)
|
||||
path.write_bytes(data)
|
||||
return f"file://{path}"
|
||||
|
||||
async def put_file(self, src, key, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> str:
|
||||
path = self._abs(key, bucket=bucket)
|
||||
path.parent.mkdir(parents=True, exist_ok=True)
|
||||
shutil.copy2(src, path) # preserve mtime, as the legacy code did
|
||||
return f"file://{path}"
|
||||
|
||||
async def get_bytes(self, key, *, bucket=Bucket.DOCUMENTS) -> bytes:
|
||||
return self._abs(key, bucket=bucket).read_bytes()
|
||||
|
||||
async def exists(self, key, *, bucket=Bucket.DOCUMENTS) -> bool:
|
||||
return self._abs(key, bucket=bucket).exists()
|
||||
|
||||
async def delete(self, key, *, bucket=Bucket.DOCUMENTS) -> None:
|
||||
self._abs(key, bucket=bucket).unlink(missing_ok=True)
|
||||
|
||||
async def list_keys(self, prefix, *, bucket=Bucket.DOCUMENTS) -> list[str]:
|
||||
root = Path(config.DATA_DIR).resolve()
|
||||
base = self._abs(prefix, bucket=bucket) if prefix else root
|
||||
if not base.exists():
|
||||
return []
|
||||
out: list[str] = []
|
||||
for p in sorted(base.rglob("*")):
|
||||
if p.is_file():
|
||||
out.append(p.resolve().relative_to(root).as_posix())
|
||||
return out
|
||||
|
||||
def local_path(self, key, *, bucket=Bucket.DOCUMENTS) -> Path | None:
|
||||
path = self._abs(key, bucket=bucket)
|
||||
return path if path.exists() else None
|
||||
|
||||
async def presign_get(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
download_name=None) -> str:
|
||||
raise NotImplementedError(
|
||||
"presigned URLs require the S3 backend (set STORAGE_BACKEND=dual|s3)"
|
||||
)
|
||||
|
||||
async def presign_put(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
content_type=None) -> str:
|
||||
raise NotImplementedError(
|
||||
"presigned URLs require the S3 backend (set STORAGE_BACKEND=dual|s3)"
|
||||
)
|
||||
|
||||
|
||||
class S3Backend(StorageBackend):
|
||||
"""MinIO via aioboto3. Server-side ops use the internal endpoint; presigned
|
||||
URLs are minted against the public endpoint so the browser can reach them
|
||||
(INV-STG6)."""
|
||||
|
||||
name = "s3"
|
||||
|
||||
def __init__(self) -> None:
|
||||
self._session = None # lazy aioboto3 session
|
||||
|
||||
def _boto(self):
|
||||
import aioboto3 # lazy — absent in the default filesystem path
|
||||
from botocore.config import Config as BotoConfig
|
||||
if self._session is None:
|
||||
self._session = aioboto3.Session()
|
||||
cfg = BotoConfig(signature_version="s3v4", s3={"addressing_style": "path"})
|
||||
return aioboto3, BotoConfig, cfg
|
||||
|
||||
def _client(self, *, public: bool = False):
|
||||
_aioboto3, _BotoConfig, cfg = self._boto()
|
||||
endpoint = config.MINIO_PUBLIC_ENDPOINT if public else config.MINIO_ENDPOINT
|
||||
return self._session.client(
|
||||
"s3",
|
||||
endpoint_url=endpoint,
|
||||
aws_access_key_id=config.MINIO_ACCESS_KEY,
|
||||
aws_secret_access_key=config.MINIO_SECRET_KEY,
|
||||
region_name=config.MINIO_REGION,
|
||||
config=cfg,
|
||||
)
|
||||
|
||||
async def put_bytes(self, key, data, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> str:
|
||||
k = normalize_key(key)
|
||||
extra = {}
|
||||
if content_type:
|
||||
extra["ContentType"] = content_type
|
||||
if metadata:
|
||||
extra["Metadata"] = {kk: _ascii_metadata(vv) for kk, vv in metadata.items()}
|
||||
async with self._client() as s3:
|
||||
await s3.put_object(Bucket=_bucket_name(bucket), Key=k, Body=data, **extra)
|
||||
return f"s3://{_bucket_name(bucket)}/{k}"
|
||||
|
||||
async def get_bytes(self, key, *, bucket=Bucket.DOCUMENTS) -> bytes:
|
||||
k = normalize_key(key)
|
||||
async with self._client() as s3:
|
||||
resp = await s3.get_object(Bucket=_bucket_name(bucket), Key=k)
|
||||
async with resp["Body"] as stream:
|
||||
return await stream.read()
|
||||
|
||||
async def exists(self, key, *, bucket=Bucket.DOCUMENTS) -> bool:
|
||||
from botocore.exceptions import ClientError
|
||||
k = normalize_key(key)
|
||||
async with self._client() as s3:
|
||||
try:
|
||||
await s3.head_object(Bucket=_bucket_name(bucket), Key=k)
|
||||
return True
|
||||
except ClientError as exc:
|
||||
if exc.response["Error"]["Code"] in ("404", "NoSuchKey", "NotFound"):
|
||||
return False
|
||||
raise
|
||||
|
||||
async def delete(self, key, *, bucket=Bucket.DOCUMENTS) -> None:
|
||||
k = normalize_key(key)
|
||||
async with self._client() as s3:
|
||||
await s3.delete_object(Bucket=_bucket_name(bucket), Key=k)
|
||||
|
||||
async def list_keys(self, prefix, *, bucket=Bucket.DOCUMENTS) -> list[str]:
|
||||
pfx = normalize_key(prefix) if prefix else ""
|
||||
out: list[str] = []
|
||||
async with self._client() as s3:
|
||||
paginator = s3.get_paginator("list_objects_v2")
|
||||
async for page in paginator.paginate(Bucket=_bucket_name(bucket), Prefix=pfx):
|
||||
for obj in page.get("Contents", []):
|
||||
out.append(obj["Key"])
|
||||
return out
|
||||
|
||||
async def presign_get(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
download_name=None) -> str:
|
||||
k = normalize_key(key)
|
||||
params = {"Bucket": _bucket_name(bucket), "Key": k}
|
||||
if download_name:
|
||||
# RFC 5987 — keep the Hebrew original filename on download (INV-STG2)
|
||||
from urllib.parse import quote
|
||||
params["ResponseContentDisposition"] = (
|
||||
f"attachment; filename*=UTF-8''{quote(download_name)}"
|
||||
)
|
||||
async with self._client(public=True) as s3:
|
||||
return await s3.generate_presigned_url(
|
||||
"get_object", Params=params,
|
||||
ExpiresIn=ttl or config.MINIO_PRESIGN_TTL,
|
||||
)
|
||||
|
||||
async def presign_put(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
content_type=None) -> str:
|
||||
k = normalize_key(key)
|
||||
params = {"Bucket": _bucket_name(bucket), "Key": k}
|
||||
if content_type:
|
||||
params["ContentType"] = content_type
|
||||
async with self._client(public=True) as s3:
|
||||
return await s3.generate_presigned_url(
|
||||
"put_object", Params=params,
|
||||
ExpiresIn=ttl or config.MINIO_PRESIGN_TTL,
|
||||
)
|
||||
|
||||
|
||||
class DualBackend(StorageBackend):
|
||||
"""Migration window: writes go to BOTH disk and S3 (disk authoritative);
|
||||
reads prefer S3 and fall back to disk. An S3 write failure is logged (never
|
||||
swallowed — engineering §6) but does not break the app while disk holds the
|
||||
canonical copy."""
|
||||
|
||||
name = "dual"
|
||||
|
||||
def __init__(self) -> None:
|
||||
self.fs = FilesystemBackend()
|
||||
self.s3 = S3Backend()
|
||||
|
||||
async def put_bytes(self, key, data, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> str:
|
||||
uri = await self.fs.put_bytes(key, data, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata)
|
||||
try:
|
||||
await self.s3.put_bytes(key, data, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata)
|
||||
except Exception as exc: # noqa: BLE001 — log, don't swallow
|
||||
logger.warning("dual put_bytes: S3 mirror failed for %s: %s", key, exc)
|
||||
return uri
|
||||
|
||||
async def put_file(self, src, key, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> str:
|
||||
uri = await self.fs.put_file(src, key, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata)
|
||||
try:
|
||||
await self.s3.put_file(src, key, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata)
|
||||
except Exception as exc: # noqa: BLE001
|
||||
logger.warning("dual put_file: S3 mirror failed for %s: %s", key, exc)
|
||||
return uri
|
||||
|
||||
async def get_bytes(self, key, *, bucket=Bucket.DOCUMENTS) -> bytes:
|
||||
try:
|
||||
return await self.s3.get_bytes(key, bucket=bucket)
|
||||
except Exception as exc: # noqa: BLE001 — fall back to disk
|
||||
logger.debug("dual get_bytes: S3 miss for %s (%s); using disk", key, exc)
|
||||
return await self.fs.get_bytes(key, bucket=bucket)
|
||||
|
||||
async def exists(self, key, *, bucket=Bucket.DOCUMENTS) -> bool:
|
||||
if await self.fs.exists(key, bucket=bucket):
|
||||
return True
|
||||
try:
|
||||
return await self.s3.exists(key, bucket=bucket)
|
||||
except Exception: # noqa: BLE001
|
||||
return False
|
||||
|
||||
async def delete(self, key, *, bucket=Bucket.DOCUMENTS) -> None:
|
||||
await self.fs.delete(key, bucket=bucket)
|
||||
try:
|
||||
await self.s3.delete(key, bucket=bucket)
|
||||
except Exception as exc: # noqa: BLE001
|
||||
logger.warning("dual delete: S3 delete failed for %s: %s", key, exc)
|
||||
|
||||
async def list_keys(self, prefix, *, bucket=Bucket.DOCUMENTS) -> list[str]:
|
||||
return await self.fs.list_keys(prefix, bucket=bucket)
|
||||
|
||||
def local_path(self, key, *, bucket=Bucket.DOCUMENTS) -> Path | None:
|
||||
return self.fs.local_path(key, bucket=bucket)
|
||||
|
||||
async def presign_get(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
download_name=None) -> str:
|
||||
return await self.s3.presign_get(key, bucket=bucket, ttl=ttl,
|
||||
download_name=download_name)
|
||||
|
||||
async def presign_put(self, key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
content_type=None) -> str:
|
||||
return await self.s3.presign_put(key, bucket=bucket, ttl=ttl,
|
||||
content_type=content_type)
|
||||
|
||||
|
||||
_BACKENDS = {
|
||||
"filesystem": FilesystemBackend,
|
||||
"dual": DualBackend,
|
||||
"s3": S3Backend,
|
||||
}
|
||||
|
||||
_singleton: StorageBackend | None = None
|
||||
|
||||
|
||||
def get_storage() -> StorageBackend:
|
||||
"""Return the process-wide storage backend selected by config.STORAGE_BACKEND
|
||||
(cached). Unknown values fall back to ``filesystem`` with a warning rather
|
||||
than crashing the app."""
|
||||
global _singleton
|
||||
if _singleton is None:
|
||||
cls = _BACKENDS.get(config.STORAGE_BACKEND)
|
||||
if cls is None:
|
||||
logger.warning(
|
||||
"unknown STORAGE_BACKEND=%r — falling back to filesystem",
|
||||
config.STORAGE_BACKEND,
|
||||
)
|
||||
cls = FilesystemBackend
|
||||
_singleton = cls()
|
||||
logger.info("storage backend = %s", _singleton.name)
|
||||
return _singleton
|
||||
|
||||
|
||||
def reset_storage_cache() -> None:
|
||||
"""Drop the cached backend (tests / after an env change)."""
|
||||
global _singleton
|
||||
_singleton = None
|
||||
|
||||
|
||||
# ── module-level convenience wrappers ──────────────────────────────
|
||||
# Thin pass-throughs so call-sites can ``from legal_mcp.services import storage``
|
||||
# and use ``await storage.put_bytes(...)`` without fetching the singleton.
|
||||
|
||||
async def put_bytes(key, data, *, bucket=Bucket.DOCUMENTS, content_type=None,
|
||||
metadata=None) -> str:
|
||||
return await get_storage().put_bytes(
|
||||
key, data, bucket=bucket, content_type=content_type, metadata=metadata)
|
||||
|
||||
|
||||
async def put_file(src, key, *, bucket=Bucket.DOCUMENTS, content_type=None,
|
||||
metadata=None) -> str:
|
||||
return await get_storage().put_file(
|
||||
src, key, bucket=bucket, content_type=content_type, metadata=metadata)
|
||||
|
||||
|
||||
async def get_bytes(key, *, bucket=Bucket.DOCUMENTS) -> bytes:
|
||||
return await get_storage().get_bytes(key, bucket=bucket)
|
||||
|
||||
|
||||
async def exists(key, *, bucket=Bucket.DOCUMENTS) -> bool:
|
||||
return await get_storage().exists(key, bucket=bucket)
|
||||
|
||||
|
||||
async def delete(key, *, bucket=Bucket.DOCUMENTS) -> None:
|
||||
return await get_storage().delete(key, bucket=bucket)
|
||||
|
||||
|
||||
async def list_keys(prefix, *, bucket=Bucket.DOCUMENTS) -> list[str]:
|
||||
return await get_storage().list_keys(prefix, bucket=bucket)
|
||||
|
||||
|
||||
async def presign_get(key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
download_name=None) -> str:
|
||||
return await get_storage().presign_get(
|
||||
key, bucket=bucket, ttl=ttl, download_name=download_name)
|
||||
|
||||
|
||||
async def presign_put(key, *, bucket=Bucket.DOCUMENTS, ttl=None,
|
||||
content_type=None) -> str:
|
||||
return await get_storage().presign_put(
|
||||
key, bucket=bucket, ttl=ttl, content_type=content_type)
|
||||
|
||||
|
||||
def local_path(key, *, bucket=Bucket.DOCUMENTS) -> Path | None:
|
||||
return get_storage().local_path(key, bucket=bucket)
|
||||
|
||||
|
||||
async def ensure_local(key, *, bucket=Bucket.DOCUMENTS) -> Path:
|
||||
return await get_storage().ensure_local(key, bucket=bucket)
|
||||
|
||||
|
||||
# ── mirror: dual-write seal for the not-yet-read-wired pipeline (INV-STG1) ──────
|
||||
# A handful of upload/finalize paths still keep a copy on disk because the
|
||||
# ingest/extract pipeline reads files by their DATA_DIR path (not yet wired to
|
||||
# ensure_local). For those, ``mirror``/``mirror_file`` ALSO persist the blob to
|
||||
# object storage when the active backend is s3/dual — so no blob is ever missing
|
||||
# from MinIO (durability + presigned serving) even though a disk copy lingers
|
||||
# for the pipeline. No-op under the filesystem backend (the disk write is the
|
||||
# canonical copy). Best-effort: an S3 failure is logged, never breaks the
|
||||
# request (the disk copy holds). The full fix (read-wire the pipeline → drop the
|
||||
# disk copy) is tracked separately; until then this closes the data-loss leak.
|
||||
|
||||
async def mirror(key, data, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> None:
|
||||
backend = get_storage()
|
||||
if backend.name == "filesystem":
|
||||
return
|
||||
s3 = getattr(backend, "s3", backend)
|
||||
try:
|
||||
await s3.put_bytes(key, data, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata)
|
||||
except Exception as exc: # noqa: BLE001 — log, never break the request
|
||||
logger.warning("storage.mirror: S3 persist failed for %s: %s", key, exc)
|
||||
|
||||
|
||||
async def mirror_file(src, key, *, bucket=Bucket.DOCUMENTS,
|
||||
content_type=None, metadata=None) -> None:
|
||||
backend = get_storage()
|
||||
if backend.name == "filesystem":
|
||||
return
|
||||
s3 = getattr(backend, "s3", backend)
|
||||
try:
|
||||
await s3.put_file(src, key, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata)
|
||||
except Exception as exc: # noqa: BLE001
|
||||
logger.warning("storage.mirror_file: S3 persist failed for %s: %s", key, exc)
|
||||
|
||||
|
||||
# ── synchronous facade ─────────────────────────────────────────────
|
||||
# A few legacy writers are plain sync functions (track-changes save, retrofit
|
||||
# backup, the multimodal thumbnail renderer which runs in a worker thread via
|
||||
# asyncio.to_thread). They go through the same layer via this blocking shim so
|
||||
# INV-STG1 holds everywhere.
|
||||
|
||||
def _run_coro_blocking(coro):
|
||||
"""Run a storage coroutine to completion from synchronous code.
|
||||
|
||||
No running loop in this thread (the common case — sync helpers, or a
|
||||
to_thread worker) → asyncio.run. If a loop *is* already running here, the
|
||||
coroutine is offloaded to a fresh thread so we never deadlock the loop."""
|
||||
try:
|
||||
asyncio.get_running_loop()
|
||||
except RuntimeError:
|
||||
return asyncio.run(coro)
|
||||
box: dict = {}
|
||||
|
||||
def _worker():
|
||||
box["value"] = asyncio.run(coro)
|
||||
|
||||
import threading
|
||||
t = threading.Thread(target=_worker)
|
||||
t.start()
|
||||
t.join()
|
||||
return box["value"]
|
||||
|
||||
|
||||
def put_bytes_sync(key, data, *, bucket=Bucket.DOCUMENTS, content_type=None,
|
||||
metadata=None) -> str:
|
||||
return _run_coro_blocking(
|
||||
put_bytes(key, data, bucket=bucket, content_type=content_type, metadata=metadata))
|
||||
|
||||
|
||||
def put_file_sync(src, key, *, bucket=Bucket.DOCUMENTS, content_type=None,
|
||||
metadata=None) -> str:
|
||||
return _run_coro_blocking(
|
||||
put_file(src, key, bucket=bucket, content_type=content_type, metadata=metadata))
|
||||
|
||||
|
||||
def mirror_sync(key, data, *, bucket=Bucket.DOCUMENTS, content_type=None,
|
||||
metadata=None) -> None:
|
||||
_run_coro_blocking(mirror(key, data, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata))
|
||||
|
||||
|
||||
def mirror_file_sync(src, key, *, bucket=Bucket.DOCUMENTS, content_type=None,
|
||||
metadata=None) -> None:
|
||||
_run_coro_blocking(mirror_file(src, key, bucket=bucket,
|
||||
content_type=content_type, metadata=metadata))
|
||||
@@ -166,6 +166,7 @@ async def _analyze_single_pass(rows, appeal_subtype: str = "") -> dict:
|
||||
raw = await claude_session.query(
|
||||
ANALYSIS_PROMPT.format(decisions=decisions_text),
|
||||
timeout=claude_session.LONG_TIMEOUT,
|
||||
tools="", # text→JSON style analysis — no tool_use → no error_max_turns
|
||||
)
|
||||
|
||||
return await _parse_and_store_patterns(raw, len(rows), appeal_subtype)
|
||||
@@ -183,6 +184,7 @@ async def _analyze_multi_pass(rows, appeal_subtype: str = "") -> dict:
|
||||
raw = await claude_session.query(
|
||||
SINGLE_DECISION_PROMPT.format(decision=decision_text),
|
||||
timeout=claude_session.LONG_TIMEOUT,
|
||||
tools="", # text→JSON style analysis — no tool_use → no error_max_turns
|
||||
)
|
||||
|
||||
patterns = _extract_json(raw)
|
||||
@@ -199,6 +201,7 @@ async def _analyze_multi_pass(rows, appeal_subtype: str = "") -> dict:
|
||||
patterns=json.dumps(all_patterns, ensure_ascii=False, indent=2),
|
||||
),
|
||||
timeout=claude_session.LONG_TIMEOUT,
|
||||
tools="", # text→JSON style analysis — no tool_use → no error_max_turns
|
||||
)
|
||||
|
||||
return await _parse_and_store_patterns(raw, len(rows), appeal_subtype)
|
||||
|
||||
@@ -119,7 +119,7 @@ async def extract_decision_metadata(corpus_id: UUID | str) -> dict:
|
||||
)
|
||||
|
||||
try:
|
||||
result = await claude_session.query_json(user_msg, system=METADATA_PROMPT)
|
||||
result = await claude_session.query_json(user_msg, system=METADATA_PROMPT, tools="") # no tool_use → no error_max_turns
|
||||
except Exception as e:
|
||||
logger.warning("style_metadata_extractor: query failed: %s", e)
|
||||
return {}
|
||||
|
||||
103
mcp-server/src/legal_mcp/services/usage_limits.py
Normal file
103
mcp-server/src/legal_mcp/services/usage_limits.py
Normal file
@@ -0,0 +1,103 @@
|
||||
"""claude.ai subscription-usage ceilings — the single source of truth.
|
||||
|
||||
ONE place that reads the (undocumented) OAuth usage endpoint and decides whether
|
||||
a usage window has crossed its soft stop-before-429 ceiling. Imported by BOTH the
|
||||
halacha drain (`scripts/drain_halacha_queue.py`) and its supervisor
|
||||
(`scripts/halacha_drain_supervisor.py`) so the two never drift (G1/G2).
|
||||
|
||||
STRICTLY stdlib — no asyncpg / aiohttp / config imports. The supervisor runs as
|
||||
plain system ``python3`` and imports this module directly; pulling in heavy deps
|
||||
here would break that import. (``legal_mcp/__init__`` and ``services/__init__``
|
||||
are intentionally empty, which is what makes the system-python import work.)
|
||||
|
||||
Soft ceilings (chair, 2026-06-15): stop the drain BEFORE a window exhausts so the
|
||||
in-flight case finishes on the remaining quota and the drain idles until reset,
|
||||
instead of hammering 429 (which burns retries and leaves cases half-extracted).
|
||||
5-hour ("hourly session") window stops at 75%, the weekly windows at 65%.
|
||||
Overridable via env for ops tuning without a redeploy.
|
||||
"""
|
||||
import json
|
||||
import os
|
||||
import urllib.request
|
||||
from datetime import datetime, timezone
|
||||
|
||||
# claude.ai subscription usage. The token lives in the CLI's own credentials
|
||||
# file; the claude-code User-Agent is REQUIRED — without it the request lands in
|
||||
# an aggressively rate-limited bucket and 429s. Unofficial endpoint: may change,
|
||||
# so every caller must tolerate a None return and fall back.
|
||||
CLAUDE_CRED_PATH = "/home/chaim/.claude/.credentials.json"
|
||||
OAUTH_USAGE_URL = "https://api.anthropic.com/api/oauth/usage"
|
||||
USAGE_UA = "claude-code/2.1.177"
|
||||
|
||||
|
||||
def _env_int(name: str, default: int) -> int:
|
||||
try:
|
||||
return int(os.environ.get(name, default))
|
||||
except (TypeError, ValueError):
|
||||
return default
|
||||
|
||||
|
||||
# Reaching a ceiling is treated EXACTLY like 100% exhaustion (cooldown until that
|
||||
# window's resets_at). Both weekly keys share one threshold; the per-model cap
|
||||
# that's actually populated on this account is Sonnet (seven_day_opus is null) and
|
||||
# the all-models seven_day cap is the backstop for Opus usage either way.
|
||||
CEILING_FIVE_HOUR = _env_int("HALACHA_DRAIN_CEILING_5H", 75)
|
||||
CEILING_WEEKLY = _env_int("HALACHA_DRAIN_CEILING_WEEKLY", 65)
|
||||
USAGE_CEILINGS = {
|
||||
"five_hour": CEILING_FIVE_HOUR,
|
||||
"seven_day": CEILING_WEEKLY,
|
||||
"seven_day_sonnet": CEILING_WEEKLY,
|
||||
}
|
||||
|
||||
|
||||
def subscription_usage() -> dict | None:
|
||||
"""Read the claude.ai subscription usage — the exact 5-hour / 7-day
|
||||
utilization the Claude Code UI shows — from the OAuth usage endpoint.
|
||||
|
||||
Returns the parsed JSON (keys: five_hour, seven_day, seven_day_opus,
|
||||
seven_day_sonnet, extra_usage; each window → {utilization 0-100, resets_at})
|
||||
or None on ANY failure. Undocumented endpoint — every caller must tolerate
|
||||
None and fall back."""
|
||||
try:
|
||||
with open(CLAUDE_CRED_PATH) as f:
|
||||
token = json.load(f)["claudeAiOauth"]["accessToken"]
|
||||
except Exception:
|
||||
return None
|
||||
req = urllib.request.Request(OAUTH_USAGE_URL, headers={
|
||||
"Authorization": f"Bearer {token}",
|
||||
"User-Agent": USAGE_UA, # required — else aggressive 429
|
||||
"anthropic-beta": "oauth-2025-04-20",
|
||||
})
|
||||
try:
|
||||
with urllib.request.urlopen(req, timeout=15) as resp:
|
||||
return json.loads(resp.read().decode("utf-8"))
|
||||
except Exception:
|
||||
return None
|
||||
|
||||
|
||||
def ceiling_status(usage: dict) -> tuple[bool, datetime | None, str]:
|
||||
"""Evaluate an already-fetched usage dict against USAGE_CEILINGS.
|
||||
|
||||
Returns (over, earliest_reset_utc, detail):
|
||||
• over — True iff ANY gated window is at/above its ceiling
|
||||
• earliest_reset — soonest resets_at among the windows that are over (UTC),
|
||||
or None
|
||||
• detail — short log string, e.g. "5h=78%/75 weekly=40%/65"
|
||||
|
||||
Takes the usage dict as a parameter (does NOT fetch) so the caller owns the
|
||||
single network read. null utilization → treated as 0% (window inactive)."""
|
||||
over, resets, parts = False, [], []
|
||||
label = {"five_hour": "5h", "seven_day": "weekly", "seven_day_sonnet": "weekly-sonnet"}
|
||||
for w, ceiling in USAGE_CEILINGS.items():
|
||||
info = usage.get(w) or {}
|
||||
util = info.get("utilization") or 0
|
||||
parts.append(f"{label.get(w, w)}={util:.0f}%/{ceiling}")
|
||||
if util >= ceiling:
|
||||
over = True
|
||||
r = info.get("resets_at")
|
||||
if r:
|
||||
try:
|
||||
resets.append(datetime.fromisoformat(r).astimezone(timezone.utc))
|
||||
except Exception:
|
||||
pass
|
||||
return over, (min(resets) if resets else None), " ".join(parts)
|
||||
@@ -132,6 +132,7 @@ async def case_create(
|
||||
practice_area: str = "",
|
||||
appeal_subtype: str = "",
|
||||
proceeding_type: str = "",
|
||||
chair_name: str = "",
|
||||
) -> str:
|
||||
"""יצירת תיק ערר חדש.
|
||||
|
||||
@@ -153,6 +154,9 @@ async def case_create(
|
||||
appeal_subtype: סוג ערר (building_permit / betterment_levy / compensation_197).
|
||||
ריק = יוסק אוטומטית ממספר התיק
|
||||
proceeding_type: 'ערר' / 'בל"מ'. ריק = יוסק מ-appeal_subtype/subject.
|
||||
chair_name: שם יו"ר הוועדה. ריק = ברירת-המחדל של הוועדה לפי תחילית
|
||||
מספר-התיק (SoT: config.committee_chair_for_case) — נשמר
|
||||
תמיד לא-ריק כדי שהעתק-הסופי לקורפוס-הפסיקה לא ייכשל.
|
||||
"""
|
||||
# INV-TOOL3 / GAP-52: idempotent on case_number (already UNIQUE in schema).
|
||||
# Re-creating an existing case returns it instead of raising a unique-violation.
|
||||
@@ -183,9 +187,10 @@ async def case_create(
|
||||
appeal_subtype = derived_subtype
|
||||
pa.validate(practice_area, appeal_subtype)
|
||||
|
||||
# proceeding_type: explicit override > derived from subtype/subject > 'ערר'
|
||||
# proceeding_type: explicit override > derived from subtype/subject/number > 'ערר'
|
||||
# (a 5-digit serial signals בל"מ per the post-reform numbering convention).
|
||||
resolved_proc = proceeding_type.strip() or pa.derive_proceeding_type(
|
||||
appeal_subtype=appeal_subtype, subject=subject,
|
||||
case_number=case_number, appeal_subtype=appeal_subtype, subject=subject,
|
||||
)
|
||||
|
||||
case = await db.create_case(
|
||||
@@ -203,6 +208,7 @@ async def case_create(
|
||||
practice_area=practice_area,
|
||||
appeal_subtype=appeal_subtype,
|
||||
proceeding_type=resolved_proc,
|
||||
chair_name=chair_name,
|
||||
)
|
||||
|
||||
# If the user overrode the case-number convention (e.g. case 8500 marked
|
||||
@@ -265,10 +271,8 @@ async def case_list(status: str = "", limit: int = 50) -> str:
|
||||
"""רשימת תיקי ערר עם אפשרות סינון לפי סטטוס.
|
||||
|
||||
Args:
|
||||
status: סינון לפי סטטוס (new, processing, proofread, documents_ready, analyst_verified,
|
||||
research_complete, outcome_set, direction_pending, direction_approved,
|
||||
analysis_enriched, ready_for_writing, drafted, qa_passed, qa_failed,
|
||||
exported, done). ריק = הכל
|
||||
status: סינון לפי סטטוס (new, processing, documents_ready, outcome_set,
|
||||
direction_approved, qa_review, drafted, exported, reviewed, final). ריק = הכל
|
||||
limit: מספר תוצאות מקסימלי
|
||||
"""
|
||||
cases = await db.list_cases(status=status or None, limit=limit)
|
||||
@@ -289,6 +293,15 @@ async def case_get(case_number: str) -> str:
|
||||
|
||||
docs = await db.list_documents(UUID(case["id"]))
|
||||
case["documents"] = docs
|
||||
# Derived post-final pipeline status (voice learning + halacha extraction) so the
|
||||
# case shows whether each ran, succeeded, and how many halachot were extracted.
|
||||
# Read-only derivation from existing tables (single source — same fn the
|
||||
# /learning-status endpoint uses); best-effort, never fails the case fetch.
|
||||
try:
|
||||
case["learning_status"] = await db.case_learning_status(case)
|
||||
except Exception as e: # noqa: BLE001 — indicator is best-effort, must not 500 case_get
|
||||
logger.warning("case_learning_status failed for %s: %s", case_number, e)
|
||||
case["learning_status"] = None
|
||||
return ok(case)
|
||||
|
||||
|
||||
@@ -301,7 +314,7 @@ async def case_update(
|
||||
hearing_date: str = "",
|
||||
decision_date: str = "",
|
||||
tags: list[str] | None = None,
|
||||
expected_outcome: str = "",
|
||||
expected_outcome: str | None = None,
|
||||
appellants: list[str] | None = None,
|
||||
respondents: list[str] | None = None,
|
||||
property_address: str = "",
|
||||
@@ -312,7 +325,7 @@ async def case_update(
|
||||
|
||||
Args:
|
||||
case_number: מספר תיק הערר
|
||||
status: סטטוס חדש (new, in_progress, drafted, reviewed, final)
|
||||
status: סטטוס חדש (new, processing, documents_ready, outcome_set, direction_approved, qa_review, drafted, exported, reviewed, final)
|
||||
title: כותרת חדשה
|
||||
subject: נושא חדש
|
||||
notes: הערות חדשות
|
||||
@@ -328,12 +341,13 @@ async def case_update(
|
||||
"""
|
||||
from datetime import date as date_type
|
||||
|
||||
# Ordered workflow statuses — regression protection
|
||||
# Ordered core lifecycle — regression protection (forward-only).
|
||||
# Single source of truth, mirrored by web-ui/src/lib/api/case-status.ts and
|
||||
# models.CaseStatus. Trimmed from 17 → 10 (decorative statuses removed).
|
||||
STATUS_ORDER = [
|
||||
"new", "uploading", "processing", "documents_ready",
|
||||
"analyst_verified", "research_complete", "outcome_set",
|
||||
"brainstorming", "direction_approved", "analysis_enriched", "ready_for_writing",
|
||||
"drafting", "qa_review", "drafted",
|
||||
"new", "processing", "documents_ready",
|
||||
"outcome_set", "direction_approved",
|
||||
"qa_review", "drafted",
|
||||
"exported", "reviewed", "final",
|
||||
]
|
||||
|
||||
@@ -367,7 +381,7 @@ async def case_update(
|
||||
raise ValueError(f"Invalid decision_date format: {decision_date!r}") from exc
|
||||
if tags is not None:
|
||||
fields["tags"] = tags
|
||||
if expected_outcome:
|
||||
if expected_outcome is not None:
|
||||
fields["expected_outcome"] = expected_outcome
|
||||
if appellants is not None:
|
||||
fields["appellants"] = appellants
|
||||
|
||||
Some files were not shown because too many files have changed in this diff Show More
Reference in New Issue
Block a user