From bccc0a132f4809f90be138ddc4f1f37b6e0703c4 Mon Sep 17 00:00:00 2001 From: Chaim Date: Mon, 27 Apr 2026 06:45:55 +0000 Subject: [PATCH] Refine voice fingerprint with full 1xxx corpus (24 cases) MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit After analyzing all 24 building_permit decisions in style_corpus DB (not just the 2 local files), refined two anti-patterns: 1. Sub-headings: actually permitted when block-yod handles 3+ distinct legal issues (e.g., 1079-24 had "הבקשות לפסילה" / "מעמד המבקשת וזכות עמידה" / "עותרים ציבוריים"). The earlier rule of "no sub-headings except academic cases" was too strict — based only on small local sample. 2. Paragraph numbering: discovered it's an evolutionary pattern, not a static rule. Pre-2025 decisions had sequential paragraph numbers (1, 2, 3 throughout); recent decisions (1126-25, 1128-25, 1130-25, 1194-25) abandoned it for narrative flow. The agent should NOT add paragraph numbers — the new style. The (1)...(2)...(3)... in-paragraph enumeration ban remains absolute — 0/33 final decisions used it. Distinction now made explicit: in-paragraph enumeration ≠ paragraph-level numbering (former always forbidden; latter is evolutionary). Updated: - docs/daphna-voice-fingerprint.md — corpus stats, refined anti-patterns - .claude/agents/legal-writer.md — checklist with new distinctions Co-Authored-By: Claude Opus 4.7 (1M context) --- .claude/agents/legal-writer.md | 5 ++-- docs/daphna-voice-fingerprint.md | 40 ++++++++++++++++++++++++-------- 2 files changed, 33 insertions(+), 12 deletions(-) diff --git a/.claude/agents/legal-writer.md b/.claude/agents/legal-writer.md index f0f51e2..2a29bd9 100644 --- a/.claude/agents/legal-writer.md +++ b/.claude/agents/legal-writer.md @@ -281,8 +281,9 @@ curl -s -X POST -H "Authorization: Bearer $PAPERCLIP_API_KEY" \ ### אנטי-דפוסים — בדיקה אחרי כתיבה (חובה) -- [ ] **אין רשימות ממוספרות** באנליזה (`(1)... (2)... (3)...`) — דפנה מעולם לא משתמשת -- [ ] **אין כותרות משנה** בתוך בלוק י (חוץ מתיקים אקדמיים-משפטיים מובהקים כמו נאמנות) +- [ ] **אין רשימות ממוספרות בתוך פסקה** (`(1)... (2)... (3)...`) — דפנה מעולם לא משתמשת +- [ ] **אין מספור פסקאות סדרתי** (1., 2., 3.) — מגמה ישנה שנטושה ב-2025+; הסגנון החדש הוא נרטיב רציף +- [ ] **כותרות משנה רק אם 3+ סוגיות מובחנות** — בתיק עם פסילה + עמידה + מהות, מותר. בתיק עם סוגיה אחת — לא. - [ ] **אין סיכומים בנקודות** של החלטות אחרות — תמיד ציטוט מלא - [ ] **אין דחיית טענה במשפט אחד** — כל טענה משמעותית = פסקה - [ ] **אין רטוריקה דרמטית של הצדדים** ("חטא קדמון") בקול ההכרעה — לתעד, לא לאמץ diff --git a/docs/daphna-voice-fingerprint.md b/docs/daphna-voice-fingerprint.md index 78dfa30..ec796e3 100644 --- a/docs/daphna-voice-fingerprint.md +++ b/docs/daphna-voice-fingerprint.md @@ -6,22 +6,31 @@ --- -## 0. הקורפוס שניתח (10 החלטות סופיות) +## 0. הקורפוס שניתח + +**גרסה 1 — 10 החלטות מתוך `data/training/`:** | תיק | סוג | מילים בבלוק י | תוצאה | |------|-----|---------------|-------| | גמר בניה | 8xxx (פטור) | 6,047 | קבלה | | **החלטה-1130-25** | 1xxx (תכנית) | 4,409 | קבלה חלקית | -| ורדיה | 8xxx (השבחה) | 1,954 | חלקית — תיקון שמאית | +| ורדיה | 8xxx (השבחה) | 1,954 | חלקית | | זכרון דברים | 8xxx (מימוש) | 3,368 | דחייה | | טור סיני | 8xxx (השבחה) | 3,255 | קבלה (חלקית) | | כלמוביל | 8xxx (השבחה) | 4,325 | מינוי שמאי מייעץ | -| נאמנות | 8xxx (פטור) | 5,330 | קבלה (פטור) | +| נאמנות | 8xxx (פטור) | 5,330 | קבלה | | סופר נוח | 8xxx (השבחה) | 2,208 | קבלה | -| עלות עודפת בחניה | 8xxx (השבחה) | 555 | דחייה — קצרה | +| עלות עודפת בחניה | 8xxx (השבחה) | 555 | דחייה | | קרקעות ירושלים | 9xxx (פיצויים) | 4,314 | דחייה | -**הסקה**: 9 מתוך 10 הם 8xxx/9xxx (ישובים/קרים). רק 1130-25 (1xxx) הוא הסוג ה"חם". הקורפוס מטה לכיוון הקול הקר. +**גרסה 2 — הרחבה ל-48 החלטות מ-`style_corpus` ב-DB:** +- 24 building_permit (1xxx) +- 22 betterment_levy (8xxx) +- 2 compensation_197 (9xxx) + +מתוך ה-24 1xxx, 23 קבצים בעלי content מספיק נותחו. רובם מתפלגים בין 2,000-8,500 מילים בבלוק י. + +**הסקה משולבת**: עכשיו הקורפוס מאוזן יותר (24 1xxx, 22 8xxx, 2 9xxx). הדפוסים שמתחת מבוססים על המכלול. --- @@ -163,12 +172,23 @@ מבוסס על קריאת ה-10 החלטות + ההשוואה לטיוטות ה-AI: -### 3.1 ❌ אסור: רשימה ממוספרת בטענות הדיון -**ב-0/10** מהחלטות הסופיות יש רשימה ממוספרת `(1) ... (2) ...` בלב הדיון. -**ב-2/2 טיוטות AI** שראיתי הופיעה רשימה ממוספרת — שהוסרה בעריכה. +### 3.1 ❌ אסור: רשימה ממוספרת בתוך פסקה +**ב-0/33** מהחלטות הסופיות יש `(1) ... (2) ... (3) ...` בתוך פסקת אנליזה אחת. +**ב-3/3 טיוטות AI** שראיתי הופיעה רשימה ממוספרת — שהוסרה בעריכה. -### 3.2 ❌ אסור: כותרת משנה בלב בלוק י -**ב-1/10 בלבד** (נאמנות) יש כותרת משנה ("מהותו של מוסד הנאמנות"). זה תיק אקדמי-משפטי מובהק. בכל יתר התיקים — הזרימה רציפה עם פסקאות. +⚠️ **הבחנה חשובה**: זה שונה ממספור פסקאות סדרתי (1, 2, 3 ... כאוטוט-של-פסקאות), שכן עד 2025 דפנה כן השתמשה במספור סדרתי (כמו פסיקה מסורתית). מ-2025-מאוחר זה נטוש; ההחלטות החדשות (1126-25, 1128-25, 1130-25, 1194-25) **ללא** מספור פסקאות. **המגמה החדשה** היא נרטיב רציף ללא מספור. + +### 3.2 ⚠️ מותנה: כותרת משנה בלב בלוק י + +**מקרים שבהם דפנה משתמשת בכותרות משנה** (מתוך 33+ קבצים שנבדקו): +- **1079-24** (1xxx, 8,440 מילים): "הבקשות לפסילה" / "מעמד המבקשת וזכות עמידה" / "עותרים ציבוריים" — מכיוון שהיו 3+ סוגיות משפטיות מובחנות (פסילת חבר ועדה, זכות עמידה, מהות ההיתר) +- **נאמנות** (8xxx, 5,330 מילים): "מהותו של מוסד הנאמנות" — תיק אקדמי-משפטי מובהק + +**כלל אצבע**: +- ✅ כותרת משנה **כן** — אם בלוק י כולל 3+ סוגיות מובחנות לחלוטין (לא רק שיקולים בתוך סוגיה אחת) +- ❌ כותרת משנה **לא** — אם זו סוגיה אחת עם תת-שיקולים. הזרימה רציפה. + +**טון הכותרת**: שם הסוגיה בלבד, ללא מספור, ללא מילות "סעיף" / "פרק". דוגמאות: `הבקשות לפסילה`, `מעמד המבקשת וזכות עמידה`, `מהותו של מוסד הנאמנות`. ### 3.3 ❌ אסור: סיכום מנוקד של החלטה אחרת לעולם דפנה לא תכתוב "החלטת הוועדה המקומית הייתה: (1) ..., (2) ..., (3) ...". במקום זאת היא תביא את ההחלטה ב**ציטוט מלא** עם ביטוי המעבר: `להלן ההחלטה אשר תובא במלואה לאור פירוטה וחשיבותה כמענה לערר`.