Files

G12 Leak-Guard / leak-guard (pull_request) Successful in 5s

Details

docs(research): #123 — היתכנות Hermes/Nous — דחה-מסגרת, אמץ-רעיון GEPA כמַצִּיע

מחקר-היתכנות מאומת מול ה-repos (לא מהזיכרון):
- hermes-agent = מסגרת-תזמור מלאה (model-agnostic, MIT, ללא fine-tuning)
- hermes-agent-self-evolution = DSPy+GEPA, API-only, propose-only/human-PR

טבלת-תאימות מול 4 אילוצים (מודל-סגור/G12/INV-LRN1/INV-LRN5):
אימוץ-מסגרת מפר G12 (פלטפורמה מקבילה ל-Paperclip) + INV-LRN5; GEPA כרעיון תואם.

המלצה: דחה אימוץ-מסגרת; אמץ GEPA כמַצִּיע בתת-מערכת רכישת-הסגנון
מול זוגות draft↔final (INV-LRN4), עדיפות-נמוכה עד שיצטבר eval-set.

Co-Authored-By: Claude Opus 4.8 (1M context) <noreply@anthropic.com>

2026-06-11 17:01:36 +00:00

15 KiB

Raw Blame History

מחקר-היתכנות: Hermes של Nous Research — האם להטמיע, והאם זה יעזור ללולאת רכישת-הסגנון

TaskMaster #123 (tag legal-ai) · תאריך: 2026-06-11 · סטטוס: מחקר הושלם → המלצה להכרעה שאלת-העל: האם הסוכן/מסגרת ה-self-learning של Nous Research — שחיים התכוון אליו במקור בהקמת מנהל-הידע — ניתן ורצוי להטמעה אצלנו, והאם ישפר את לולאת רכישת-הסגנון מעבר לקיים. הכרעה בתמצית: לדחות אימוץ-מסגרת; לאמץ רעיון אחד ממוקד — GEPA/DSPy (אבולוציית-פרומפט רפלקטיבית) כ-מַצִּיע בתת-מערכת רכישת-הסגנון, נמוך-עדיפות, לכשיצטברו זוגות draft↔final.

0. הרקע — מה חשבנו שזה, ומה זה באמת

הסוכן "הרמס" אצלנו הוא שם-פרסונה בלבד: בפועל זהו deepseek_local (DeepSeek-V4-Pro) עם פרומפט-קבוע (hermes-curator.md), שמנתח החלטות סופיות ומציע עדכוני-לקחים. קוד של Nous מעולם לא שולב (grep=0). הנחת-המוצא של המשימה הייתה שצריך לבדוק אם ה-"self-learning" של Nous הוא מנגנון fine-tuning שמתנגש באילוץ "מודל סגור".

הממצא המרכזי הופך את ההנחה: ה-self-learning של Nous אינו fine-tuning, ובמבנה-הממשל שלו הוא מתכנס כמעט במדויק לארכיטקטורה שכבר בנינו (propose-only, human-review, semantic-preservation). השאלה האמיתית אינה "האם זה תואם" אלא "האם זה מוסיף משהו שאין לנו". התשובה: רעיון אחד — אופטימיזציית-פרומפט אבולוציונית-רפלקטיבית (GEPA).

א. מה Hermes-agent של Nous באמת עושה (מאומת מול ה-repos, לא מהזיכרון)

יש שני repos נפרדים תחת NousResearch, שניהם MIT:

א.1 `NousResearch/hermes-agent` — מסגרת-סוכן (agent framework)

"The self-improving AI agent… the only agent with a built-in learning loop." רכיבים (מאומת מ-README + docs):

רכיב	מה זה
Closed-loop skill learning	מזקק "Skills" לשימוש-חוזר אוטומטית בסיום כל משימה, שומר בזיכרון מתמיד. תואם תקן פתוח `agentskills.io` (Skills Hub — portable/shareable).
Three-layer memory	זיכרון רב-שכבתי שזוכר העדפות/הרגלים לאורך סשנים.
Dialectic user modeling (Honcho)	בונה מודל מתפתח של "מי אתה" לרוחב סשנים.
Agent-curated memory + periodic nudges	הסוכן "מנדנד" לעצמו לשמר ידע; חיפוש-סשנים FTS5 + סיכום-LLM.
Orchestration	40+ כלים, מספר terminal backends (local/Docker/SSH/Modal/Daytona), תת-סוכנים מבודדים, scheduler/cron מובנה, ריבוי-פלטפורמות-הודעות (Telegram/Discord/Slack/WhatsApp/Signal/CLI).
Model-agnostic	"Use any model you want — switch with `hermes model`, no code changes." עובד מול Nous Portal / OpenRouter (200+) / OpenAI / Anthropic / HF / endpoint מותאם. אין דרישה למודל פתוח, אין fine-tuning של משקולות.

המסקנה: זוהי מסגרת-תזמור-סוכנים מלאה (orchestrator + memory + scheduler + ערוצי-הודעות + skill-hub) — מתחרה מבנית ל-Paperclip, לא רכיב-למידה נקודתי.

א.2 `NousResearch/hermes-agent-self-evolution` — לב ה-"self-learning"

זהו ה-repo שעושה את האבולוציה-העצמית (מאומת מ-README):

מה הוא ממטב: קבצי-skill (SKILL.md), תיאורי-כלים, מקטעי-system-prompt, וקוד-מימוש-כלים. (Phase 1 = קבצי-skill.)
אלגוריתם: DSPy + GEPA (Genetic-Pareto Prompt Evolution). GEPA מנתח traces של ריצה, מבין סיבות-כשל ברפלקציה בשפה-טבעית, ומציע שיפורים ממוקדים — לא רק מזהה כשל.
דרישות-אימון: אין GPU, אין fine-tuning. הכול דרך קריאות-API ("mutating text, evaluating results, selecting best variants"). עלות מוערכת $2–10 לריצת-אופטימיזציה.
הערכת-מועמדים (guardrails): כל variant חייב לעבור — מערך-בדיקות מלא, מגבלת-גודל (skills ≤15KB), תאימות-caching, שימור-סמנטי של המטרה המקורית, וסקירת-PR אנושית.
החלת-שינויים: אין auto-apply. כל variant עובר "human review, never direct commit" ומוצע כ-PR נגד hermes-agent.

זו ההפתעה: המודל התפעולי של Nous (propose → guardrails → human-PR → never auto-commit, עם שימור-סמנטי) הוא שחזור כמעט-מילה-במילה של INV-LRN1/G10 + INV-LRN5 שלנו. לא צריך "להתאים" אותו — הוא כבר חושב כמונו.

ב. טבלת-תאימות מול ארבעת האילוצים (פסיקה לכל אחד)

#	אילוץ	אימוץ-מסגרת (`hermes-agent`)	אימוץ-רעיון (GEPA כמַצִּיע)	פסיקה
1	מודל-סגור (Opus/DeepSeek/Gemini, לא fine-tuning — [project_style_acquisition_goal])	✅ model-agnostic, ללא fine-tuning	✅ GEPA ממטב טקסט (פרומפט/skill), לא משקולות; API-only, $2–10	✅ תואם — זהו בדיוק ה-"prompt-optimization במקום weight-update" שהמשימה זיהתה כהכי-תואם
2	G12 — שער-הפלטפורמה (X15, INV-PORT1)	❌ מתנגש — מסגרת-תזמור שלמה (memory/scheduler/ערוצים/subagents) = פלטפורמת-סוכנים מקבילה ל-Paperclip → drift-רוחב, בדיוק מה ש-G12/G2 מייבשים	✅ חי בשכבת-האינטליגנציה/רכישת-הסגנון, מזין את שער-היו"ר; אינו פלטפורמה, אינו נוגע ב-Port	❌ למסגרת / ✅ לרעיון
3	INV-LRN1/G10 — אין auto-commit	⚠️ ה-memory האוטו-נדנד + יצירת-skill אוטונומית מפרים אם ב-auto-commit	✅ self-evolution תוכנן propose-only (human-PR) — זהה למודל שלנו	✅ תואם (הרעיון); ⚠️ המסגרת דורשת גידור
4	INV-LRN5 — טוהר-הקול (אין מהות ספציפית)	⚠️ 3-layer memory + dialectic modeling שומרים תוכן-משתמש ספציפי לרוחב סשנים → זיהום שכבת-הקול	⚠️ תקין רק אם מטריקת-ההערכה היא מרחק-סגנון (לא שחזור-מהות), והפלט הוא סגנון/שיטה. יש לנו את המטריקה (`style_distance`, שלב [7] MEASUREMENT)	⚠️ בר-ניהול — חייב metric=style-distance + distillation שמפריד במקור (כבר קיים)

ג. מה זה יפתור שלא קיים? (מול מה שכבר בנינו)

יכולת ב-Nous	מקבילה אצלנו	פער-אמיתי?
Closed-loop skill distillation	`hermes-curator` + `ingest_final_version` (Opus distillation) + `final_learning_pipeline`	לא — קיים, ומגודר טוב יותר (פאנל דו/תלת-מודלי, #121)
Three-layer memory / FTS5 recall	קורפוס-סגנון + pgvector + RAG (03-retrieval)	לא — האחזור שלנו עשיר יותר ומכוון-דומיין
Skill-Hub (agentskills.io)	`skills/decision` + `legal-decision-lessons.md`	לא — שיתוף-קהילתי לא רלוונטי לדומיין-סגור
Dialectic user modeling	פרופיל-סגנון של דפנה (`/methodology`)	לא — ובמכוון: INV-LRN5 אוסר מידול-מהות
GEPA reflective prompt-evolution	אין מקבילה — אנו מתקנים פרומפטים ידנית, ללא אופטימיזציה שיטתית מול eval	✅ כן — זה הפער היחיד

הפער היחיד שמוסיף ערך: אנו אוספים זוגות draft↔final (draft_final_pairs, INV-LRN4) אבל לא ממנפים אותם כ-eval-set שיטתי לשיפור פרומפטי-הכתיבה/פרופיל-הסגנון. GEPA הוא בדיוק הכלי לכך: לוקח traces (טיוטות שלנו), reflects על למה הן רחוקות מהסופי של דפנה, ומציע שיפורי-פרומפט — מדיד מול style_distance.

ד. חלופות קוד-פתוח שקולות (≥3 מקורות סמכותיים)

גישה	מה היא	התאמה לאילוץ מודל-סגור	רלוונטיות לנו
GEPA (Agrawal et al., arXiv:2507.19457, ICLR 2026 oral)	אבולוציית-פרומפט רפלקטיבית; reflects על traces בשפה-טבעית	✅ מושלמת — טקסט בלבד	גבוהה — מנצח GRPO (RL) ב-6–20% עם פי-35 פחות rollouts; מנצח MIPROv2 ב-10%+. `pip install gepa` / `dspy.GEPA`
DSPy (MIPROv2)	אופטימיזציית-פרומפט מבוססת-מטריקה	✅ טובה	בינונית — GEPA עדיף לפי המאמר
Reflexion (Shinn et al., NeurIPS 2023)	"verbal RL" — רפלקציה מילולית בזיכרון-אפיזודי	✅ טובה	נמוכה — per-task, לא משפר artifact מתמשך
Voyager (Wang et al., 2023)	skill-library מצטברת (Minecraft, lifelong)	✅ טובה	נמוכה — כבר יש לנו skill-library מגודרת; הרעיון מובנה
Generative Agents (Park et al., 2023)	memory-stream + reflection + retrieval	✅	נמוכה — INV-LRN5 אוסר מידול-מהות מתמשך
LangGraph long-term memory	checkpointing + store	✅	כבר ב-X16 (התשתית קיימת)

מסקנת-ההשוואה: מבין כל החלופות, GEPA היא היחידה שמציעה יכולת חדשה תואמת-אילוץ (אופטימיזציה שיטתית של artifacts-טקסט מול eval, ללא משקולות). השאר או מובנים כבר אצלנו, או מתנגשים ב-INV-LRN5, או per-task ולא-מתמשכים.

ה. המלצה מנומקת

דחה: אימוץ מסגרת `hermes-agent` כפלטפורמה

נימוק: זוהי פלטפורמת-תזמור-סוכנים מלאה (orchestrator/memory/scheduler/ערוצים) המתחרה מבנית ב-Paperclip. אימוצה = מסלול-פלטפורמה מקביל המפר G12/INV-PORT1 (X15) ויוצר את drift-הרוחב שכל הספ מייבש. כבר הכרענו (יוזמת X15/X16): Paperclip = מעטפת ניתנת-להחלפה מאחורי Port; אין מקום לפלטפורמה שנייה.

דחה: אימוץ שכבת-ה-memory/dialectic-modeling

נימוק: שמירת תוכן-משתמש ספציפי לרוחב סשנים מתנגשת ב-INV-LRN5 (טוהר-הקול). פרופיל-הסגנון שלנו במכוון מופשט.

✅ אמץ-רעיון: GEPA/DSPy כ-מַצִּיע בתת-מערכת רכישת-הסגנון

הרעיון הספציפי: אופטימיזציית-פרומפט רפלקטיבית-אבולוציונית של פרומפטי-הכתיבה ו/או פרופיל-הסגנון, ממוטבת מול eval-set של זוגות draft↔final (INV-LRN4), עם מטריקה = style_distance (שלב [7] MEASUREMENT, 07-learning §0.3).

למה זה נכנס נקי (לא מסלול-מקביל):

מודל-סגור ✅ — טקסט בלבד, Opus/DeepSeek דרך adapter, $2–10/ריצה.
G12 ✅ — חי ב-mcp-server/src / style-acquisition; אינו פלטפורמה; אם צריך wakeup → דרך ה-Port.
INV-LRN1/G10 ✅ — מַצִּיע בלבד: GEPA מפיק variant מוצע → שער-יו"ר (כמו ה-curator היום). אין auto-commit. זה גם המודל של Nous עצמם (human-PR).
INV-LRN5 ✅ (מגודר) — eval=style-distance, output=סגנון/שיטה; ה-distillation הקיים מפריד מהות במקור.

כיצד זה נכנס דרך ה-Port (אם/כשמאשרים) — תת-משימות מוצעות

תנאי-סף (gate על הכדאיות): לאסוף N≥~15–20 זוגות draft↔final מנותחים (analyzed/lessons_folded) — eval-set מינימלי ל-GEPA. כיום הקורפוס ~48 החלטות אך זוגות-מנותחים מעטים → לכן עדיפות נמוכה כעת; לפתוח כשהפנקס מתמלא.
PoC מבודד: scripts/gepa_style_optimize.py (מקומי, כמו final_learning_pipeline) — dspy.GEPA ממטב את פרומפט-הכתיבה מול style_distance; פלט = variant מוצע + דו"ח-שיפור.
שער-יו"ר: ה-variant מוצג ב-/training / כ-comment (דרך ה-Port), דפנה/חיים מאשרים → commit ידני ל-skill/prompt. אכיפת INV-LRN1.
מדידה: השוואת style_distance לפני/אחרי על holdout — לאמת שיפור-אמת לפני קיבוע.

עדיפות: נמוכה (priority=low במשימה תואם). זהו שדרוג-איכות עתידי לרכישת-הסגנון, לא חוסר קריטי. להחליט להפעיל רק כשמצטבר eval-set של זוגות. הכרעת-תקציב/עדיפות — של חיים.

מקורות

NousResearch/hermes-agent (README + https://hermes-agent.nousresearch.com/docs/) — מסגרת-הסוכן, MIT, model-agnostic.
NousResearch/hermes-agent-self-evolution (README) — DSPy+GEPA, API-only, propose-only/human-PR, MIT.
Agrawal et al., "GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning", arXiv:2507.19457 (ICLR 2026 oral) — 6–20% מעל GRPO, פי-35 פחות rollouts.
dspy.GEPA (dspy.ai) · CerebrasResearch/gepa (standalone pip install gepa).
Shinn et al., Reflexion (NeurIPS 2023) · Wang et al., Voyager (2023) · Park et al., Generative Agents (2023) — להשוואה.
ספ-פנימי: 07-learning.md (INV-LRN1/4/5) · X15 (G12) · X16 · hermes-curator.md.

15 KiB Raw Blame History Unescape Escape