
בקרות שכבת ההפעלה עבור סוכני מודלי שפה onchain תחת הון אמיתי
יישומי המאמר
המחקר מראה לארגונים, פינטקים, פלטפורמות קריפטו וחברות שבונות סוכני AI שלא מספיק לבחור מודל שפה חזק. אם רוצים לאפשר ל-AI לבצע פעולות בעולם האמיתי — במיוחד פעולות פיננסיות עם כסף אמיתי — צריך לבנות סביבו "שכבת הפעלה" שמגבילה, מאמתת, מתעדת ומפקחת על כל פעולה. בפועל, המשמעות היא שניתן לפתח סוכנים אוטונומיים שמנהלים אסטרטגיות, מבצעים עסקאות או מפעילים כלים חיצוניים בצורה בטוחה יותר, כל עוד יש בקרות תפעוליות חזקות. עבור מנהלים, זהו מסר חשוב: הערכת מערכות AI צריכה להיעשות מקצה לקצה, מהנחיית המשתמש ועד הפעולה בפועל והתוצאה העסקית, ולא רק לפי ביצועי מודל במבחני טקסט. הלקחים רלוונטיים גם מחוץ לקריפטו — למשל באוטומציה פיננסית, תפעול, קבלת החלטות ו-agentic workflows בארגון.
TL;DR
המאמר בוחן כיצד ניתן להפוך סוכני שפה אוטונומיים לאמינים מספיק כדי לפעול עם הון אמיתי בשרשרת. החוקרים מציגים פריסה בת 21 יום של DX Terminal Pro, שבה 3,505 סוכנים ממומני-משתמשים סחרו ב-ETH בשוק onchain מוגבל. במהלך ההפעלה נרשמו כ-7.5 מיליון קריאות לסוכנים, כ-300 אלף פעולות onchain, כ-20 מיליון דולר בנפח מסחר, יותר מ-5,000 ETH שהוקצו, וכ-70 מיליארד טוקני inference. שיעור ההסדרה של עסקאות תקפות-מדיניות עמד על 99.9%. התרומה המרכזית היא הטענה שהאמינות לא נובעת רק מהמודל הבסיסי, אלא משכבת ההפעלה שסביבו: הידור פרומפטים, בקרות טיפוסיות, אימות מדיניות, שומרי ביצוע, תכנון זיכרון ותצפיתיות מלאה. בנוסף, בדיקות טרום-השקה חשפו כשלים מעשיים שלא נמדדים היטב בבנצ'מרקים טקסטואליים, ושינויים ממוקדים במעטפת הפחיתו כשלי מסחר מומצאים מ-57% ל-3%, שיפרו תצפיות מונחות-עמלות מ-32.5% לפחות מ-10%, והעלו פריסת הון מ-42.9% ל-78.0%.
פירוט המאמר
רקע ומטרת המחקר
המאמר עוסק בשאלה מרכזית בעולם סוכני ה-AI: כיצד ניתן להבטיח אמינות כאשר מודל שפה אוטונומי לא רק מייצר טקסט, אלא מתרגם הוראות משתמש לפעולות כלי מאומתות עם השלכות כספיות אמיתיות. המחקר מתמקד בסביבה onchain, שבה טעויות אינן תיאורטיות אלא עלולות להסתיים בביצוע עסקאות לא רצויות או בניהול לא יעיל של הון. הטענה המרכזית של החוקרים היא שאמינות אינה תוצר של המודל הבסיסי בלבד, אלא של שכבת ההפעלה השלמה שסביבו.
סביבת המחקר: DX Terminal Pro
המערכת שנבחנה היא DX Terminal Pro, בפריסה חיה שנמשכה 21 ימים. במסגרת זו פעלו 3,505 סוכנים ממומני-משתמשים, שסחרו ב-ETH בשוק onchain תחום. המשתמשים הגדירו את הסוכנים דרך שילוב של בקרות מובנות ואסטרטגיות בשפה טבעית, אך הסוכנים עצמם היו אלו שבחרו מתי לבצע עסקאות קנייה ומכירה רגילות. בכך המחקר בודק לא רק יכולת שיחה או reasoning, אלא הפעלה אוטונומית רציפה בעולם אמיתי.
היקף הנתונים וההפעלה
היקף הפעילות שנצבר במחקר גדול במיוחד ביחס למחקרי agents טיפוסיים. המערכת הפיקה כ-7.5 מיליון agent invocations, כ-300 אלף פעולות onchain, וכ-20 מיליון דולר בנפח מסחר. יותר מ-5,000 ETH הוקצו לפריסה, ונצרכו בערך 70 מיליארד טוקני inference. עסקאות שהוגשו ואושרו כעומדות במדיניות השיגו שיעור settlement success של 99.9%. החוקרים מדגישים כי סוכנים פעילים לאורך זמן צברו אלפי החלטות עוקבות, כולל יותר מ-6,000 מחזורי prompt-state-action עבור סוכנים שפעלו ברציפות, מה שסיפק תיעוד עשיר מקצה לקצה: מהמנדט של המשתמש, דרך הפרומפט המרונדר, תהליך ההסקה, האימות, מצב התיק ועד לסליקה.
השערה מרכזית: חשיבות שכבת ההפעלה
ליבת המאמר היא ההבחנה בין המודל הבסיסי לבין מעטפת ההפעלה שלו. לפי החוקרים, אמינות אמיתית נבנתה משילוב של כמה רכיבים: prompt compilation, בקרות typed controls, policy validation, execution guards, תכנון זיכרון ו-trace-level observability. כלומר, במקום לסמוך על כך שהמודל "יבין לבד" את מגבלות המערכת, יש לקודד חוקים ואילוצים מחוץ למודל, ולאלץ את המסלול מהוראה לפעולה להיות בדיק, נשלט וניתן לאודיט.
שיטות והערכת כשלים
המחקר מתבסס על פריסה אמפירית חיה יחד עם בדיקות טרום-השקה ממוקדות. הבדיקות נועדו לחשוף כשלים שבנצ'מרקים טקסטואליים רגילים כמעט ואינם מודדים. החוקרים מציינים כמה משפחות כשלים בולטות: fabricated trading rules, fee paralysis, numeric anchoring, cadence trading, ו-misread tokenomics. אלו כשלים שלא בהכרח מתגלים כאשר בודקים מודל על שאלות-תשובות או reasoning text-only, אך הופכים קריטיים כאשר מודל צריך לבחור פעולה כספית ממשית.
ממצאים מרכזיים על כשלים ותיקונם
אחת התרומות החשובות של העבודה היא הוכחה שכשלי agent אינם קבועים, אלא ניתנים לצמצום משמעותי באמצעות שינויים ממוקדים במעטפת. בפרט, targeted harness changes הפחיתו fabricated sell rules מ-57% ל-3%. בנוסף, fee-led observations ירדו מ-32.5% לפחות מ-10%, והמערכת העלתה את שיעור פריסת ההון מ-42.9% ל-78.0% באוכלוסיית מבחן מושפעת. המספרים הללו מחזקים את מסקנת המחקר: חלק גדול מהתנהגות בעייתית נובע ממסגור, ולידציה, בקרת מצב ותכנון workflow — לא רק מאיכות המודל הגנרטיבי עצמו.
משמעות התצפיתיות והעקיבות
המאמר מדגיש במיוחד את החשיבות של observability ברמת trace. כאשר סוכן פועל בעולם האמיתי, לא מספיק לדעת אם התוצאה הייתה "נכונה"; צריך להבין מה היה מנדט המשתמש, כיצד הוא הומר לפרומפט, מה היה מצב התיק בזמן ההחלטה, מה המודל הסיק, אילו checks הופעלו, ולמה הפעולה אושרה או נחסמה. עקיבות זו מאפשרת debugging, שיפור מתמשך, בדיקות בטיחות, ורגולציה או governance עתידיים במערכות המנהלות כסף אמיתי.
תרומה מתודולוגית
מבחינה מחקרית, העבודה מציעה מסגרת הערכה חלופית לזו המקובלת במחקרי LLM agents. במקום להעריך את המודל רק לפי איכות תשובות או benchmarks סינתטיים, החוקרים טוענים שיש לבחון את כל המסלול: user mandate → prompt → validated action → settlement. זוהי גישה מערכתית יותר, שמתאימה במיוחד ליישומים בהם יש קישור ישיר בין inference לבין פעולה חיצונית בלתי הפיכה.
מגבלות והקשר
המערכת הופעלה בשוק onchain תחום, ובמסגרת של buy/sell trades רגילים, כך שאין כאן הוכחה כללית לכל סוגי הפעולות הפיננסיות או לכל שוק מבוזר אפשרי. בנוסף, המאמר מבוסס על מערכת אחת ועל stack תפעולי מסוים. עם זאת, גודל הפריסה והעובדה שמדובר בכסף אמיתי מעניקים למחקר משקל יישומי משמעותי, במיוחד בהשוואה למחקרים מעבדתיים או סימולטיביים.
מסקנות
המחקר מסיק שסוכני שפה המנהלים הון צריכים להיבחן ולהיבנות כמערכות שלמות, ולא כמודלים מבודדים. הביצועים החזקים שנצפו — כולל 99.9% הצלחת settlement עבור עסקאות תקפות-מדיניות — לא הושגו בזכות המודל בלבד, אלא בזכות שכבת הפעלה עשירה של אילוצים, אימותים, שומרי ביצוע, זיכרון ותצפיתיות. עבור התחום הרחב של agentic AI, המאמר מהווה קריאה לעבור ממדידת אינטליגנציה טקסטואלית למדידת אמינות תפעולית. זהו מסר חשוב במיוחד ליישומים פיננסיים, אך גם לכל מערכת שבה LLMs מפעילים כלים, תהליכים או משאבים אמיתיים.
✨ היילייטס
- המחקר מציג פריסה חיה של סוכני LLM עם כסף אמיתי: 3,505 סוכנים, 21 ימי פעילות, כ-7.5 מיליון קריאות, כ-300 אלף פעולות onchain, כ-20 מיליון דולר בנפח מסחר, ויותר מ-5,000 ETH שהוקצו.
- האמינות הגבוהה של המערכת לא יוחסה למודל בלבד אלא ל-שכבת הפעלה מלאה שכללה הידור פרומפטים, בקרות טיפוסיות, אימות מדיניות, שומרי ביצוע, תכנון זיכרון ו-trace-level observability.
- עבור עסקאות שעמדו במדיניות, המערכת השיגה 99.9% הצלחת settlement, נתון שמדגים שניתן להפעיל agents פיננסיים בצורה יציבה כאשר המעטפת התפעולית בנויה נכון.
- בדיקות טרום-השקה חשפו כשלים אופייניים שלא נתפסים היטב בבנצ'מרקים רגילים, כגון חוקי מסחר מומצאים, fee paralysis, numeric anchoring, cadence trading ו-misread tokenomics.
- שיפורים ממוקדים ב-harness הובילו לשיפור חד: fabricated sell rules ירדו מ-57% ל-3%, תצפיות מונחות-עמלות ירדו מ-32.5% לפחות מ-10%, ו-פריסת ההון עלתה מ-42.9% ל-78.0% באוכלוסיית המבחן המושפעת.
