חזרה למחקרים
TraderBench: מהו חוסנם של סוכני AI בשוקי הון אדברסריאליים? |
arXiv
קבלת החלטות עם AI

TraderBench: מהו חוסנם של סוכני AI בשוקי הון אדברסריאליים? |

מחברים:Xiaochuang Yuan, Hui Xu, Silvia Xu, Cui Zou, Jing Xiong
תאריך פרסום:26 בפברואר 2026
סוג המחקר:ניסוי אמפירי
מקור:arXiv

יישומי המאמר

TraderBench מספק כלי פרקטי למנהלים, צוותי מחקר וגורמי סיכונים כדי לבדוק האם “סוכן מסחר” מבוסס מודלי שפה באמת יודע לקבל החלטות בשוק משתנה—ולא רק לענות נכון על שאלות ידע. במקום להסתמך על מבחנים תיאורטיים או על דירוגים סובייקטיביים של LLM, המערכת מודדת ביצועים כמו בעולם האמיתי: תשואה, שארפ ו-drawdown בסימולציות שבהן השוק עצמו “מתנגד” באמצעות מניפולציות ותנאים קשים. המשמעות העסקית היא אפשרות לבצע ולידציה לפני שימוש בסוכן פיננסי (או בכל סוכן החלטה) בסביבה ייצורית: לזהות מודלים שמציגים ביצועים יציבים אך לא מסתגלים (כלומר עלולים להיכשל כששוק משתנה), להשוות בין מודלים/הגדרות (כמו מצב חשיבה ממושך), ולבנות תהליך בחירת ספק/מודל שמבוסס על מדדים פיננסיים אובייקטיביים ולא על התרשמות איכותנית.

TL;DR

המאמר מציג את TraderBench, בנצ'מרק חדש להערכת סוכני AI בתחום פיננסי תחת תנאים דינמיים ותוקפניים (adversarial), שבו מדדים סטטיים או שיפוט מבוסס-LLM אינם מספקים. TraderBench משלב מטלות סטטיות שאושרו ע"י מומחים (למשל שליפת ידע והסקה אנליטית) עם סימולציות מסחר תחרותיות שמדורגות רק לפי ביצועים ממומשים—תשואה, יחס שארפ ומשיכה מרבית (drawdown)—וכך מבטל לגמרי שונות/הטיה של “שופט” חיצוני. המסגרת כוללת שני מסלולים: מסחר קריפטו עם ארבע רמות של טרנספורמציות מניפולטיביות בשוק, ומסלול נגזרים/אופציות שבו הניקוד בוחן דיוק P&L, Greeks וניהול סיכונים. בבדיקה על 13 מודלים (מטווח open-source של ~8B ועד מודלים חזקים) בכ~50 משימות, נמצא שרוב המודלים מפגינים אסטרטגיות לא-אדפטיביות: 8 מתוך 13 קיבלו ציון ~33 בקריפטו עם שונות קטנה מ-1 נקודה בין תנאים תוקפניים שונים. בנוסף, “extended thinking” שיפר שליפה סטטית ב~+26 נקודות אך כמעט לא השפיע על מסחר (+0.3 בקריפטו, -0.1 באופציות).

פירוט המאמר

רקע ומוטיבציה

הערכת סוכני AI בפיננסים מציבה שתי בעיות מרכזיות: (1) בנצ'מרקים סטטיים דורשים תיוג/אימות יקר של מומחים ולעיתים מפספסים את מאפיין הליבה של מסחר—קבלת החלטות דינמית לאורך זמן תחת אי־ודאות; (2) הערכה בעזרת “שופטים” מבוססי LLM עלולה להכניס שונות לא מבוקרת והטיות, במיוחד במשימות תחומיות.

המאמר מציע שדרך נכונה יותר להעריך סוכנים במסחר היא באמצעות מדדי ביצוע ממומשים (realized performance) בסביבות סימולציה שבהן אפשר לשנות תנאי שוק ולייצר מצבים תוקפניים/מניפולטיביים. כך ניתן לבחון גם Robustness וגם יכולת הסתגלות.

תרומת המחקר

המחברים מציגים את TraderBench, בנצ'מרק שמנסה לפתור את שתי הבעיות יחד:

  • שילוב של מטלות סטטיות שאושרו/אומתו ע"י מומחים (למשל שליפת ידע והסקה אנליטית) כדי למדוד כשירות בסיסית.
  • לצד זאת, סימולציות מסחר אדברסריאליות שמדורגות אך ורק לפי תוצאות כמותיות: תשואות, יחס שארפ (Sharpe ratio) ו-Drawdown. בכך מבטלים את הצורך בשיפוט LLM ומנטרלים שונות בין “שופטים”.
  • מנגנון שמאפשר רענון תרחישים עם נתוני שוק חדשים כדי לצמצם “זיהום בנצ'מרק” (benchmark contamination) והתאמת-יתר לשאלות/תרחישים מוכרים.

מבנה הבנצ'מרק (TraderBench)

TraderBench כולל שני מסלולים (tracks) עיקריים:

1) מסלול קריפטו (Crypto Trading)

במסלול זה הסוכן נסחר בתרחישים המדמים שוק קריפטו, כאשר ה-benchmark כולל ארבע טרנספורמציות מניפולטיביות מתקדמות של השוק (progressive market-manipulation transforms). המטרה היא לבחון האם הסוכן משנה התנהגות ומסתגל כאשר סביבת השוק "מתעוותת" באופן שמקשה על אסטרטגיות נאיביות.

הניקוד במסלול זה מבוסס על ביצועים ממומשים. לפי האבסטרקט, רבים מהמודלים מקבלים ציון דומה גם כשהתנאים משתנים—סימן לכך שהאסטרטגיה קבועה ולא אדפטיבית.

2) מסלול נגזרים/אופציות (Options Derivatives)

מסלול זה בודק יכולת עבודה עם מכשירים נגזרים, כאשר הדירוג נעשה לפי רכיבים כמותיים שמייצגים דרישות אמיתיות של מסחר וניהול סיכונים:

  • דיוק P&L (רווח/הפסד)
  • Greeks (רגישויות כמו Delta, Gamma וכו')
  • Risk management (אופן ניהול הסיכון)

גם כאן ההערכה עוגנת במדדים כמותיים ולא בטקסטים או שיפוט של מודל אחר.

מערך הניסוי

המחברים העריכו 13 מודלים הנעים מפתרונות open-source בסדר גודל ~8B פרמטרים ועד מודלים “frontier”. הבדיקה בוצעה על כ-50 משימות (≈50) הכוללות גם מטלות סטטיות וגם סימולציות מסחר.

נבחנה גם השפעת extended thinking (מצב חשיבה/היסק ממושך) על הביצועים—כדי לבדוק האם יותר "שרשרת מחשבה" משפרת לא רק ידע סטטי אלא גם קבלת החלטות מסחרית.

תוצאות עיקריות

יציבות חשודה תחת תנאים אדברסריאליים בקריפטו

אחד הממצאים המובהקים הוא שמספר גדול של מודלים מציגים כמעט אותו ציון גם כאשר תנאי השוק משתנים בצורה תוקפנית:

  • 8 מתוך 13 מודלים קיבלו ציון ≈33 במסלול הקריפטו.
  • השונות בין תנאים אדברסריאליים שונים הייתה קטנה מ-1 נקודה ("<1-point variation").

המחברים מפרשים זאת כעדות לכך שהסוכנים משתמשים באסטרטגיות קבועות ולא אדפטיביות (fixed non-adaptive strategies): הם אינם מגיבים באמת לשינויי השוק/למניפולציות, ולכן גם לא משתנה הציון בצורה שמצביעה על התאמה או כשל ספציפי לתנאי מסוים.

Extended thinking: משפר ידע, לא מסחר

ממצא שני הוא פער ברור בין שיפור ביכולות סטטיות לבין היעדר שיפור בקבלת החלטות מסחר:

  • extended thinking שיפר retrieval (שליפת ידע) ב-+26 נקודות.
  • אך ההשפעה על ביצועי מסחר הייתה כמעט אפסית:
    • +0.3 במסלול הקריפטו
    • -0.1 במסלול האופציות

כלומר, גם כאשר המודל “חושב יותר”, הוא לא בהכרח מקבל החלטות מסחר טובות יותר—רמז לכך שהצוואר בקבוק אינו רק חישוב/היסק טקסטואלי, אלא מודל פעולה, הסתגלות, וייתכן גם אופטימיזציה תחת אי־ודאות לאורך זמן.

דיון ומשמעות

המחקר מדגיש שבפיננסים—ובאופן כללי בסוכנים הפועלים בעולם דינמי—הערכה סטטית אינה מספיקה. סוכן יכול להיראות “חכם” במבחני ידע, אך להיכשל בהסתגלות לתנאי שוק משתנים. TraderBench מיישר קו עם תעשייה בכך שהוא מודד הצלחה לפי מדדים פיננסיים ממומשים (תשואה/שארפ/drawdown) ולא לפי שכנוע מילולי.

בנוסף, התוצאות מצביעות על נקודת חולשה עכשווית של סוכני LLM במסחר: היעדר market adaptation אמיתי. המסקנה המעשית היא שהתקדמות ביכולות reasoning כלליות לא תבטיח הצלחה במשימות מסחר, ללא מנגנונים מפורשים של למידה/התאמה למדיניות פעולה תחת שינויי משטר בשוק.

מגבלות וכיווני המשך (כפי שעולה מהאבסטרקט)

מהאבסטרקט עולה בעיקר כיוון עתידי מרכזי: יכולת רענון תרחישים עם נתוני שוק חדשים כדי להקטין חשש לזיהום בנצ'מרק. בנוסף, הממצאים מרמזים על צורך במחקר שיתמקד בשיטות שמייצרות הסתגלות אמיתית (ולא רק שיפור בידע סטטי), ובבניית סוכנים שממקסמים מדדי סיכון-תשואה תחת מניפולציות ותנאי שוק משתנים.

✨ היילייטס

  • TraderBench מציע בנצ'מרק היברידי: מטלות סטטיות מאומתות-מומחה + סימולציות מסחר אדברסריאליות שמדורגות רק לפי תשואה/שארפ/drawdown, ללא “שופט” מבוסס LLM.
  • שני מסלולים מרכזיים: קריפטו עם 4 טרנספורמציות מניפולטיביות של השוק, ו-אופציות/נגזרים עם ניקוד לפי P&L, Greeks וניהול סיכונים.
  • בניסוי על 13 מודלים וכ-50 משימות: 8/13 קיבלו ציון ≈33 בקריפטו עם שונות <1 נקודה בין תנאים אדברסריאליים—עדות לאסטרטגיות לא-אדפטיביות.
  • מצב extended thinking שיפר ביצועי שליפה סטטית ב-+26 נקודות, אך כמעט לא שיפר מסחר: +0.3 בקריפטו ו--0.1 באופציות.
  • המסקנה המרכזית: סוכני AI נוכחיים חסרים הסתגלות שוק אמיתית, ולכן נדרשת הערכה מבוססת-ביצועים (performance-grounded) בפיננסים.

חוקרים

Xiaochuang YuanHui XuSilvia XuCui ZouJing Xiong

מילות מפתח

AI agentsfinancial tradingadversarial evaluationbenchmarkrisk management

שאלות נפוצות