
מדד חדש לסוכני AI בודק אם מודל שפה יכול לנהל חנות במשך 30 יום
מדד DukaanBench מציע כיוון חדש לבחינת סוכני AI: לא עוד תשובה לשאלה סטטית, אלא ניהול יומיומי של עסק קטן עם מלאי, אשראי, אמון לקוחות ושיווק מקומי. התוצאות חושפות פער קריטי בין מודלים שיודעים לנמק לבין מודלים שיודעים לפעול.
ממבחני ידע למבחני תפעול: למה DukaanBench חשוב לתעשיית ה-AI
רוב מבחני הביצועים למודלי שפה בוחנים יכולת לענות נכון: לפתור בעיה, לסכם טקסט, לכתוב קוד או לבחור תשובה. DukaanBench, שפורסם בבלוג הקהילה של Hugging Face, משנה את נקודת המבט. במקום לשאול אם מודל יודע לחשוב, הוא שואל אם מודל יכול להפעיל עסק קטן לאורך זמן מבלי לשבור אותו.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
במרכז המדד עומדת חנות קיראנה הודית, מכולת שכונתית קטנה, שמופעלת במשך 30 ימי סימולציה. בכל בוקר מקבל המודל תמונת מצב של החנות: מזומן, מלאי, ביקושים קודמים, החמצות מכירה, אמון לקוחות, מזג אוויר, אשראי בלתי פורמלי מסוג Khata, פעולות שיווק פעילות וזיכרון לקוחות. בתגובה עליו להחזיר פעולה אחת בפורמט JSON שניתנת לביצוע על ידי המערכת.
הסיבה העסקית: AI שלא רק מייעץ, אלא מקבל החלטות
הכוח של DukaanBench אינו ברומנטיקה של חנות שכונתית, אלא במורכבות הניהולית שהיא מייצגת. עסק קטן כזה דורש איזון בין מלאי מתכלה, תזרים מזומנים, ביקוש לא ודאי, לקוחות חוזרים, הנחות, קמפיינים מקומיים וחוב לקוחות. מחסור חוזר בחלב או בלחם אינו רק הפסד של כמה רופי. הוא פוגע באמון, ובסופו של דבר בביקוש העתידי.
זו בדיוק נקודת התורפה של הרבה סוכני AI ארגוניים כיום. הם מסוגלים להפיק נימוק משכנע, אך מתקשים לתרגם אותו לפעולה עקבית, תקינה ומדידה. ב-DukaanBench המערכת אינה מבצעת את ההסבר של המודל, אלא רק את ה-JSON. אם המודל כותב שהוא יפעיל קמפיין WhatsApp אך לא מכניס אותו לשדה הפעולות, הקמפיין לא קיים. זהו שיעור חשוב לכל חברה שבונה Agentic AI לתפעול, מכירות, שרשרת אספקה או שירות לקוחות.
מה מלמדת טבלת המובילים
בראש הדירוג עמד GPT 5.5 עם תגמול של 2,294, אמון לקוחות מלא, שיעור שירות של 97.5 אחוז ו-212 יחידות ביקוש שהוחמצו בלבד לאורך 30 יום. Gemini 3.1 Pro הגיע קרוב עם ביצועים מסחריים חזקים, אך נזקק ליותר תיקוני ולידציה בפלט המובנה. Claude Opus 4.8 שמר היטב על אמון, אך היה שמרני יותר וסבל משיעור החמצות גבוה יותר.
הנתון המעניין באמת אינו רק מי ניצח, אלא איך נראים כישלונות. מודלים כמו Grok 4.3 או Qwen 3.7 Max הצליחו לשמור על רווחיות מסוימת, אך פגעו באמון הלקוחות בשל מחסורים חוזרים. המשמעות ברורה: סוכן AI עסקי לא יכול להימדד רק לפי כסף בקופה. עליו להימדד גם לפי אמינות, התאוששות, עקביות פעולה והשפעה ארוכת טווח על מערכת היחסים עם הלקוחות.
השלכה רחבה: הדור הבא של מדדי AI יהיה סימולטיבי
DukaanBench מסמן מעבר ממבחני תשובה למבחני פעולה. בעולם האמיתי, החלטה אחת משנה את מצב המערכת, והמצב החדש הופך להקשר של ההחלטה הבאה. זו לולאת פעולה שמזכירה יותר ניהול עסק מאשר מבחן יכולת שפתית.
עבור חברות, המשמעות עמוקה. לפני שמחברים מודל למערכות מלאי, גבייה, קמפיינים או הזמנות ספקים, צריך לבדוק לא רק אם הוא חכם, אלא אם הוא יציב תחת חוזה פעולה קשיח, מבין השלכות מאוחרות ומתקן טעויות לפני שהן הופכות לנזק מוניטיני.
אם חלקו השני של הפרויקט אכן יאמן מודל קטן וממוקד על עקבות הסימולציה, הוא עשוי להמחיש מגמה רחבה יותר: במקרים רבים, מודל קטן שמכיר היטב תהליך עסקי ספציפי עשוי להיות יעיל יותר ממודל ענק שמנסה להבין הכול מחדש בכל בוקר.
