
כלי אבחון אוטומטי לכשלים בסוכני AI
ענקית הענן AWS פרסמה יכולת חדשה ב-Strands Evals SDK המאפשרת לצוותי פיתוח לזהות כשלים בסוכני AI ולאתר את שורש הבעיה באופן אוטומטי. הכלי מקצר את זמן האבחון מעל שעות לדקות בודדות, ומספק המלצות קונקרטיות לתיקון שגיאות בהגדרות הכלים או ב-system prompt.
אבחון כשלים בסוכני AI: AWS מציגה גישה מובנית לניתוח שגיאות
כאשר סוכן AI נכשל בסביבת ייצור, השאלה האמיתית אינה מה קרה, אלא מדוע זה קרה ומה יש לתקן. עד כה, צוותי הנדסה נאלצו לבצע בדיקות ידניות של traces ביצוע ולאתר שגיאות ספן אחר ספן, תהליך שאינו מתאים לעבודה בקנה מידה גדול. AWS פרסמה השבוע מנגנון Detectors בתוך ה-Strands Evals SDK, המיועד לאוטומציה מלאה של תהליך זה.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
שתי שכבות של ניתוח
המנגנון פועל בשני שלבים עוקבים. בשלב הראשון, זיהוי כשלים, הכלי סורק כל ספן בתוך session ובוחן אותו מול מיון מקיף הכולל תשע קטגוריות: הזיות, פעולות שגויות, שגיאות תיאום, אי-ציות להוראות, שגיאות ביצוע, שגיאות בניהול הקשר, התנהגות חוזרת, בעיות פלט של LLM ואי-התאמת תצורה. לכל כשל שזוהה מוחזרים מיקום הספן, קטגוריה, ציון ביטחון וראיות שחולצו מה-trace.
בשלב השני, ניתוח שורש הבעיה, הכלי מסיק רשתות סיבתיות בין הכשלים שזוהו. שגיאה יחידה בשלב מוקדם עלולה להתגלגל לכשלים מרובים בהמשך. המנגנון מבחין בין כשל ראשוני לבין תסמינים משניים ושלישוניים, וקובע האם כל תיקון שייך ל-system prompt, להגדרת הכלי, או למרכיב אחר.
דוגמה מעשית
בדוגמה שמציגה AWS, סוכן מחקר רפואי נדרש לאסוף נתונים על צריכת אנרגיה של מערכות AI. הכלי זיהה שלושה כשלים שרשרתיים: קריאה לכלי retrieve ללא פרמטר knowledgeBaseId החובה (שגיאת ביצוע ברמת ביטחון 0.9), המשך עם מידע שנוצר מ"ידע כללי" ללא מקור מאומת (הזיה ברמת ביטחון 0.75), ולבסוף נטישה מוחלטת של המשימה המקורית לטובת תוכן לא רלוונטי (סטייה מהמטרה ברמת ביטחון 0.9).
ניתוח שורש הבעיה קבע כי תיקון ראשוני נדרש בהגדרת הכלי, שם knowledgeBaseId אינו מתועד כפרמטר חובה. התיקון השני נדרש ב-system prompt, שצריך להכיל הנחיה מפורשת האוסרת על יצירת מידע עובדתי ללא אחזור מאומת.
שילוב ב-CI/CD ובסביבת ייצור
ה-SDK מציע שני מצבי הפעלה: ON_FAILURE, שמריץ ניתוח רק כאשר בדיקה נכשלת ומתאים לצינורות CI/CD רגילים, ו-ALWAYS, שמנתח כל מקרה ומיועד לביקורות תקופתיות. שילוב עם Amazon CloudWatch מאפשר אבחון ישיר של sessions מסביבת הייצור, ללא צורך בהרצה חוזרת של הסוכן. הכלי תומך גם ב-traces ממסגרות נוספות כמו LangChain, כל עוד הן מייצאות נתונים בפורמט OpenTelemetry.
מבחינת עלויות, הרצת ה-Detectors מחייבת שימוש ב-Amazon Bedrock לניתוח מבוסס LLM, שגורר חיובים בהתאם לתמחור השוטף.
עבור צוותי R&D בישראל הפורסים סוכני AI בייצור, בין אם בפינטק, ביטוח או תשתיות ארגוניות, מדובר בכלי שמקצר באופן משמעותי את לולאת ה-debug וצמצום זמן ה-MTTR. היכולת לנתח traces היסטוריים מ-CloudWatch מבלי להריץ מחדש את הסוכן מפשטת את תהליך האבחון גם עבור מערכות שנמצאות כבר בשדה.
התיעוד המלא זמין ב-Strands Evals SDK ובמאגר GitHub של הפרויקט.
