AWS משיקה כלי קוד פתוח להערכה שיטתית של סוכני AI

AWS משיקה כלי קוד פתוח להערכה שיטתית של סוכני AI

12 ביוני 2026
מערכת זירת AI
מקור:זירת AI

אמזון פרסמה את Agent-EvalKit, ערכת כלים בקוד פתוח המאפשרת לצוותי פיתוח להעריך סוכני AI לא רק על בסיס תוצאות סופיות, אלא לאורך כל מסלול הביצוע. הכלי משתלב ישירות בסביבת הפיתוח ומייצר המלצות שיפור ממוקדות ברמת הקוד, כולל זיהוי הלוצינציות הנגרמות מתוצאות ריקות של כלים.

הבעיה שצוותי AI לא תמיד מזהים בזמן

צוותי פיתוח הבונים סוכני AI נוהגים לבחון אותם כפי שבוחנים כל תוכנה אחרת: האם התוצאה תואמת את הציפיות? אך סוכנים אוטונומיים הבוחרים כלים ומבצעים פעולות ברצף על פני מקורות מרובים יוצרים התנהגות שבדיקות ברמת הפלט אינן מצליחות לאפיין במלואה.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

סוכן עשוי לספק תשובה מובנית ושימושית לכאורה, בעוד שבפועל הוא ממציא עובדות משום שהכלים שלו החזירו תוצאות ריקות. הוא עשוי גם להגיע למסקנה נכונה תוך דילוג על שלבי אימות חיוניים. כשלים אלה יושבים מתחת לפני השטח של התגובה הסופית, ולכידתם מחייבת מעקב אחר מסלול הביצוע המלא.

מה הוא Agent-EvalKit

AWS פרסמה את Agent-EvalKit, ערכת כלים בקוד פתוח תחת רישיון Apache 2.0, שנועדה לסגור את הפער הזה. הכלי משתלב עם עוזרי קוד מבוססי AI כגון Claude Code, Kiro CLI ו-Kilo Code, ומביא את כל תהליך ההערכה ישירות לסביבת הפיתוח.

במקום לטפל בהערכה כמשימה נפרדת לאחר הפריסה, המפתח מתאר את יעדי ההערכה בשפה טבעית, והכלי מנהל כל שלב בתהליך: מקריאת קוד המקור של הסוכן, דרך יצירת מקרי בדיקה ממוקדים, ועד הרצת הערכות והפקת דוח עם המלצות שיפור המפנות לשורות קוד ספציפיות.

שישה שלבים לתהליך הערכה מלא

הכלי מאורגן סביב שישה שלבים עוקבים:

  • Plan - קריאת קוד הסוכן ובניית תוכנית הערכה הכוללת מדדים ושיטות מדידה
  • Data - יצירת מקרי בדיקה עם קלטים ותוצאות צפויות
  • Trace - הוספת מעקב תואם OpenTelemetry לסוכן, עם תמיכה ב-Strands, LangGraph ו-CrewAI
  • Run Agent - הרצת הסוכן על כל מקרי הבדיקה ואיסוף קובצי מעקב מובנים
  • Eval - מימוש המדדים כקוד הניתן להרצה, עם תמיכה בספריות כגון DeepEval ו-Strands Evals SDK
  • Report - ניתוח דפוסים ויצירת המלצות ממוקדות עם קישור ישיר למיקומים בקוד

מה חשף ניסוי עם סוכן תיירות

AWS הדגימה את הכלי באמצעות סוכן מחקר תיירותי שנבנה על Strands Agents SDK ו-Amazon Bedrock. הצוות חשד שהסוכן מייצר מספרים מדויקים באופן חשוד בתשובותיו, אך לא ידע באיזה היקף ואילו שאלות מפעילות את התופעה.

הערכה שכללה 100 סשנים מרובי-סיבובים חשפה פער חד בין איכות לאמינות: ציון איכות התגובה עמד על 83.9 אחוזים, דיוק פרמטרי בקריאות כלים על 64.5 אחוזים, ואמינות (Faithfulness) על 32.3 אחוזים בלבד. כלומר, הסוכן ייצר עצות תיירות קוהרנטיות ושימושיות, אך המציא שערי חליפין, טמפרטורות ופרטי אטרקציות בכל פעם שכלי החיפוש שלו החזירו תוצאה ריקה, וכל זאת תוך הצגת הנתונים המפוברקים כאילו הגיעו מהכלים עצמם.

הדוח שהופק זיהה את הטיפול בתוצאות ריקות כתיקון בעל העדיפות הגבוהה ביותר, והמליץ על הוראות ספציפיות ב-system prompt ושיפורי טיפול בשגיאות בכל נתיבי הקוד.

השלכות עבור צוותי AI ישראלים

האתגר שאותו פותר Agent-EvalKit רלוונטי במיוחד לצוותים ישראלים הבונים סוכני AI לשירות לקוחות, מחקר פיננסי, או אוטומציה של תהליכים עסקיים. כשל אמינות מהסוג שתועד בניסוי, שבו הסוכן ממציא נתונים בביטחון מלא, עלול לייצר חשיפה משפטית ורגולטורית משמעותית, בייחוד בתחומים כמו פיננסים, בריאות או ייעוץ.

הכלי זמין כעת במאגר GitHub הציבורי של AWS. לצוותים המעוניינים לשלב הערכה שוטפת בתהליכי CI/CD, AWS מציעה גם שילוב עם Amazon Bedrock AgentCore Observability לניטור רציף בסביבת הייצור.

שאלות נפוצות