איפה אפשר לקרוא חדשות AI בעברית?

זירת AI הוא אתר חדשות AI מוביל בישראל, המתעדכן מדי יום עם חדשות בינה מלאכותית בעברית. האתר מכסה עדכוני AI מרחבי העולם, כולל חדשות על ChatGPT, Claude, Gemini, סטארטאפי AI ומחקרים פורצי דרך. כל התכנים מותאמים לקהילה העסקית והמדעית בישראל.

מה זה זירת AI?

זירת AI הוא אתר חדשות בינה מלאכותית מוביל בישראל. האתר מספק חדשות AI עדכניות בעברית, דירוג והשוואת מודלי AI, סקירות כלי AI, מחקרים אקדמיים ואירועי AI. זירת AI מתעדכן מדי יום ומכסה את כל ההתפתחויות החשובות בעולם הבינה המלאכותית.

איך אני יכול להישאר מעודכן עם חדשות AI?

תוכלו להירשם לניוזלטר השבועי של זירת AI, לעקוב אחרי העמוד שלנו ברשתות החברתיות, או לבקר באתר חדשות AI שלנו באופן קבוע. אנו מפרסמים חדשות AI חדשות מדי יום, כולל עדכונים על מודלים חדשים, כלי AI וחדשות טכנולוגיה.

איך אני יכול למצוא כלי AI מתאים לעסק שלי?

במאגר הכלים שלנו תוכלו לסנן לפי קטגוריות שונות כמו כתיבה, תמונה, קוד, ניתוח נתונים ועוד. כל כלי כולל ביקורת מפורטת, דירוג, מידע על מחיר ויתרונות וחסרונות.

איך אני יכול למצוא אירועי AI בישראל?

בעמוד האירועים שלנו תמצאו רשימה מעודכנת של כנסים, Meetups, Webinars וסדנאות בתחום הבינה המלאכותית בישראל. כל אירוע כולל פרטי הרשמה, מיקום ותאריכים.

מה זה Agent-EvalKit של AWS?

Agent-EvalKit הוא כלי קוד פתוח של AWS להערכה שיטתית של סוכני AI. הוא מאפשר למפתחים לבדוק לא רק את התשובה הסופית של הסוכן, אלא גם את מסלול הפעולה שלו: אילו כלים הופעלו, אילו נתונים נאספו, היכן נוצרו כשלים, ואילו תיקונים נדרשים בקוד.

למה בדיקות רגילות לא מספיקות עבור סוכני AI?

בדיקות רגילות בודקות בעיקר אם הפלט הסופי נראה נכון, אך סוכני AI פועלים בשלבים, בוחרים כלים ומבצעים פעולות על מקורות שונים. לכן סוכן יכול להחזיר תשובה משכנעת אך להמציא נתונים, לדלג על אימותים או להסתיר כשלים שהתרחשו בדרך.

איך Agent-EvalKit מעריך סוכן AI בפועל?

הכלי עובד בשישה שלבים: תכנון ההערכה, יצירת מקרי בדיקה, הוספת מעקב, הרצת הסוכן, חישוב מדדים ויצירת דוח. בסיום מתקבל ניתוח שמזהה דפוסי כשל ומספק המלצות תיקון ממוקדות, כולל הפניה לשורות קוד רלוונטיות.

מה זה Faithfulness בהערכת סוכני AI?

Faithfulness, או אמינות, מודד עד כמה התשובה של סוכן AI נאמנה למידע שהתקבל בפועל מהכלים ומהמקורות שלו. ציון נמוך מצביע על מצב שבו הסוכן מציג מידע מומצא או לא מאומת כאילו הגיע ממקור אמין, גם אם התשובה נשמעת הגיונית.

מה חשף הניסוי של AWS עם סוכן התיירות?

בניסוי על סוכן תיירות, התגלה פער בין איכות התשובות לבין אמינותן. הסוכן סיפק עצות שימושיות וקוהרנטיות, אך כאשר כלי החיפוש החזירו תוצאות ריקות הוא המציא שערי חליפין, טמפרטורות ופרטי אטרקציות, והציג אותם כאילו הגיעו מהכלים.

למה הכלי חשוב לצוותי AI בישראל?

צוותים ישראלים שמפתחים סוכני AI לשירות לקוחות, פיננסים, בריאות או אוטומציה עסקית עלולים להיחשף לסיכונים משפטיים ורגולטוריים אם הסוכן ממציא נתונים בביטחון. Agent-EvalKit מסייע לזהות כשלים כאלה מוקדם ולשלב הערכה שוטפת בתהליכי הפיתוח והייצור.

AWS משיקה כלי קוד פתוח להערכה שיטתית של סוכני AI - חדשות AI

הבעיה שצוותי AI לא תמיד מזהים בזמן

צוותי פיתוח הבונים סוכני AI נוהגים לבחון אותם כפי שבוחנים כל תוכנה אחרת: האם התוצאה תואמת את הציפיות? אך סוכנים אוטונומיים הבוחרים כלים ומבצעים פעולות ברצף על פני מקורות מרובים יוצרים התנהגות שבדיקות ברמת הפלט אינן מצליחות לאפיין במלואה.

סוכן עשוי לספק תשובה מובנית ושימושית לכאורה, בעוד שבפועל הוא ממציא עובדות משום שהכלים שלו החזירו תוצאות ריקות. הוא עשוי גם להגיע למסקנה נכונה תוך דילוג על שלבי אימות חיוניים. כשלים אלה יושבים מתחת לפני השטח של התגובה הסופית, ולכידתם מחייבת מעקב אחר מסלול הביצוע המלא.

מה הוא Agent-EvalKit

AWS פרסמה את Agent-EvalKit, ערכת כלים בקוד פתוח תחת רישיון Apache 2.0, שנועדה לסגור את הפער הזה. הכלי משתלב עם עוזרי קוד מבוססי AI כגון Claude Code, Kiro CLI ו-Kilo Code, ומביא את כל תהליך ההערכה ישירות לסביבת הפיתוח.

במקום לטפל בהערכה כמשימה נפרדת לאחר הפריסה, המפתח מתאר את יעדי ההערכה בשפה טבעית, והכלי מנהל כל שלב בתהליך: מקריאת קוד המקור של הסוכן, דרך יצירת מקרי בדיקה ממוקדים, ועד הרצת הערכות והפקת דוח עם המלצות שיפור המפנות לשורות קוד ספציפיות.

שישה שלבים לתהליך הערכה מלא

הכלי מאורגן סביב שישה שלבים עוקבים:

Plan - קריאת קוד הסוכן ובניית תוכנית הערכה הכוללת מדדים ושיטות מדידה
Data - יצירת מקרי בדיקה עם קלטים ותוצאות צפויות
Trace - הוספת מעקב תואם OpenTelemetry לסוכן, עם תמיכה ב-Strands, LangGraph ו-CrewAI
Run Agent - הרצת הסוכן על כל מקרי הבדיקה ואיסוף קובצי מעקב מובנים
Eval - מימוש המדדים כקוד הניתן להרצה, עם תמיכה בספריות כגון DeepEval ו-Strands Evals SDK
Report - ניתוח דפוסים ויצירת המלצות ממוקדות עם קישור ישיר למיקומים בקוד

מה חשף ניסוי עם סוכן תיירות

AWS הדגימה את הכלי באמצעות סוכן מחקר תיירותי שנבנה על Strands Agents SDK ו-Amazon Bedrock. הצוות חשד שהסוכן מייצר מספרים מדויקים באופן חשוד בתשובותיו, אך לא ידע באיזה היקף ואילו שאלות מפעילות את התופעה.

הערכה שכללה 100 סשנים מרובי-סיבובים חשפה פער חד בין איכות לאמינות: ציון איכות התגובה עמד על 83.9 אחוזים, דיוק פרמטרי בקריאות כלים על 64.5 אחוזים, ואמינות (Faithfulness) על 32.3 אחוזים בלבד. כלומר, הסוכן ייצר עצות תיירות קוהרנטיות ושימושיות, אך המציא שערי חליפין, טמפרטורות ופרטי אטרקציות בכל פעם שכלי החיפוש שלו החזירו תוצאה ריקה, וכל זאת תוך הצגת הנתונים המפוברקים כאילו הגיעו מהכלים עצמם.

הדוח שהופק זיהה את הטיפול בתוצאות ריקות כתיקון בעל העדיפות הגבוהה ביותר, והמליץ על הוראות ספציפיות ב-system prompt ושיפורי טיפול בשגיאות בכל נתיבי הקוד.

השלכות עבור צוותי AI ישראלים

האתגר שאותו פותר Agent-EvalKit רלוונטי במיוחד לצוותים ישראלים הבונים סוכני AI לשירות לקוחות, מחקר פיננסי, או אוטומציה של תהליכים עסקיים. כשל אמינות מהסוג שתועד בניסוי, שבו הסוכן ממציא נתונים בביטחון מלא, עלול לייצר חשיפה משפטית ורגולטורית משמעותית, בייחוד בתחומים כמו פיננסים, בריאות או ייעוץ.

הכלי זמין כעת במאגר GitHub הציבורי של AWS. לצוותים המעוניינים לשלב הערכה שוטפת בתהליכי CI/CD, AWS מציעה גם שילוב עם Amazon Bedrock AgentCore Observability לניטור רציף בסביבת הייצור.

AWS משיקה כלי קוד פתוח להערכה שיטתית של סוכני AI

הבעיה שצוותי AI לא תמיד מזהים בזמן

רוצה להישאר מעודכן ב-AI?

מה הוא Agent-EvalKit

שישה שלבים לתהליך הערכה מלא

מה חשף ניסוי עם סוכן תיירות

השלכות עבור צוותי AI ישראלים

שאלות נפוצות