
מייקרוסופט משיקה כלי קוד פתוח לבדיקת התנהגות מערכות AI
Microsoft השיקה את ASSERT, מסגרת קוד פתוח המאפשרת למפתחים להגדיר ציפיות התנהגותיות ממערכות AI בשפה טבעית ולהפיק מהן סוויטות בדיקה מלאות. הכלי נועד לסגור פער קריטי: בעוד שבנצ'מרקים כלליים בודקים מודלים ברמה הגלובלית, ASSERT מתמקד בהתאמה לקונטקסט הספציפי של כל מוצר או שירות.
Microsoft מציגה ASSERT: בדיקות AI מותאמות לאפליקציה
חברת Microsoft השיקה השבוע כלי חדש בשם ASSERT (ראשי תיבות של Adaptive Spec-driven Scoring for Evaluation and Regression Testing), מסגרת קוד פתוח שמטרתה לפשט את תהליך הבדיקה של מערכות AI ברמת האפליקציה. הכלי זמין כבר עתה ב-GitHub תחת רישיון פתוח.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
הבעיה שאותה ASSERT בא לפתור
ככל שמודלי שפה גדולים (LLM) משולבים עמוק יותר במוצרים מסחריים, הפער בין הבדיקות הגנריות לדרישות הספציפיות של כל מוצר הולך ומתרחב. בנצ'מרקים מוכרים כמו HELM של אוניברסיטת סטנפורד או AILuminate של MLCommons בודקים מדדים כלליים של ביצועים ובטיחות, אך אינם מסוגלים לאמת שאייג'נט לניהול מסמכים, למשל, אכן מתנהג בהתאם למדיניות הפנימית של הארגון שפיתח אותו.
כיצד ASSERT עובד בפועל
התהליך מבוסס על ארבעה שלבים עיקריים:
- הגדרת ציפיות בשפה טבעית - המפתח מתאר בטקסט חופשי מה המערכת אמורה לעשות ומה אסור לה לעשות.
- יצירת מקרי בדיקה אוטומטית - ASSERT ממיר את ההגדרות לסט מובנה של תרחישים מקובלים ובלתי מקובלים.
- הרצת הבדיקות ודירוג התוצאות - המסגרת מריצה את התרחישים מול המערכת הנבדקת ומייצרת ציונים.
- תיעוד מסלולי הכשל - ASSERT מתעד את הנתיב שעברה המערכת, כולל פעולות ביניים וקריאות לכלים חיצוניים, כך שניתן לאתר בדיוק היכן הדברים השתבשו.
לדוגמה: ארגון שפיתח אייג'נט לחיפוש ועיבוד מסמכים יכול לציין שהמערכת אסורה לשלוח מיילים לגורמים מחוץ לחברה, ושמידע חסוי מוגבל לדרג הניהולי הבכיר. ASSERT ייצור אוטומטית בדיקות שיוודאו שהמערכת מקפידה על כללים אלה באופן שוטף.
מעבר לפריסה ראשונית
אחד היתרונות המרכזיים של ASSERT הוא שניתן להשתמש בו לאורך מחזור החיים כולו של המוצר: בשלב הפיתוח, לאחר הפריסה, ואף לניטור רציף בסביבת הייצור. זהו שינוי תפישתי חשוב, שכן עד כה נטו צוותי פיתוח לבדוק מערכות AI בעיקר לפני השקתן.
הרלוונטיות לשוק הישראלי
המשמעות עבור חברות מקומיות המפתחות מוצרים מבוססי AI היא ישירה: סטארטאפים ומפעלי טכנולוגיה ישראלים הבונים אייג'נטים לתחומים כמו פינטק, ביטוח, רפואה או ביטחון, עשויים להיתקל בדרישות רגולטוריות ותפעוליות מחמירות. כלי כמו ASSERT מאפשר לתעד ולאמת את מדיניות ההתנהגות של המערכת, מה שעשוי להיות קריטי גם לצורכי ביקורת ועמידה בדרישות ה-AI Act האירופי החל על חברות הפועלות בשוק האיחוד.
בנוסף, ריבוי חברות ישראליות המשתמשות בתשתיות Azure ובשירותי Copilot של Microsoft הופך את השילוב של ASSERT בצינורות ה-CI/CD הקיימים שלהן לצעד טבעי יחסית.
השקת ASSERT משתלבת במגמה רחבה יותר בתעשייה, שבה הדגש עובר מבנייה מהירה של מודלים לאימות שיטתי ורציף של התנהגותם.
