AWS משיקה מעריכי AI לבדיקות אמינות לתמונה-לטקסט

AWS משיקה מעריכי AI לבדיקות אמינות לתמונה-לטקסט

21 במאי 2026
מערכת זירת AI
מקור:זירת AI

AWS הכריזה על ארבעה מעריכי MLLM-as-a-Judge חדשים ב-Strands Evals, שנועדו לבדוק אם תשובות טקסטואליות של מודלי ראייה באמת מבוססות על התמונה. הכלים מיועדים למשימות כמו OCR, ניתוח מסמכים, תיאור תמונות, קריאת תרשימים וסיכום מסכים.

לפי פרסום בבלוג AWS מהשבוע, AWS מוסיפה ל-Strands Evals יכולת חשובה במיוחד לעידן ה-AI המולטימודלי: מעריכי מודלים שיכולים לראות את התמונה בעצמם, ולא רק לקרוא את התשובה שנוצרה עליה.

בדיקת AI מולטימודלי עוברת שלב

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

ההכרזה החדשה מתמקדת בארבעה מעריכי MLLM-as-a-Judge למשימות תמונה-לטקסט: Overall Quality, Correctness, Faithfulness ו-Instruction Following. במילים פשוטות, במקום שמודל שפה טקסטואלי בלבד ינסה לשפוט אם תשובה נשמעת סבירה, המעריך החדש מקבל גם את התמונה המקורית, גם את השאלה, גם את תשובת המודל, ולעיתים גם תשובת ייחוס. כך הוא יכול לבדוק אם התשובה באמת מעוגנת במידע הוויזואלי.

המהלך משמעותי במיוחד עבור צוותים שמפתחים מערכות לניתוח חשבוניות, סיכום צילומי מסך, מענה לשאלות על תרשימים, OCR מתקדם, קטלוג מוצרים חזותי או עוזרים ארגוניים שקוראים מסמכים סרוקים. במקרים כאלה, תשובה יכולה להיות מנוסחת היטב ועדיין להיות שגויה לחלוטין. למשל, מודל יכול להמציא כפתור שלא מופיע במסך, לטעות בסכום בחשבונית או לתאר מגמה שאינה קיימת בגרף.

ארבעה סוגי שיפוט, ארבעה סוגי כשלים

המעריך הראשון, Overall Quality, מעניק ציון כולל בסולם לייקרט של 1 עד 5 ובודק את איכות התשובה כמכלול. Correctness בודק אם התשובה נכונה ושלמה לפי התמונה והשאלה. Faithfulness מתמקד בשאלה האם המודל נשאר נאמן למה שמופיע בתמונה ואינו מזייף פרטים. Instruction Following בודק אם התשובה עומדת בהוראות המשתמש, למשל פורמט, היקף, מספר פריטים או מגבלות ניסוח.

ההפרדה בין סוגי הכשלים חשובה מאוד בפיתוח מערכות AI אמינות. טעות עובדתית, הזיה חזותית ואי עמידה בהנחיה הן בעיות שונות שדורשות תיקון שונה. אם כולן מתכנסות לציון כללי אחד, קשה להבין מה באמת נשבר במערכת.

שילוב ישיר בבדקרוק (Bedrock)

לפי AWS, המעריכים החדשים משתלבים ישירות בזרימת העבודה של Strands Evals, המבוססת על Case, Experiment ו-Report. כל בדיקה מחזירה לא רק ציון אלא גם נימוק טקסטואלי, שימושי במיוחד לניפוי שגיאות ולשילוב בתהליכי CI. כך צוותים יכולים לזהות אוטומטית הזיות חזותיות, שגיאות עובדתיות והפרות הוראה לפני העלאה לפרודקשן.

המערכת תומכת בשני מצבים: בדיקה עם תשובת ייחוס ובדיקה ללא תשובת ייחוס. מצב מבוסס רפרנס מתאים למערכי בדיקה מתויגים, בעוד מצב ללא רפרנס חשוב למקרים חיים שבהם תמונות חדשות נכנסות למערכת ואין אמת מידה ידנית מוכנה מראש.

AWS מציינת כי בניסויים שערכה, שופט מולטימודלי שראה את התמונה התאים טוב יותר לשיפוט אנושי מאשר שופט טקסטואלי שקיבל תיאור אוטומטי של התמונה. גם מבחינת עלות וביצועים, יצירת תיאור ביניים באמצעות מודל נוסף לא סיפקה יתרון ברור.

Claude Sonnet 4.6 כברירת מחדל

אחד הממצאים המעניינים בפרסום הוא המלצת AWS להשתמש ב-Anthropic Claude Sonnet 4.6 דרך Amazon Bedrock כמודל השופט המועדף. לפי החברה, מודל זה סיפק את איזון הדיוק, המחיר והשהיה הטוב ביותר במבדקים שבוצעו. AWS מוסיפה כי מודלים גדולים בעלי יכולות הסקה נטו להיות אמינים יותר כשופטים, אך מודלי פרימיום יקרים יותר לא בהכרח סיפקו שיפור מדיד ביחס למודלי ביניים חזקים.

החוקרים והכותבים Sangmin Woo, Haibo Ding, Sungyeon Kim ו-Vinayak Arannil מדגישים גם את חשיבות עיצוב הפרומפט. לדבריהם, בקשה מהשופט להסביר את reasoning לפני הציון שיפרה את ההתאמה לשיפוט אנושי, ודוגמאות כיול מגוונות תרמו אף הן לדיוק. לעומת זאת, פלט של ציון בלבד אמנם עשוי להיות זול ועקבי יותר, אך מספק פחות ערך אבחוני.

למה זה חשוב לשוק ה-AI הארגוני

ההכרזה מגיעה בתקופה שבה תוכנות ארגוניות הופכות יותר ויותר מולטימודליות. גרטנר מעריכה כי עד 2030 כ-80% מהתוכנות הארגוניות יהיו מולטימודליות, לעומת פחות מ-10% בשנת 2024. המשמעות היא שארגונים יצטרכו לא רק מודלים שמבינים תמונות, מסמכים, מסכים ותרשימים, אלא גם מנגנוני הערכה שמסוגלים לבדוק אותם בקנה מידה גדול.

המעריכים החדשים של Strands Evals אינם פותרים את כל בעיות הבדיקה של AI מולטימודלי, אך הם מסמנים מעבר חשוב מבדיקות ידניות יקרות וממדדים טקסטואליים חלקיים אל הערכה אוטומטית שמבוססת על מקור הראייה עצמו. עבור מפתחים, חוקרי ML וצוותי MLOps, זהו צעד נוסף בדרך להפיכת יישומי AI חזותיים לאמינים, מדידים ומתאימים יותר לסביבות ייצור.

שאלות נפוצות