
הזיות במודלים רב-מודאליים: מה באג הווידאו של Inter-1 חושף על עתיד הבינה המלאכותית
מקרה חריג שבו מודל וידאו המציא משפטים מתוך שקט מוחלט חושף בעיה עמוקה בתעשיית ה-AI: מודלים רב-מודאליים עדיין מתקשים להודות שמידע חסר. עבור חברות שמטמיעות AI בווידאו, אודיו ושיחות, זו לא תקלה שולית אלא סיכון מוצרי, מחקרי ועסקי.
כשהמודל שומע דיבור שלא קיים
אחד האתגרים המסוכנים ביותר בבינה מלאכותית אינו טעות חישובית רגילה, אלא ביטחון עצמי במקום שבו אין כלל נתונים. זה בדיוק מה שנחשף סביב Inter-1, מודל רב-מודאלי שמנתח תקשורת אנושית מתוך וידאו, אודיו והקשר מילולי. כאשר הוזנו אליו סרטונים ללא אודיו, הוא לא תמיד החזיר שתיקה. לעיתים הוא המציא ציטוטים, ובמקרה הידוע ביותר דיווח כי הדובר אמר: "Yeah, Friday at five".
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
לכאורה מדובר בבאג משעשע. בפועל, זהו סימפטום של בעיה עמוקה בהרבה: מודלים רב-מודאליים אינם רק משלבים חושים דיגיטליים, אלא גם משלימים חוסרים באמצעות הנחות שלמדו באימון. כאשר ערוץ מידע נעלם, למשל אודיו חסר בסרטון, המודל עלול להתנהג כאילו עליו למלא את החלל במקום להצהיר שהמידע אינו זמין.
מקור ההזיה: לא רק דאטה, גם פרומפט
החקירה סביב Inter-1 מעניינת משום שהיא מפרקת את הכשל לשני רכיבים. בתחילה נבדקה האפשרות שהמשפט הופיע במאגרי האימון או בתמלולים קודמים. סריקות של עשרות אלפי רשומות, אלפי תמלולים ולוגים לא מצאו את הביטוי כמקור אימון ישיר. הרמז המשמעותי הגיע דווקא מהפרומפט המערכתי: דוגמת תשובה שנועדה ללמד את המודל פורמט רצוי כללה את אותו משפט על יום שישי וחמש בערב.
כאשר החוקרים החליפו בפרומפט את המשפט לניסוח אחר, ההזיה התחלפה בהתאם. זה מלמד שהמודל לא "שמע" את המשפט, אלא נשען על טקסט קרוב בחלון ההקשר. אבל זה רק חצי מהסיפור. בניסוי נוסף, אותו פרומפט הופעל מול מודלים שונים, ורק הגרסה שעברה פוסט-אימון מסוים נטתה באופן משמעותי להמציא תמלול גם כאשר נאמר לה במפורש להחזיר תמלול ריק בהיעדר דיבור.
הבעיה העסקית: AI שלא יודע לומר "אין מידע"
עבור ארגונים, המשמעות רחבה בהרבה ממודל יחיד. מערכות AI שמנתחות ראיונות עבודה, שיחות מכירה, הדרכות, ישיבות דירקטוריון או ניטור בטיחות אינן יכולות להרשות לעצמן להמציא אותות חברתיים, משפטים או כוונות. אם המודל מסיק הסכמה, היסוס או אמון על בסיס אודיו שלא קיים, התוצאה עלולה להשפיע על החלטות עסקיות, משפטיות ואנושיות.
זה גם מסביר מדוע שכבת Guardrails אינה פתרון מלא. אפשר לזהות בקשות ללא אודיו ולחסום תמלול מומצא, אך חסימה כזו מטפלת בסימפטום בלבד. השאלה המרכזית היא כיצד מאמנים מודל להבין שמודאליות חסרה היא נתון בפני עצמו, לא הזמנה לניחוש.
Clever Hans של עידן המודלים הרב-חושיים
הספרות המחקרית מכנה תופעות כאלה אפקט Clever Hans: מערכת שנראית כאילו היא מבינה ערוץ מידע מסוים, אך בפועל מנחשת אותו מתוך הקשרים עקיפים. בעבר הדגש היה בעיקר על וידאו שמוביל להמצאת קול, למשל התרסקות בסקייטבורד שגורמת למודל לתאר רעש חבטה גם בסרטון שקט. במקרה של Inter-1 התמונה מורכבת יותר: לא רק הווידאו משפיע, אלא גם הפרומפט והציפיות שנצרבו בתהליך האימון.
הלקח לתעשייה ברור. הדור הבא של מודלים רב-מודאליים יימדד לא רק ביכולתו לחבר וידאו, קול וטקסט, אלא ביכולתו להפריד ביניהם, לזהות היעדר מידע ולסרב להשלים אותו בביטחון כוזב. זהו תנאי בסיסי לאמינות AI בסביבות מקצועיות. ככל שהמערכות האלה נכנסות למוצרים קריטיים יותר, היכולת לומר "אני לא יודע כי הערוץ חסר" תהפוך מתכונה מחקרית לדרישת מוצר.
