קרדיט תמונה: Zirat AI / AI
מחקר MIT: ממוצעים מטעים מסתירים כשלי בינה מלאכותית בעולם האמיתי
לפי אתר החדשות של אוניברסיטת MIT, מחקר חדש מגלה שמודלים של למידת מכונה שנראים מדויקים מאוד בממוצע יכולים להפוך למודלים הגרועים ביותר עבור 6% עד 75% מהמשתמשים או המטופלים בסביבה חדשה. החוקרים מציעים שיטה לאיתור תתי‑אוכלוסיות שבהן המודלים נכשלים, ומזהירים מפני הסתמכות עיוורת על מדדי ביצוע מאוחדים כמו דיוק ממוצע.
לפי דיווח ב‑MIT News, מחקר חדש של חוקרי MIT מדגים עד כמה מסוכן להסתמך על מדד ביצוע ממוצע אחד כשמעריכים מודלי בינה מלאכותית, במיוחד כאשר מעבירים אותם מסביבה אחת לאחרת.
המחקר, בהובלת ד"ר מרזייה אלע'סמי (Marzyeh Ghassemi) והפוסטדוקטור אולאוולה סלאודין (Olawale Salaudeen), הראה שמודל שנבחר כ"המודל הטוב ביותר" בבית חולים אחד על סמך ביצועיו על כמויות נתונים גדולות, יכול להתגלות דווקא כמודל הגרוע ביותר עבור בין 6% ל‑75% מהמטופלים בבית חולים אחר. בממוצע הכללי המודל עדיין נראה מוצלח, אבל הביצועים הירודים בתתי‑אוכלוסיות ספציפיות נעלמים בתוך המספר האחד של "דיוק כולל".
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
החוקרים מתמקדים בתופעת המתאמים השגויים, שבה מודל לומד לקשר בין מאפיין לא רלוונטי לבין אבחנה או החלטה. דוגמה פשוטה היא מודל ראייה ממוחשבת שלומד לקשר רקע של ים עם אורקות, וכך מסווג בטעות פרה על החוף כלווייתן קטלני. ברפואה זה עלול להיות הרבה יותר עדין ומסוכן: למשל, מודל אבחון מצילומי רנטגן של בית חולים אחד עלול ללמוד לקשר סימן טכני מקומי על התמונה עם מחלה מסוימת. כשהמודל מועבר לבית חולים אחר שבו הסימן אינו קיים, הוא עלול לפספס את האבחנה.
במאמרם, שהוצג בכנס NeurIPS 2025 תחת הכותרת "Aggregation Hides Out-of-Distribution Generalization Failures from Spurious Correlations", החוקרים מראים שמודלים לשחזור מחלות בצילומי חזה, מודלים לניתוח שקופיות פתולוגיה של סרטן, ואפילו מודלים לזיהוי שיח שנאה ברשת – כולם יכולים להיראות טוב סטטיסטית אבל להיכשל באופן עקבי על קבוצות ספציפיות.
חלק מהעבודות הקודמות בתחום הניחו עקרון הקרוי "accuracy-on-the-line": אם מדורגים מודלים לפי ביצועיהם על מערך נתונים אחד, הסדר הזה פחות או יותר נשמר גם על מערך נתונים אחר. הצוות של MIT מפריך הנחה זו בפועל: הם מציגים מצבים שבהם המודל המצטיין בסביבה אחת הופך לגרוע ביותר בסביבה אחרת, בעוד שמודלים "בינוניים" דווקא מראים יציבות טובה יותר.
כדי לחשוף את הכשלים האלה, סלאודין פיתח אלגוריתם בשם OODSelect. הוא אימן אלפי מודלים על נתוני מקור (in-distribution), דירג אותם לפי דיוק, ואז בחן את ביצועיהם על נתוני יעד מסביבה חדשה (out-of-distribution). כאשר המודלים בעלי הדיוק הגבוה בסביבת המקור טעו באופן עקבי על אחוז גדול מהדוגמאות בסביבת היעד, האלגוריתם סימן את אותן דוגמאות כתתי‑אוכלוסיות בעייתיות. החוקרים גם סיננו מראש דוגמאות שקשות לסיווג באופן כללי, כדי לבדל במיוחד את המקרים שנובעים ממתאמים שגויים.
ממצאי המחקר מסקרנים ומרחיבים את מה שידענו עד כה על כשלים חבויים בבינה מלאכותית. הם משתלבים במגמה רחבה יותר במחקר העולמי, המזהה כיצד מודלי AI גדולים עלולים ללמוד לקצרי‑דרך סטטיסטיים במקום להבין תבניות מהותיות. עבודות אחרות כבר הראו שמודלי שפה גדולים עשויים להעדיף פרטים לא רלוונטיים בהחלטות קליניות, או להיכשל בהבנת שלילה בשאלות רפואיות. מחקר זה מוסיף נדבך חשוב: גם כאשר מודל נראה "מצוין" במספר אחד, הוא עלול להיות מסוכן לחלק גדול מהאנשים עבורם הוא מיועד לעבוד.
החוקרים מאיצים במוסדות בריאות, חברות טכנולוגיה וגופים ציבוריים להפסיק להסתפק בדוחות ביצוע מאוחדים, ולעבור למדידה שיטתית לפי תתי‑אוכלוסייה, סוגי מחלות, מכשירים, או מאפייני הקלט. קוד OODSelect ותתי‑הקבוצות שזוהו זמינים לקהילה החוקרת, והצוות – הכולל גם את הדוקטורנטים האוראן ג'אנג (Haoran Zhang) וקמאיל אלחאמוד (Kumail Alhamoud) ואת פרופ' שרה בירי (Sara Beery) – מקווה שיאומצו כבסיס לסטנדרטים חדשים להערכה בטוחה והוגנת של מודלי למידת מכונה.
