חזרה לחדשות
אתה בטוח? מדד חדש מזהה מתי מודלי שפה גדולים בטוחים בעצמם אבל טועים

אתה בטוח? מדד חדש מזהה מתי מודלי שפה גדולים בטוחים בעצמם אבל טועים

19 במרץ 2026
מערכת זירת AI

לפי MIT News, חוקרי MIT פיתחו מדד אי ודאות שמזהה טוב יותר מצבים שבהם מודלי שפה “מזייפים” תשובות בביטחון. השיטה משלבת עקביות פנימית עם אי הסכמה בין מודלים שונים כדי לסמן תגובות לא אמינות.

According to an MIT News report, חוקרים מ־MIT מציעים דרך מדויקת יותר לזהות מתי מודלי שפה גדולים (LLMs) מפיקים תשובה שנשמעת משכנעת אך בפועל שגויה, ובעיקר מתי הם עושים זאת בביטחון גבוה. בעולם שבו מודלים כאלה משתלבים בתהליכי קבלת החלטות ברפואה, פיננסים, שירות לקוחות ופיתוח תוכנה, הבעיה אינה רק “הזיות” (hallucinations) אלא האופן שבו הן מוצגות: תשובה בטוחה מדי יכולה להטעות משתמשים וליצור תחושת אמינות כוזבת.

למה “להריץ את אותו פרומפט כמה פעמים” לא מספיק

אחת השיטות הנפוצות להערכת אמינות של מודל היא לבחון עקביות עצמית: שולחים את אותה שאלה מספר פעמים ובודקים אם מתקבלת אותה תשובה. הבעיה, כפי שמדגישה קימיה חמידייה (Kimia Hamidieh), דוקטורנטית ב־EECS ומחברת ראשית של המחקר, היא שמדד כזה מודד בעיקר סוג אחד של אי ודאות: עד כמה המודל “משוכנע בעצמו” על סמך הדפוסים הפנימיים שלו. אלא שמודלים יכולים להיות עקביים גם כשהם טועים, ולכן עקביות אינה ערובה לנכונות.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

כאן נכנסת הבחנה מרכזית בין שני סוגי אי ודאות: אי ודאות אליאטורית (aleatoric), שמתארת את חוסר הוודאות של המודל ביחס לקלט עצמו, לעומת אי ודאות אפיסטמית (epistemic), שמתארת ספק עמוק יותר: האם בכלל המודל הנכון “נבחר” למשימה, או שהמודל רחוק מהמודל האידיאלי שיכול לפתור אותה.

המדד החדש: אי הסכמה בין מודלים כ״מד חום״ לאמינות

במקום להסתמך רק על מודל אחד, החוקרים מציעים למדוד אי ודאות אפיסטמית באמצעות אי הסכמה בין מודלים דומים. הרעיון אינטואיטיבי: אם אותו פרומפט מקבל תשובות שונות ממודלים מובילים שונים, עצם הפער מסמן שהמשימה או התשובה אינן יציבות, גם אם מודל מסוים נשמע בטוח.

הצוות, הכולל גם את ורוניקה תוסט (Veronika Thost), וולטר גריך (Walter Gerych), מיכאיל יורוצ’קין (Mikhail Yurochkin) והחוקרת הבכירה מרזיה גסמי (Marzyeh Ghassemi), מדד את מידת הסטייה בין תשובת “מודל היעד” לבין אנסמבל קטן של מודלים דומים בגודל ובארכיטקטורה. במקום להשוות מחרוזות מילים בלבד, הם בחנו דמיון סמנטי, כלומר עד כמה משמעות התשובות מתכנסת או מתפזרת.

ממצא פרקטי מעניין: כדי לקבל מגוון תגובות לא “צמוד” מדי למודל היעד, אחת הדרכים הפשוטות והיעילות הייתה לבחור מודלים שאומנו על ידי חברות שונות. הפתרון הפשוט, לפי חמידייה, עבד טוב יותר גם ביחס לגישות מורכבות שנבדקו.

“אי ודאות כוללת”: חיבור בין שני העולמות

החוקרים שילבו את אי הוודאות האפיסטמית (אי ההסכמה בין מודלים) עם מדד אליאטורי סטנדרטי (כמו עקביות עצמית) לכדי מדד חדש שנקרא Total Uncertainty (TU). המדד נבדק על פני 10 משימות ריאליסטיות, כולל שאלות ותשובות, סיכום, תרגום והסקה מתמטית, והראה ביצועים טובים יותר בזיהוי תחזיות לא אמינות לעומת כל מדד בנפרד.

מעבר לאיכות, יש כאן גם היבט תפעולי: בחלק מהמצבים TU דרש פחות שאילתות מאשר חישובי אי ודאות אליאטורית בלבד, מה שעשוי להפחית עלויות חישוב ואנרגיה, סוגיה בוערת בעידן שבו מודלים גדולים צורכים משאבים משמעותיים.

מה זה אומר לתעשייה, ולמה זה חשוב עכשיו

השלכה מרכזית היא יכולת טובה יותר לסמן מראש תשובות “בטוחות אך שגויות”, ובעיקר במשימות עם תשובה נכונה יחידה כמו עובדות, חישוב, או כלי תמיכה בהחלטה קלינית. מנגד, החוקרים מציינים שאי ודאות אפיסטמית עשויה להיות פחות חדה במשימות פתוחות, שבהן קיימות הרבה תשובות סבירות, ולכן יידרשו התאמות כדי להתמודד עם יצירתיות וסגנון.

אם הטכניקה הזו תוטמע בכלי AI מסחריים, היא יכולה לשנות את האינטראקציה עם מערכות גנרטיביות: פחות “סמוך עליי”, ויותר סימון שקוף של מתי כדאי לאמת מידע, לבקש מקור, או להעביר את ההחלטה לאדם. המחקר נתמך, בין השאר, על ידי MIT-IBM Watson AI Lab.

שאלות נפוצות