חזרה למחקרים
בינה מלאכותית בת־הסבר זקוקה לפורמליזציה
npj Artificial Intelligence
בינה מלאכותית מסבירה

בינה מלאכותית בת־הסבר זקוקה לפורמליזציה

מחברים:Stefan Haufe
תאריך פרסום:7 באפריל 2026
סוג המחקר:מחקר תאורטי/פילוסופי
מקור:npj Artificial Intelligence

יישומי המאמר

המחקר הזה חשוב מאוד למנהלים, רגולטורים, צוותי דאטה ומקבלי החלטות משום שהוא מזהיר מפני שימוש נאיבי בכלי הסבר של מודלי AI. בפועל, ארגונים רבים משתמשים ב-SHAP, LIME או מפות חשיבות כדי להצדיק החלטות, לבדוק הוגנות, לזהות הטיות או להסביר ללקוחות למה המודל קיבל החלטה מסוימת. המאמר מראה שהכלים הללו עלולים להציג “הסבר” שנראה משכנע, אך בפועל להבליט משתנים שלא באמת קשורים לתוצאה בעולם האמיתי. המשמעות העסקית היא סיכון להחלטות שגויות: תיקון מודל על בסיס הסבר מטעה, זיהוי שווא של אפליה, או המלצות פעולה לא רלוונטיות ללקוח. התרומה המעשית של המאמר היא מסגרת עבודה בוגרת יותר: לפני שבוחרים כלי הסבר, צריך להגדיר בדיוק איזה מידע רוצים לקבל, עבור מי, ולאיזו מטרה. זה קריטי במיוחד בתחומים רגישים כמו בריאות, אשראי, גיוס עובדים ורגולציה.

TL;DR

המאמר טוען כי תחום ה-XAI (בינה מלאכותית מסבירה) סובל מבעיה יסודית: רוב השיטות הפופולריות אינן פותרות בעיית הסבר מוגדרת פורמלית, ולכן גם אינן נבדקות מול קריטריון ברור של “נכונות ההסבר”. המחברים מראים, בהסתמך על ניתוחים תיאורטיים ועבודות קודמות, ששיטות ייחוס חשיבות נפוצות כמו Gradients, LIME, SHAP, Integrated Gradients ושיטות נגד-עובדתיות עלולות לייחס חשיבות גבוהה למשתני suppressor — תכונות שאינן קשורות סטטיסטית למשתנה המטרה אך מסייעות למודל לנטרל רעש או תלות בין משתנים. כתוצאה מכך, אי אפשר להסתמך עליהן לצורכי בקרת איכות מודלים, גילוי מדעי, זיהוי הטיות או המלצה על התערבויות בעולם האמיתי. המאמר מציע מעבר מגישת “algorithm-first” לגישת “requirement-driven”: להתחיל מהצורך של בעלי העניין, לנסח בעיית XAI פורמלית, לפתח שיטה מתאימה, ולבצע ולידציה תיאורטית ואמפירית מול אמת-מידה ידועה. זהו מאמר קריאה להסדרת התחום והפיכתו למדע מדויק יותר.

פירוט המאמר

מבוא

המאמר עוסק במשבר מושגי ומתודולוגי בתחום הבינה המלאכותית המסבירה (XAI). על רקע חדירה גוברת של למידת מכונה לתחומים עתירי סיכון, ובהם רפואה, והתגבשות רגולציה דוגמת ה-European AI Act, עולה הדרישה לכך שפלטי מערכות AI יהיו ניתנים להבנה אנושית. לטענת המחברים, תחום XAI מציג עצמו כמענה לדרישה זו, אך בפועל שיטות רבות מספקות תוצרים שקל לפרש באופן שגוי. הסיבה המרכזית היא שהתחום מתמקד בפיתוח אלגוריתמים לפני הגדרת הבעיה עצמה, ולכן חסרים בו קריטריונים פורמליים לנכונות ההסבר ולהתאמתו למטרה.

למידה מונחית ו-XAI

המחברים מציגים את מסגרת הלמידה המונחית הקלאסית: מודל לומד פונקציה fθ שממפה וקטור תכונות x למשתנה מטרה y על בסיס n דוגמאות אימון. בהמשך הם מגדירים XAI כמונח-על לשיטות שמטרתן להסביר את המודל, נתוני האימון, דוגמת קלט מסוימת, או האינטראקציה ביניהם. הפרדיגמה הדומיננטית היא ייחוס חשיבות לתכונות (feature attribution), ברמה גלובלית או לוקלית. אלא שהמחברים מדגישים כי עצם הפקת ציון חשיבות לכל תכונה אינה מספיקה כדי לדעת מה בדיוק המספרים הללו אומרים, ולשם מה ניתן להשתמש בהם באופן תקף.

המטרות המקובלות של XAI

המאמר מזהה שלוש מטרות מרכזיות שלשמן משתמשים ב-XAI: אבחון ותיקון מודלים ונתונים, גילוי מדעי, וזיהוי מטרות להתערבות. באבחון מודלים, משתמשים מבקשים לדעת על אילו תכונות המודל “מבסס” החלטה, כדי לבדוק אם הוא נשען על סיגנלים רצויים, על מאפיינים מוגנים כמו מין או גזע, או על מערפלים (confounders). בגילוי מדעי, מצפים מההסבר לחשוף קשרים חדשים בין משתנים. בזיהוי מטרות להתערבות, משתמשים בכלי XAI כדי להציע אילו שינויים בקלט יובילו לתוצאה רצויה, למשל שינוי במאפייני לווה או טיפול רפואי. לטענת המחברים, כל השימושים הללו מניחים שהשיטה מזהה תכונות שבאמת קשורות למטרה, אך זו הנחה שלרוב אינה מתקיימת.

תכונת SAP והבעיה של משתני suppressor

הלב התיאורטי של המאמר הוא תכונת Statistical Association Property (SAP). לפי הגדרה זו, אם שיטת XAI מקצה חשיבות מובהקת ולא-אפסית לתכונה חד-ממדית xj, אז תכונה זו צריכה להיות קשורה סטטיסטית ליעד y. כלומר, חשיבות אמורה להעיד לפחות על אסוציאציה ליעד. המחברים מסתמכים על עבודות קודמות המראות ששיטות פופולריות רבות אינן מקיימות את SAP.

לשם כך מוצגים שני מקרים מינימליים של בעיות סיווג דו-ממדיות. בדוגמה A, רק X1 קשור ליעד Y, בעוד X2 בלתי תלוי ב-Y, אך X1 ו-X2 קורלטיביים דרך רעש משותף H. כאשר c ≠ 0, המודל הליניארי האופטימלי מבחינת Bayes משתמש במשקל לא-אפסי על X2, ספציפית w2 = −αcs1/s2, כדי לנטרל רעש מתוך X1. בדוגמה B, הנתונים נוצרים לפי X1 = Y − X2, כאשר X2 ו-Y בלתי תלויים, והמודל האופטימלי משתמש ב-w1 = w2 = 1 כדי לשחזר את Y. בשני המקרים, X2 מסייע לחיזוי אך אינו נושא מידע על היעד עצמו. משתנים כאלה מכונים suppressor variables.

מדוע שיטות ייחוס פופולריות מטעות

המאמר מסכם ממצאים תיאורטיים ואמפיריים שלפיהם שיטות attribution מרכזיות — gradient-based methods, LRP, DTD, Shapley values ו-SHAP, LIME, Integrated Gradients, והסברים נגד-עובדתיים — מייחסות חשיבות גם למשתני suppressor. במודלים ליניאריים, חלק מהשיטות אף מתכנסות ישירות לווקטור המשקלים w, ולכן בהכרח יסמנו משתנים כאלה כחשובים. המשמעות היא שהשיטות אינן מבדילות בין תכונה שנושאת קשר אמיתי ליעד לבין תכונה שמסייעת רק להפחתת רעש או נטרול תלות.

השלכות על יישומים נפוצים

מכאן נובעת הביקורת המרכזית: אם שיטת XAI לא מקיימת SAP, אי אפשר להסיק ממנה מסקנות מהימנות על תקינות המודל, על הוגנותו, על גילוי מנגנונים חדשים, או על התערבויות סיבתיות. למשל, אם תכונה מוגנת קיבלה חשיבות גבוהה, אין פירוש הדבר בהכרח שהמודל מפלה באמצעותה; ייתכן שהיא משמשת רק כדי לנטרל שונות לא רלוונטית מתכונה אחרת. באותו אופן, הסבר נגד-עובדתי שממליץ לשנות מאפיין מסוים עשוי לשנות את פלט המודל, אך לא להשפיע כלל על התוצאה בעולם האמיתי. המחברים מדגישים שזה חשוב במיוחד ברפואה ובמימון, שם המלצות שגויות עלולות להיות בלתי אחראיות.

מגבלות מבניות של תחום XAI

המאמר מצביע על כמה כשלים מבניים. ראשית, חסרות הגדרות פורמליות ברורות לבעיות ש-XAI אמור לפתור; לעיתים האלגוריתם עצמו מגדיר בדיעבד מהו “הסבר”. שנית, אקסיומות מקובלות כמו sensitivity הן בדיקות סבירות אך אינן מדד לנכונות. שלישית, שיטות רבות מתעלמות מהתפלגות הנתונים ומהמבנה הסיבתי שלהם, ולעיתים מניחות עצמאות בין תכונות באופן מפורש או מובלע. רביעית, גם מודלים “פרשניים” מטבעם, כגון מודלים ליניאריים, GAMs או עצי החלטה, סובלים מאותה בעיה: ללא ידע על תהליך יצירת הנתונים, אי אפשר לפרש חד-משמעית משקל או מקדם כראיה לקשר אמיתי.

למה הערכות אמפיריות נפוצות אינן מספיקות

המחברים מבקרים גם את מסגרות ההערכה. מדדי faithfulness, שבהם מוחקים או מטשטשים תכונה “חשובה” ובודקים ירידה בביצועי המודל, נראים אינטואיטיביים אך עלולים לאשר שיטות שגויות. בדוגמאות A ו-B, הסרת X2 אכן פוגעת בביצועים, ולכן שיטה שמסמנת את X2 כחשוב תיראה faithful — למרות ש-X2 אינו קשור ליעד. גם שימוש בנתונים אמיתיים בעייתי, משום שאין בהם ground truth להסבר. בנוסף, שיפוט אנושי אינו מספיק, שכן בני אדם עלולים גם לדחות הסבר נכון וגם לאמץ הסבר שגוי מתוך ביטחון יתר. המחברים מצטטים מחקרים שמצאו היעדר מתאם בין קיומם של הסברים לבין שיפור בביצוע צוות אדם-AI, וכן נטייה של משתמשים לקבל המלצות AI ללא קשר לנכונותן.

כיוון מוצע: פורמליזציה ופיתוח מונחה-דרישות

במקום גישת algorithm-first, המחברים מציעים תהליך בן שישה שלבים: זיהוי צרכי המידע של בעלי העניין; הגדרה פורמלית של הדרישות ובעיות ה-XAI; פיתוח שיטות מתאימות; ניתוח תיאורטי; ולידציה אמפירית מול benchmark עם ground truth; ורק לאחר מכן שיפור תכונות משניות כמו robustness ו-fairness. הם מדגישים את הצורך בעבודה בין-תחומית עם משתמשים, רגולטורים ומומחי תחום.

המאמר מביא גם דוגמאות חיוביות חלקיות: formalization של algorithmic recourse באמצעות Structural Causal Models; שימוש ב-SAP כדרישת סף; ושיטות כמו Pattern, PatternGAM ו-PatternLocal, שנועדו להפחית ייחוסי שווא למשתני suppressor ולקיים SAP בתנאים מוגדרים. בנוסף, מודגשת חשיבותם של מאגרי benchmark סינתטיים עם “הסבר אמת” ידוע, כגון מערכי תמונה, טקסט ו-MRI שפותחו בעבודות קודמות.

דיון ומסקנות

המחברים מסכמים כי XAI זקוק להסדרה מדעית עמוקה: הגדרת בעיות מפורשת, קריטריונים פורמליים לנכונות, וולידציה מול אמת מידה ידועה. הביקורת אינה מכוונת רק ל-feature attribution אלא גם לפרדיגמות הסבר אחרות. לטענתם, רק אם התחום יעבור מפיתוח אלגוריתמים מונחה-אינטואיציה לפיתוח מונחה-דרישות וקריטריונים, ניתן יהיה להשתמש ב-XAI באופן אמין לבקרת איכות, לשימושים תעשייתיים ולסטנדרטים רגולטוריים. זהו מאמר פרספקטיבה, ללא יצירת דאטה חדשה, אך עם טענה חזקה: בלי פורמליזציה, XAI ממשיך לייצר תחושת הבנה במקום הבנה אמיתית.

✨ היילייטס

  • הטענה המרכזית של המאמר היא שרבות משיטות ה-XAI הפופולריות אינן מספקות הסברים נכונים פורמלית, משום שהן מייחסות חשיבות גם לתכונות שאינן קשורות סטטיסטית למשתנה המטרה.
  • המחברים מציגים את SAP (Statistical Association Property) כתנאי הכרחי מרכזי, שלפיו חשיבות שניתנת לתכונה חייבת להעיד לפחות על קשר סטטיסטי ליעד; שיטות נפוצות רבות אינן עומדות בתנאי זה.
  • משתני suppressor הם מקור מרכזי להטעיה פרשנית: הם יכולים לשפר חיזוי על ידי נטרול רעש או תלות בין משתנים, למרות שאין להם שום קשר אמיתי ליעד עצמו.
  • שיטות כמו LIME, SHAP, Integrated Gradients, Gradient-based methods והסברים נגד-עובדתיים עלולות לכן להטעות בשימושים כמו בקרת איכות מודלים, בדיקת הוגנות, גילוי מדעי והמלצות להתערבות.
  • המאמר מציע מעבר לתהליך פיתוח מונחה-דרישות בן שישה שלבים, הכולל הגדרת צרכי בעלי עניין, פורמליזציה של בעיית ההסבר, פיתוח שיטה ייעודית, וולידציה תיאורטית ואמפירית על נתוני benchmark עם ground truth.

חוקרים

Stefan Haufe

מילות מפתח

בינה מלאכותית מסבירהקבלת החלטות עם AIאינטראקציית אדם-AIאתיקה והוגנות בבינה מלאכותיתאחר

שאלות נפוצות