
EMaP: בינה מלאכותית ניתנת להסבר באמצעות שיבושים מבוססי יריעה (Manifold)
יישומי המאמר
המחקר מציע דרך לשפר את השיטות המבוססות-פריטובציה (כמו LIME/SHAP) על ידי יצירת דגימות שתואמות טוב יותר למבנה הפנימי של הנתונים. משמעות הדבר בעולם המעשי: כאשר רוצים להסביר החלטות של מודל שחור (למשל סיווגים רפואיים, החלטות פיננסיות או המלצות), ניתן להפיק תוצאות אמינות יותר ע"י שימוש ב־EMaP — ההסברים יהיו פחות רעשיים, בעלי מדדי נאמנות טובים יותר ועמידים יותר לניסיונות הטעיה שבו תוקף מעוניין להסתיר החלטות מוטות. השיטה שימושית למיישמי מערכות החלטה אשר רוצים הסברים מקומיים מדויקים ובטוחים מבלי להאמין לתבניות שאינן טבעיות מבחינת נתוני האימון.
TL;DR
המאמר מציג שיטה חדשה בשם EMaP לייצור הפרעות (perturbations) שמשתמשת במבנה המנוף (manifold) של הנתונים כדי לייצר הסברים מקומיים אמינים ועמידים יותר עבור מודלים שחורים. המחקר מציג ניתוח תיאורטי (בעזרת מרחקים כמו Gromov–Hausdorff בדגימתי ורצף הומולוגי מתמשך) שמראה כי הפרעות בכיוונים שניצבים לתת-המרחב האפיני של הנתונים שומרות טוב יותר על הטופולוגיה מאשר הפרעות המוקרנות על פני המנוף. על בסיס התובנה הוא מוציא אל הפועל את האלגוריתם EMaP: לומד מיפוי לממד נמוך (UMAP), בונה קירוב תת-מרחב מקומי סביב "pivots" ומייצר רעש שמוסר את הרכיבים המקבילים לתת-המרחב. ניסויים על נתונים סינתטיים, טאבולריים ותמונתיים מראים ש־EMaP משפר את איכות ההסברים (מדדי faithfulnes) ומקטין את יכולת המבדיל לזהות הפרעות (שיפור בעמידות נגד התקפות).
פירוט המאמר
תקציר כללי
המאמר בוחן כיצד בחירת כיווני הפרעה (perturbation directions) משפיעה על איכות ועקביות ההסברים שניתנים על ידי שיטות מבוססות-פריטובציה (כמו LIME/SHAP). המחברים מציעים שנכון יותר לייצר רעש בכיוונים שניצבים לתת-המנוף המאפיין את הנתונים (orthogonal directions) במקום "להפחית" או להזיז נקודות לאורך המנוף (projection). הם מפתחים בסיס תיאורטי להשוואת כיווני הפרעה באמצעות מרחקים טופולוגיים (discrete Gromov–Hausdorff) וסביר-ות ממדית (persistent homology / Bottleneck distance), ומבצעים סדרת ניסויים על נתונים סינתטיים וריאליים כדי להראות שיפור במדדים של faithfulness ועמידות להסתה.
תרומת המחקר
העבודות העיקריות הן:
- ניתוח תיאורטי: הוכחה (Theorem 3) שממיסת worst-case של המרחק הדיסקרטי Gromov–Hausdorff בין נקודות מקור לנקודות מופרעות קטנה יותר כאשר ההפרעה היא בכיוונים ניצבים לתת־המנוף לעומת הפרעה על המנוף.
- ניתוח ממוצע־מקרה: שימוש ב־persistent homology ובמרחק Bottleneck (W_∞) יחד עם ניסויים מונטה־קרלו שמראים כי הפרעות אנכיות שומרות טוב יותר על תכונות טופולוגיות (H0, H1).
- אלגוריתם מעשי (EMaP) שמממש את העיקרון: חישוב מיפוי לממד נמוך (UMAP), בניית קירובים מקומיים של תת־מרחב (local subspaces) סביב "pivots", וייצור הפרעות שמסירות את רכיבי הרעש המקבילים לתת־המרחב.
- ניסויים מקיפים על טבלאות, תמונות וטקסט, כולל הערכות של faithfulnes (precision/recall על משימות טקסט), RDT-fidelity, infidelity ו–log-odds, וכן מדדי עמידות נגד אנשי התקפה שבונים מגלה הפרעות (discriminator).
רקע ומתודולוגיה
העבודה מתבססת על כלים מתמטיים: Hausdorff ו־Gromov–Hausdorff למרחק בין מרחבים מטריים, הגדרה דיסקרטית של d_J להתאמה בין ענני נקודות, וכן persistent homology והמרחק Bottleneck W_∞ בין דיאגרמות יציבות לטופולוגיה. המחבר מציג למה ה־Bottleneck distance מקושר ל־Gromov–Hausdorff (גבול עליון).
ניתוח תיאורטי
הוכחת הממצאים כוללת Lemma (4) שקובע כי עבור r קטן מספיק, הפירוק בדיסקרט Gromov–Hausdorff מיוצג על ידי השינוי הגדול ביותר בזוג מרחקים בין נקודות (והפירמה האופטימלית היא זהות). על בסיס זה הושגה Theorem 3: קיימת רדיוס r0 כך שעבור כל r<r0 בהתקנים generic, d_J(X, X_r^∂) ≤ d_J(X, X_r^{Proj}) — כלומר הפרעה אורטוגונלית מובילה למרחק דיסקרטי לא גדול יותר מאשר הפרעה שמוקרנת על המנוף.
persistent homology וניסויי Bottleneck
מכיוון שחישוב Gromov–Hausdorff מלא אינו ישים לניסויים גדולים, המחקר מחשב Bottleneck distances בין דיאגרמות ה־persistence (H0, H1) שמתקבלות מענני נקודות מקור והפרעות שונות. הניסויים כללו נתונים סינתטיים (קו, מעגל, סליל וכו') וממשיים (COMPAS: 7214 דגימות; German Credit: 1000; Communities & Crime: 2215; MNIST ו־Fashion‑MNIST: 60000). התוצאות מראות בעקביות כי ההפרעות האורתוגונליות מפיקות Bottleneck קטן יותר (H0/H1) בהשוואה להפרעות מקריות או הפרעות פרוייקשן.
האלגוריתם EMaP
EMaP פועל בשלבים: (1) למידת מיפוי לממד נמוך בעזרת UMAP; (2) בחירת "pivots": נקודת ההסבר ושכבות של דגימות מכל תווית; (3) לכל pivot: למידת תת‑המרחב המקומי G_x על ידי בניית סט דגימות סביב x והתקזזות דרך least-squares על המיפוי הנמוך; (4) ייצור k הפרעות לפי x̃ = x + noise - Proj_{G_x}(noise); (5) חישוב מרחקים נמוכים בין ההפרעות ל‑x כך שניתן להשתמש בהם כמשקל (kernel) כשמדריכים את המודל השוקל (surrogate) כמו LIME. ההפרעה מוגדרת עם רדיוסי רעש: לטקסט r=1e-3, לתמונות r=1e-4; מספר הפרעות ליצירת ההסבר = 1000.
הערכה וניסויים
- טקסט: על Multi‑Domain Sentiment (books,dvd,kitchen,electronics) נעשתה הערכה לפי precision/recall בהשוואה לקואפים האמיתיים של מודל לוגיסטי; EMaP שיפרה באופן עקבי את ה‑precision/recall לעומת LIME ו‑Parzen/Greedy.
- תמונה: מדדי RDT‑fidelity (K=40,80), infidelity ו‑log‑odds הראו ש‑EMaP מפיק הסברים בעלי נאמנות גבוהה יותר ופחות infidelity; EMaP התנהג טוב יותר או זהה לשיטות אחרות כולל KernelSHAP ו‑DeepLIFT במקרים רבים.
- עמידות: בהתקפת "דיסקרימינייטור" (Slack et al. framework) שבה תוקף מאמן מנגנון שמזהה שאילתות של המפרט, EMaP הוריד משמעותית את היכולת של המבדיל להבחין בין הפרעות לאמיתיות (TP/TN ירדו לעומת LIME/SHAP), כלומר EMaP מקשה על הטעייה שבו מודל מוטה מסתיר את התנהגותו.
- משאבי חישוב: לימוד המנוף עבור MNIST/Fashion על 60000 דוגמאות לוקח כ־240–260 שניות; זמן להפיק הסבר יחיד: LIME ~0.76s, EMaP ~1.31s (d=2) /1.49s (d=3) — ערכים מתוך טבלה 4.
מסקנות ומגבלות
EMaP מראה שיפור ברור במטריקות של faithfulness ובעמידות מול מבחני מתקפה מבוססי מגלה הפרעות. המחקר מדגיש כי שמירה על הטופולוגיה המקומית של הנתונים תרמה לאמינות התחזיות על ההפרעות ולשיפור ההסברים. המגבלות העיקריות: תלות באיכות המיפוי לממד נמוך (UMAP) ובהנחה שהמנוף מקומי אפיני; עבור נתונים מאוד מורכבים מציאת המנוף והתת־מרחבים המקומיים עשויה להיות מאתגרת ולהשפיע על תוצאות.
כיווני עתיד
העבודה מציעה חקירה מעמיקה של השפעת שיטות מיפוי שונות (UMAP מול t‑SNE/autoencoders), הרחבה לסוגי מסבירים נוספים ולבחינה של התנהגות על נתונים בעלי מבנה מאד לא‑אפיני וכן שיפור יעילות חישובית של שלב הקימוט המקומי.
✨ היילייטס
-
הוכחה תיאורטית (discrete Gromov–Hausdorff) שמראה שבמקרה הגרוע הפרעות בכיוונים ניצבים לתת‑המנוף שומרות טוב יותר על הטופולוגיה בהשוואה להפרעות פרוייקשן.
-
כלי מעשי (EMaP): לומד מיפוי לממד נמוך (UMAP), בונה תת‑מרחבים מקומיים סביב "pivots" ומייצר הפרעות אורטוגונליות שמקטינות סטיות טופולוגיות ונותנות הסברים אמינים יותר.
-
ניתוח באמצעות persistent homology (Bottleneck distance) וניסויים מונטה‑קרלו מראים כי ההפרעות האורתוגונליות מפיקות Bottleneck קטן יותר (H0, H1) ברוב המקרים על נתונים סינתטיים וריאליים.
-
ניסויים על טקסט, טבלאות ותמונות: EMaP משפר את מדדי precision/recall של הסברים, מעלה RDT‑fidelity ומוריד infidelity; כמו כן מפחית את יכולת המבדיל לזהות הפרעות (שיפור בעמידות נגד התקפות).
-
מגבלות: תלות באיכות השיטה למיפוי המנוף (UMAP) ובקירוב אפיני מקומי; עלות חישובית נוספת שניתנת להקטנה על ידי חישוב מקדים של המנוף ותת‑המרחבים.
