
קרדיט תמונה: Image: MIT News; iStock
המשקפיים של סבא מעלים הילוך- מחקר MIT חדש על מודלי ראייה ממוחשבת
לפי דיווח ב-MIT News, חוקרים פיתחו שיטה שממירה כמעט כל מודל ראייה ממוחשבת למודל שמסביר את החלטותיו באמצעות “מושגים” קצרים וברורים שהמודל עצמו למד, ובכך משפרת דיוק ושקיפות ביישומים רגישים כמו רפואה ורכב אוטונומי.
על-פי דיווח חדש, חוקרים מהפקולטה למדעי המחשב ב-MIT הציגו גישה חדשה שמנסה לפתור אחת הבעיות המרכזיות של בינה מלאכותית מבוססת ראייה: איך אפשר להבין למה המודל החליט שצילום עור הוא מלנומה, או מדוע רכב אוטונומי זיהה מכשול, באופן שמאפשר לאדם להחליט אם לסמוך על התוצאה.
למה “הסבר” חשוב
מערכות ראייה ממוחשבת כבר משולבות באבחון רפואי, במערכות ניטור תעשייתיות ובהתנהגות רכבים חכמים, אבל ככל שהמודלים נעשים חזקים יותר, כך הם גם הופכים לפחות מובנים. בעולם של החלטות בטיחותיות, דיוק לבד אינו מספיק. ארגונים נדרשים להסביר פעולות, להוכיח הוגנות, ולתעד תהליכי קבלת החלטות מול רגולטורים, רופאים, מהנדסי בטיחות וחברות ביטוח.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
צוואר בקבוק מושגי, אבל עם מושגים “נכונים”
המחקר מתבסס על טכניקה בשם Concept Bottleneck Models (CBM), שמוסיפה שלב ביניים: במקום לעבור ישירות מתמונה לתווית, המודל קודם מזהה מושגים שניתנים להבנה אנושית, ורק אחר כך משתמש בהם כדי לסווג. לדוגמה, זיהוי ציפור לפי “כנפיים כחולות” ו“רגליים צהובות”, או אבחון נגע עור לפי “פיגמנטציה מגוונת”.
הבעיה? ברוב המקרים המושגים נקבעים מראש על ידי מומחים או נוצרים בעזרת מודלי שפה. לעיתים אלה מושגים לא מספיק ספציפיים למשימה, או פשוט לא המאפיינים שהמודל באמת נשען עליהם. בנוסף, קיימת תופעה מוכרת בשם דליפת מידע: גם אם מאלצים מודל לעבוד דרך מושגים, הוא עלול להסתיר מסלולי מידע אחרים שמאפשרים לו להגיע לתשובה בלי שהמשתמש יבין מה השפיע על התשובה.
לקרוא את המחשבות של המודל
כאן נכנסת תרומת החוקרים- במקום להכתיב למודל מושגים מבחוץ, הם מחלצים מתוך המודל את המושגים שהוא כבר למד במהלך האימון למשימה הספציפית.
הצוות משתמש בשני רכיבים מרכזיים. ראשית, מודל למידה עמוקה מסוג Sparse Autoencoder הבוחר תכונות רלוונטיות מתוך הייצוגים הפנימיים של מודל היעד ומזקק אותן למספר קטן של “מושגים”. לאחר מכן, מודל שפה רב-מודאלי (Multimodal LLM) אשר מתרגם כל מושג לתיאור בשפה פשוטה וגם מתייג תמונות בסט האימון כדי לציין אילו מושגים נוכחים או נעדרים. על בסיס התיוג הזה מאמנים מודל “צוואר בקבוק” שמחייב את מודל היעד לנמק באמצעות המושגים שנחצבו מתוכו.
פחות מושגים, יותר שליטה
כדי לשפר בהירות יחד עם מניעת דליפת מידע, החוקרים מגבילים את המודל לחמישה מושגים בלבד לכל תחזית. הרעיון הוא לאלץ בחירה במאפיינים המרכזיים ולהפיק הסברים קצרים וברורים יותר, במקום רשימות ארוכות שלא באמת עוזרות למקבל ההחלטה.
במבחנים על משימות כמו זיהוי מיני ציפורים וסיווג נגעים רפואיים, השיטה שלהם השיגה דיוק גבוה יותר לעומת CBM מתקדמים קיימים, ובמקביל הפיקה הסברים מדויקים וישימים יותר עבור הדאטה. עם זאת, החוקרים מדגישים שקיים עדיין מתח בין שקיפות לביצועים: "מודלים שחורים” שאינם ניתנים לפירוש עדיין יכולים לעקוף את המערכת בביצועים.
המשמעות לתעשייה ולמגמות גלובליות
העיתוי של המחקר משמעותי במיוחד. לחץ רגולטורי גובר בעולם, לצד דרישות אימות קליני ובטיחותי, דוחף ארגונים לאמץ AI בר-בקרה ולא רק AI עם מנוע מידע חזק. גישה אשר מאפשרת להפוך מודל ראייה מאומן למערכת שמסבירה את עצמה באמצעות מושגים אנושיים, עשויה לקצר תהליכי ולידציה, לשפר אחריותיות ולהפוך שילוב AI בתחומים כמו רפואה ורכב לאפשרי ובעיקר אמין יותר.
בהמשך, הצוות מתכנן לחקור איך לצמצם עוד יותר דליפת מידע, למשל באמצעות הוספת מודולים נוספים של צוואר בקבוק, וכן להרחיב את קנה המידה עם מודלי שפה חזקים יותר ותיוג של סטים גדולים יותר של נתונים. כפי שציין פרופ’ אנדראס הוטו מאוניברסיטת וירצבורג, שלא היה מעורב במחקר, הכיוון הזה עשוי ליצור גשר טבעי בין AI פרשני לבין AI סמלי וגרפי ידע, ולהוביל להסברים “נאמנים” יותר למה שהמודל באמת עושה.
