איך מודלי שפה זוכרים עובדות: מחקר חדש חושף את מנגנון השליפה ב-Gemma

איך מודלי שפה זוכרים עובדות: מחקר חדש חושף את מנגנון השליפה ב-Gemma

25 ביוני 2026
מערכת זירת AI
מקור:זירת AI

מחקר פרשנות מכניסטית על Gemma-2B ו-Gemma-12B-IT מציע תמונה ברורה יותר של אופן אחסון ושליפת ידע עובדתי במודלי שפה. הממצא המרכזי: הזיכרון אינו יושב בראש קשב יחיד, אלא עובר בשלושה שלבים דרך הזרם השיורי, הקשב ושכבות הקריאה הסופיות.

מה באמת קורה כשמודל שפה “יודע” עובדה?

אחת השאלות החשובות ביותר בתעשיית הבינה המלאכותית היא לא רק האם מודלי שפה גדולים יודעים לענות נכון, אלא היכן וכיצד הידע הזה מיוצג בתוכם. במאמר שפורסם ב-Towards Data Science, החוקר סובהנגה אופדהיאי מציג ניסוי פרשנות מכניסטית בשם BizzaroWorld, שבוחן כיצד מודלי Gemma של גוגל שולפים עובדות פשוטות כמו התאמת צבעים, שמות מחברים או מקבילות מיתולוגיות.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

המחקר אינו עוד בדיקת ביצועים רגילה. במקום למדוד רק תשובה סופית, הוא משתמש ב-Activation Patching, טכניקה שמחליפה הפעלות פנימיות בין הרצה “נקייה” להרצה “משובשת” של אותו פרומפט, ובודקת כיצד הדבר משנה את ההסתברות לתשובה הנכונה. כך ניתן לקבל רמז סיבתי, לא רק סטטיסטי, לגבי הרכיבים שבאמת משפיעים על שליפת העובדה.

שלושה שלבים לזיכרון עובדתי

הממצא הבולט הוא קיומו של מעגל שליפה תלת שלבי. בשלב הראשון, שלב האחסון, העובדה מיוצגת כבר בשכבות מוקדמות ובינוניות במיקום הטוקן של הישות, למשל המילה שמפעילה את ההקשר העובדתי. הייצוג המרכזי נמצא בזרם השיורי, אותו ערוץ פנימי שמעביר מידע בין שכבות הטרנספורמר. לפי התוצאות, הזרם השיורי משמעותי בהרבה מתתי הרכיבים הנשלטים יותר, כמו ראשי קשב או שכבות MLP.

בשלב השני מתרחש ניתוב. המידע עובר ממיקום הישות למיקום החיזוי הסופי באמצעות מנגנוני קשב, אך לא דרך “ראש קסם” אחד. ב-Gemma-2B נמצאו ראשים פעילים יותר מאחרים, אולם התרומה של כל ראש בנפרד הייתה קטנה יחסית לעומת השפעת הזרם השיורי כולו. ב-Gemma-12B-IT התמונה נעשתה מבוזרת אף יותר, מה שמרמז שככל שהמודל גדול יותר, האחריות על העברת הידע עשויה להתפזר על פני יותר רכיבים.

בשלב השלישי מגיעה הקריאה. בשכבות המאוחרות, המודל אינו “מחשב” מחדש את העובדה, אלא קורא ייצוג שכבר הוכן בשלבים קודמים. זו הבחנה חשובה: אם היא נכונה גם בארכיטקטורות נוספות, תיקון עובדות, עדכון ידע וצמצום הזיות לא ידרשו בהכרח התערבות בכל המודל, אלא איתור נקודות מוקדמות שבהן הייצוג נוצר או משתבש.

למה זה חשוב לעסקים ולמערכות AI ארגוניות

עבור חברות שמטמיעות מודלי שפה במערכות ידע, שירות לקוחות, חיפוש ארגוני או סוכני AI, המחקר מצביע על מגבלה וגם על הזדמנות. המגבלה היא שהידע הפנימי של המודל אינו דומה למסד נתונים שקל לערוך ממנו שורה אחת. הוא מקודד ככיוונים וזרימות במרחב חישובי עמוק. ההזדמנות היא שאם נלמד למפות את המעגלים האלה בצורה אמינה, נוכל לפתח התערבויות מדויקות יותר: עריכת ידע מקומית, ניטור מוקדי כשל, ובדיקת אמינות ברמת שכבות ולא רק ברמת תשובות.

יש כאן גם לקח מתודולוגי חשוב. המחקר מדגיש שבעיות טוקניזציה יכולות לשנות את מערך הניסוי בין מודלים, גם כאשר נדמה שהם משתמשים באותו מנגנון פיצול טקסט. בפועל, השוואה בין מודלים דורשת בקרת נתונים קפדנית, אחרת הבדלים שנראים ארכיטקטוניים עשויים לנבוע מהאופן שבו מילים נשברות לטוקנים.

השלב הבא: ממיקום רכיבים למיפוי קשרים

Activation Patching מאפשר לזהות רכיבים משפיעים, אך כדי להבין מי מדבר עם מי בתוך המודל נדרשות שיטות עדינות יותר כמו Path Patching. שם נמצא הדור הבא של מחקר הפרשנות: לא רק “באיזו שכבה עובדה קיימת”, אלא “באיזה מסלול היא נעה, מי משנה אותה, ומתי היא הופכת לתשובה”.

אם ממצאי Gemma ישוכפלו במודלים ממשפחות נוספות כמו LLaMA, Claude או מודלי שפה דיפוזיוניים, הם עשויים להפוך לצעד משמעותי בדרך מהנדסת אמינות חדשה למודלי שפה. לא עוד הסתפקות במדדי דיוק כלליים, אלא אנטומיה חישובית של זיכרון, שליפה ושגיאה.

שאלות נפוצות