כך מוכיחים שמודל AI באמת שכח מידע

כך מוכיחים שמודל AI באמת שכח מידע

11 ביוני 2026
מערכת זירת AI
מקור:זירת AI

מחקר חדש של Google Research מציע דרך מדויקת יותר לבדוק אם מודלי בינה מלאכותית באמת מחקו מידע רגיש, בלי להסתמך על גישה פנימית למודל או על אימון מחדש יקר. המשמעות העסקית והרגולטורית עשויה להיות גדולה במיוחד בעידן ה-GDPR, אבטחת מידע ו-AI אחראי.

למה "לשכוח" הוא אחד האתגרים החשובים ביותר בבינה מלאכותית

ככל שמודלי בינה מלאכותית נבנים על מאגרי מידע עצומים, רגישים ולעיתים אישיים, השאלה כבר אינה רק איך מאמנים מודל טוב יותר, אלא איך מוכיחים שהוא מחק מידע כאשר החוק, הלקוח או הארגון דורשים זאת. תחום Machine Unlearning, מחיקת למידה ממודלים, נועד לאפשר למערכת AI "לשכוח" רשומות מסוימות בלי לשלם את העלות האדירה של אימון מלא מחדש.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

בפוסט מחקר שפרסמה Google Research, החוקרת מוניקה ריברו מציגה מסגרת ביקורת חדשה בשם Regularized f-Divergence Kernel Tests, שפותחה יחד עם אנטונין שרב וארתור גרטון והוצגה ב-AISTATS 2026. החידוש המרכזי הוא מעבר מבדיקה פשטנית של "האם שני מודלים מתנהגים אותו דבר" לשאלה מדויקת יותר: האם המודל שעבר מחיקה קרוב יותר למודל בטוח שאומן ללא המידע הרגיש, או למודל המקורי שראה את המידע ועלול לזכור אותו.

הבעיה בגישות הבדיקה הקיימות

בדיקות דו-מדגמיות משמשות שנים כדי להשוות בין שתי התפלגויות. במקרה של מחיקת מכונה, בודק חיצוני עשוי להשוות בין פלטים של מודל שאומן מחדש ללא רשומה מסוימת לבין מודל שטוען כי "שכח" אותה. אם ההתפלגויות שונות, ניתן להסיק לכאורה שהמחיקה נכשלה.

אבל במודלים מודרניים זו הנחה מסוכנת. שני מודלים שאומנו על אותם נתונים בדיוק יכולים להפיק התפלגויות שונות בגלל גודל אצווה, אתחול אקראי או פרטי אימון אחרים. כלומר, בדיקה סטנדרטית עלולה לסמן ככשל גם מודל בטוח לחלוטין. מנגד, כלים נפוצים כמו Maximum Mean Discrepancy טובים בזיהוי שינוי גלובלי רחב, אך עלולים לפספס דליפה נקודתית, למשל פלט חריג שמופיע רק בעקבות ניסוח שאילתה ספציפי מאוד.

מה גוגל משנה בפועל

המסגרת החדשה משתמשת במשפחת מדדים סטטיסטיים הנקראת f-Divergence, שמאפשרת למדוד סוגים שונים של פערים בין התפלגויות. מדדים כמו KL divergence ו-Chi-squared divergence יכולים להיות רגישים לשינויים מקומיים וחלקים, בעוד Hockey-stick divergence מתאים במיוחד להקשרים של פרטיות דיפרנציאלית, משום שהוא מאפשר להגדיר תקציב בטיחות ולהתעלם מהבדלים זניחים שאינם מהווים הפרת פרטיות ממשית.

הערך המעשי כאן הוא לא רק מתמטי. המסגרת משתמשת ברגולריזציה מבוססת גרעינים כדי להפוך את החישוב לישים גם בנתונים עתירי ממדים, ומוסיפה מנגנון אדפטיבי שבוחר את המדד והפרמטרים המתאימים לבדיקה. בכך היא מצמצמת את הצורך בכוונון ידני, אחד החסמים הגדולים בהפיכת ביקורת AI מתיאוריה לכלי עבודה תפעולי.

ההשלכות לתעשייה ולרגולציה

מנקודת מבט עסקית, זהו צעד חשוב בדרך לשוק שבו ספקי AI לא רק מבטיחים ציות ל-GDPR או למדיניות מחיקת נתונים, אלא מספקים ראיות סטטיסטיות לכך. ארגונים בתחומי פיננסים, בריאות, ביטוח וסייבר עשויים להזדקק בעתיד לבדיקות מסוג זה כחלק מתהליכי רכש, ביקורת ספקים וניהול סיכוני מודלים.

בניסויים שתוארו במחקר, המסגרת הצליחה לזהות הפרות פרטיות עם פחות דגימות מאשר גישות קודמות, ובמקרים מסוימים גילתה כשלים שבהם כלים קיימים דרשו מיליוני דגימות. בתחום מחיקת המכונה, התוצאה משמעותית במיוחד: שיטות כמו Fine-tuning, גיזום ו-Selective Synaptic Dampening לא הצליחו להוכיח שכחה מספקת בהגדרות שנבדקו, בעוד שגישה מבוססת תוויות אקראיות עברה את הבדיקה היחסית.

לא פתרון קסם, אבל שינוי כיוון

המסר הרחב ברור: מחיקת מידע ממודלים אינה יכולה להימדד רק לפי דמיון שטחי בין פלטים. נדרש סטנדרט ביקורת שמבין את ההבדל בין רעש אימון תמים לבין זיכרון מסוכן של מידע רגיש. אם המסגרת של גוגל תבשיל לכלי קוד פתוח או לשירות ביקורת מסחרי, היא עשויה להפוך לאבן יסוד באקו-סיסטם של AI אחראי, בדומה למה שכלי אבטחת מידע עשו לעולם התוכנה הארגונית.

שאלות נפוצות