
קרדיט תמונה: Zirat AI / AI
בלוג של גוגל: לימוד מקונן פרדיגמת ML חדשה ללמידה רציפה
גוגל מציגה את Nested Learning, תפיסה מאוחדת שמטשטשת את הגבול בין ארכיטקטורה לאלגוריתם אופטימיזציה באמצעות שכבות של בעיות אופטימיזציה עם קצבי עדכון שונים. המודל Hope, אבטיפוס עצמי־משתנה עם מערכת זיכרון רציפה, מפגין שיפור בפרפלקסיה, דיוק וזיכרון בהקשרים ארוכים
כפי שפורסם בבלוג של גוגל, חוקרים מציעים פרדיגמה חדשה ללמידה רציפה בשם Nested Learning. לפי דיווח ב Google Research Blog, מדובר בגישה המאחדת את הארכיטקטורה ואת כללי האופטימיזציה למערכת אחת של בעיות אופטימיזציה מקוננות. רעיון מרכזי הוא שמודלים לומדים בקצבי עדכון מרובי שכבות, וכך מפחיתים שכחה קטסטרופלית. מחקר של גוגל מעלה כי ניתן למנף זיכרון אסוציאטיבי הן באימון (Backprop) והן בארכיטקטורות כמו תשומת־לב; על פי הבלוג של גוגל, זה פותח מימד תכנוני חדש ללמידה עצמית לאורך זמן.
מי עומדים מאחורי המחקר: עלי בהרוז (Ali Behrouz), ואהאב מירוקני (Vahab Mirrokni), יחד עם מייסאם רזאויאין (Meisam Razaviyayn) ופיילין ג'ונג (Peilin Zhong). המאמר, "Nested Learning: The Illusion of Deep Learning Architectures", הוצג ב‑NeurIPS 2025.
מה חדש בפרדיגמה:
- אופטימיזטורים עמוקים: במקום להסתמך על דמיון מכפלי פשוט, מגדירים את יעד האופטימיזציה כבעיית רגרסיה סטנדרטית (למשל L2), ומשיגים גרסאות יציבות יותר של מומנטום וצבירה לרעש ונתונים לא מושלמים.
- מערכת זיכרון רציפה (CMS): לא עוד חלוקה קשיחה בין "קצר" ל"ארוך". רצף מודולי זיכרון מעודכנים בתדירויות שונות יוצר רצף יכולות זכירה המתאים ללמידה מתמשכת.
- Hope: ארכיטקטורה רקורסיבית עצמית־משתנה, וריאנט של Titans, המסוגלת לדרגות בלתי מוגבלות של למידה בתוך־הקשר ומוגברת ב‑CMS להקשרים ארוכים.
ממצאים עיקריים: Hope מפחיתה פרפלקסיה ומשפרת דיוק במשימות שפה ושכל ישר ביחס ל‑Transformers ורקורסיביים מודרניים, ומובילה במשימות Needle‑in‑a‑Haystack ארוכות לעומת מודלים כמו Mamba2 ו‑TTT. זאת לצד ניהול זיכרון יעיל יותר בזכות מדיניות עדכון מרובת־תדרים.
הרחבה והקשר: התמודדות עם שכחה קטסטרופלית מוכרת שנים, עם גישות כמו EWC, LwF, Rehearsal ופריזות פרמטרים. Nested Learning מציע מסגור מאוחד: האופטימייזר, הזיכרון והארכיטקטורה הם כולם מודולי זיכרון אסוציאטיביים הפועלים בקצבים שונים. זה מתחבר גם לגל המחודש של RNNs ומודלי State‑Space (כמו משפחת Mamba) ולמגמת מטא־למידה, אך מעניק תשתית טכנית לתזמור רב־רמות של עדכונים.
למה זה חשוב: אם העקרונות יאומתו בקנה מידה תעשייתי, ניתן יהיה לשלב ידע חדש בלי אימון־על יקר, לאפשר עדכון מודלים על‑המכשיר, לשפר פרטיות ולצמצם תלות בזיכרון קונטקסט בלבד. עם זאת, יש אתגרי שיחזור, עלויות חישוב וקביעת קצבי עדכון אופטימליים.
בשורה התחתונה: המחקר מרחיב את מה שידענו על רציפות הלמידה במודלים גדולים ומציע דרך מעשית לצמצם שכחה, תוך יצירת שפה משותפת לתכנון ארכיטקטורות ואופטימיזציה כאחד.
