
קרדיט תמונה: MIT News; iStock
מחקר MIT: שיטה חדשה מלמדת מודלי חזון־שפה לאתר אובייקטים מותאמים אישית
לפי אתר החדשות של אוניברסיטת MIT, צוות משותף מ־MIT וה־MIT-IBM Watson AI Lab מציג שיטת אימון שמאלפת מודלי חזון־שפה לאתר אובייקט ספציפי מתמונות דוגמה בודדות, באמצעות רצפי וידאו ושמות בדויים. התוצאה: שיפור דיוק ממוצע של כ־12 אחוזים ועד 21 אחוזים, מבלי לפגוע ביכולות הכלליות של המודל.
כפי שפורסם על ידי MIT News, מחקר של MIT מעלה כי ניתן ללמד מודלי חזון־שפה לאתר אובייקטים מותאמים אישית בסצנות חדשות באמצעות שיטת אימון מבוססת הקשר. החוקרים מציגים תהליך איסוף נתונים חכם מרצפי וידאו שבהם אותו אובייקט נעקב לאורך זמן, כך שהמודל נדרש ללמוד לזהות את אותו פריט בהקשרים משתנים ולא להסתמך על קטגוריות כלליות בלבד.
הליבה הטכנית: במקום דגימות סטטיות ומנותקות, הקבוצה קיצצה פריימים מסרטוני מעקב והפכה אותם לסט הנחיות למודל, עם תמונות דוגמה ושאלת שאילתה: היכן נמצא אותו אובייקט בתמונה החדשה. כדי למנוע "קיצורי דרך" המבוססים על ידע קדם־אימוני (למשל לזהות נמר רק כי כתוב נמר), הוחלפו שמות הקטגוריות בשמות בדויים כמו Charlie. כך המודל נאלץ להישען על רמזי הקשר ויזואליים עקביים. לדבריהם, האסטרטגיה הזו שיפרה את הדיוק בכ־12 אחוזים בממוצע, ועד כ־21 אחוזים כשהשתמשו בשמות בדויים. ככל שהמודל גדול יותר, כך הרווחים גדלו. חשוב מכך, יכולות כלליות אחרות של המודל נשמרו.
החוקרים, בהובלת Jehanzeb Mirza מ-MIT (מחבר בכיר), ובשיתוף סיון דובב (Sivan Doveh), נמרוד שבתאי (Nimrod Shabtay), ופרופ׳ James Glass מ־CSAIL, ידווחו על העבודה בכנס הבינלאומי לראייה ממוחשבת. לצידם משתתפים גם Wei Lin, Eli Schwartz, Hilde Kuehne, Raja Giryes, Rogerio Feris, Leonid Karlinsky, Assaf Arbelle ו־Shimon Ullman. לדברי Saurav Jha (Mila), המאמר מציע מתכון דאטה־צנטרי מעשי ללמידה מהקשר עבור לוקליזציה מותאמת אישית.
מדובר במחקר מעניין לאור המציאות שבה VLMs מצליחים בזיהוי קטגוריות כלליות אך מתקשים בהתאמה אישית. הממצאים מסקרנים כי הם מראים כיצד הנחיה מבוססת הקשר ורצפי וידאו יכולות לעקוף הטיות של המודל לקטגוריות מוכרות, ולשפוך אור על הסיבה שמודלי חזון־שפה אינם יורשים אוטומטית את יכולות הלמידה מהקשר של מודלי שפה.
היישומים רבים: סיוע חזותי לאנשים עם לקות ראייה למציאת חפץ ספציפי בחדר, ניטור אקולוגי של פריטים מזוהים לאורך זמן, רובוטיקה ושירותי לוגיסטיקה המזהים פריט יעד מדויק, ו־AR שמודע לאובייקטים אישיים. לצד זאת, יש לשקול סוגיות פרטיות בעת התאמת מודלים לאובייקטים אישיים, ורובסטיות בתנאי הסתרה/תאורה ומעברי סצנה חדים. המשך הדרך, כפי שמדגישים החוקרים, כולל חקר הסיבות לעומק מדוע יכולות למידה מהקשר אינן מועברות במלואן מרכיב השפה אל המודול הוויזואלי, ופיתוח מנגנונים משפרי ביצועים גם ללא אימון מחדש.
