חוקרי MIT לימדו בינה מלאכותית לשאול שאלות טובות יותר דרך משחק

חוקרי MIT לימדו בינה מלאכותית לשאול שאלות טובות יותר דרך משחק

4 ביוני 2026
מערכת זירת AI
מקור:זירת AI

חוקרים מ-MIT CSAIL ומאוניברסיטת הרווארד פיתחו שיטה לשיפור יכולות השאילה של מודלי שפה קטנים, תוך שימוש במשחק הקלאסי Battleship כסביבת בדיקה. מודל קטן כמו Llama 4 Scout הגיע לשיעור ניצחון של 82% מול בני אדם ועקף את GPT-5 - בעלות של כאחוז אחד בלבד.

כשבינה מלאכותית לומדת לשאול - ולא רק לענות

אחת הבעיות הפחות מדוברות בפיתוח סוכני AI היא לא יכולת המענה שלהם, אלא יכולת השאילה. מודלי שפה (LM) מאומנים בעיקר לענות על שאלות מורכבות, אך כאשר הם צריכים לחקור סביבה לא ידועה ולהציג שאלות ממוקדות שמניבות מידע מרבי - הם נכשלים. זוהי בדיוק הבעיה שקבוצת חוקרים מ-MIT CSAIL ומבית הספר להנדסה ומדעים שימושיים של הרווארד (SEAS) החליטו לפתור.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

Battleship בתור כלי מחקר

החוקרים בחרו במשחק הקלאסי Battleship כסביבת בדיקה - בחירה שאינה אקראית. המשחק מחייב שאלות ממוקדות בסביבה של אי-ודאות, ומשמש כבר שנים את מדעני הקוגניציה לחקר אסטרטגיות חיפוש מידע אנושיות.

הם עיצבו גרסה שיתופית בשם Collaborative Battleship: שחקן אחד בתפקיד "קפטן" שואל שאלות, ושחקן שני בתפקיד "נקודת תצפית" עונה עליהן בזמן אמת. יותר מ-40 בני אדם שיחקו את הגרסה הזו, ותוצאות המשחקים שימשו לבניית מאגר הנתונים BattleshipQA - נקודת השוואה אמינה לבדיקת מודלי AI.

כאשר בדקו מודלים מובילים כמו GPT-5 ומודלים קטנים כמו Llama 4 Scout ללא אימון מוקדם, התברר שמודלים גדולים אמנם מכים בני אדם במספר התורות לסיום המשחק, אך מודלים קטנים יכולים לפספס לחלוטין.

הפתרון - Monte Carlo ו-Python

החוקרים הציידו כל מודל באסטרטגיית Monte Carlo: בכל תור, המודל שוקל באופן כמותי את ההסתברות של כל אפשרות, ומשקלל אותה מחדש לפי התשובות שקיבל. השפעת הגישה על Llama 4 Scout הייתה דרמטית: שיעור הניצחון שלו מול בני אדם קפץ מ-8% ל-82%. יתר על כן, המודל הקטן עקף את GPT-5 תוך פעולה בעלות של כאחוז אחד בלבד.

לצד שיפור השאילה, הם טיפלו גם בדיוק המענה של המודלים הקטנים. כל שאלה שהוצגה בשפה טבעית הומרה אוטומטית לקוד Python שבדק את הלוח ישירות. Llama 4 Scout, GPT-4o-mini ואפילו Claude 4 Opus הראו שיפור ממוצע של 15% בדיוק, כאשר GPT-4o-mini רשם קפיצה של כמעט 30%.

גבריאל גראנד, דוקטורנט ב-MIT CSAIL ומחבר ראשי של המחקר, מסביר כי "שאילת שאלות אינפורמטיביות תלויה ביכולת לדמות ולחזות את העולם. כאשר מעניקים לסוכנים גישה ל-world model, הם שואלים שאלות טובות יותר ומגיעים לתגליות בצורה יעילה יותר."

מעבר ל-Battleship - ולמעבדה

החוקרים איששו את הממצאים במשחק נוסף - Guess Who, שם Llama 4 Scout עלה משיעור הצלחה של 30% ל-72%, ו-GPT-4o מ-62% ל-90%.

אך הרלוונטיות חורגת הרבה מעבר למשחקי לוח. הפרופסור יעקב אנדראס, עמית פרופסור להנדסת חשמל ומדעי המחשב ב-MIT וחוקר בכיר ב-CSAIL, רואה בכך שער לשיפור יכולות הגילוי של AI בתחומים כמו גילוי תרופות, ניתוח מבנים מולקולריים, פתרון בעיות מתמטיות ופיתוח קוד.

עבור חברות ישראליות בתחומי ה-AI, הביו-טק והסייבר שמפתחות סוכני AI לסביבות מורכבות ולא ודאיות, הממצאים האלה רלוונטיים ישירות: ניתן להשיג ביצועים גבוהים משמעותית ממודלים קטנים וזולים, בתנאי שמעצבים את אסטרטגיית ההסקה שלהם נכון. הדבר עשוי להפחית בצורה ניכרת את עלויות התשתית של מערכות AI ייעודיות.

המחקר הוצג כהרצאה בכנס ICLR באפריל האחרון, ומומן בין היתר על ידי MIT-IBM Watson AI Lab, מרכז MIT Siegel Family Quest for Intelligence, Intel, ו-DARPA.

שאלות נפוצות