מחקר MIT: אלגוריתמי בינה מלאכותית כלליים מנצחים מומחים במשחקים עם מידע חסר

מחקר MIT: אלגוריתמי בינה מלאכותית כלליים מנצחים מומחים במשחקים עם מידע חסר

19 ביוני 2026
מערכת זירת AI
מקור:זירת AI

מחקר חדש מ-MIT מערער הנחת יסוד ותיקה בתורת המשחקים החישובית: דווקא שיטות למידה כלליות מסוג Policy Gradient הצליחו לגבור על אלגוריתמים ייעודיים במשחקים אסטרטגיים עם מידע חסר. המשמעות עשויה לחרוג הרבה מעבר לפוקר או משחקי לוח, אל עולמות מסחר, משא ומתן, ביטחון וקבלת החלטות עסקית.

כשאלגוריתם כללי מנצח את המומחה

אחת ההנחות העמוקות בעולם תורת המשחקים והבינה המלאכותית היא שכאשר מדובר במשחקים אסטרטגיים עם מידע חסר, האלגוריתם הייעודי ינצח. אם היריב מסתיר קלפים, כוונות, תקציב או אסטרטגיה, כך חשבו חוקרים רבים, יש צורך בשיטות שמבוססות ישירות על תורת המשחקים ולא בגישות למידה כלליות. מחקר חדש שדווח ב-MIT News מציע תמונה מורכבת יותר, ואולי גם חשובה בהרבה לתעשיית ה-AI.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

החוקרים, ובהם סובהאן מוחמדפור וגבריאלה פארינה מ-MIT, בחנו אלגוריתמים שמאמנים רשתות נוירונים להתמודד במשחקים לשני שחקנים ובסכום אפס, כלומר מצבים שבהם רווח של צד אחד הוא הפסד של הצד השני. הדוגמאות הפשוטות הן פוקר, מכרז או משא ומתן, אך המנגנון רלוונטי לכל מערכת שבה סוכן חכם צריך לפעול מבלי לדעת את כל נתוני היריב.

מדוע Policy Gradient מפתיע כאן

שיטות Policy Gradient הן משפחה ותיקה יחסית של אלגוריתמי למידת חיזוק. הן אינן נולדו כדי לפתור משחקים אסטרטגיים מורכבים, אלא כדי לשפר מדיניות פעולה באמצעות צעדים הדרגתיים בכיוון שמגדיל תגמול. בפשטות, הסוכן מנסה, מודד, מתקן ומתקדם. הבעיה היא שבמשחקים מרובי סוכנים הכיוון הזה אינו יציב: היריב משנה התנהגות, והמהלך הנכון לפני רגע עשוי להפוך לגרוע ברגע הבא.

לכן ההפתעה במחקר משמעותית. בניסויים על חמישה משחקים עם מידע חסר, כולל גרסאות של איקס-עיגול סמוי, Hex עם מידע חלקי ו-Liar’s Dice, רשתות שאומנו בשיטות Policy Gradient הציגו ביצועים טובים יותר מרשתות שאומנו באמצעות אלגוריתמים ייעודיים מתורת המשחקים. הן הצליחו לא רק במדד תאורטי, אלא גם בהתמודדויות ישירות מול היריבים שאומנו בשיטות המומחיות.

המדד החשוב: עד כמה אפשר לנצל אותך

לב המחקר אינו רק בתוצאה, אלא גם בדרך המדידה. החוקרים התמקדו במדד בשם Exploitability, שבוחן עד כמה שחקן חשוף לניצול על ידי יריב אופטימלי בתרחיש הגרוע ביותר. ציון נמוך מעיד על משחק קרוב לאופטימלי, בעוד ציון גבוה מעיד על אסטרטגיה שניתן לפרק בקלות.

האתגר היה עצום מבחינה חישובית. משחקים כאלה עשויים לכלול עשרות מיליארדי מצבים, כאשר מצב אינו רק מיקום על לוח אלא כל ההיסטוריה של המשחק, כולל החלטות קודמות, טעויות ומידע שנחשף או הוסתר. העובדה שהצוות הצליח להפעיל בנצ'מרק שימושי גם בקנה מידה כזה, ואף להפוך אותו לנגיש להרצה על מחשב רגיל, חשובה כמעט כמו המסקנה האלגוריתמית עצמה.

המשמעות העסקית: AI למשא ומתן, מסחר וביטחון

הלקח הרחב הוא שאסור למהר להעדיף מערכות מומחה רק מפני שהבעיה נראית מומחית. בעידן שבו חברות בונות סוכני AI למשא ומתן, תמחור דינמי, מסחר אלגוריתמי, תכנון לוגיסטי ואפילו סימולציות ביטחוניות, היכולת לפעול תחת אי ודאות ומידע מוסתר הופכת לתכונה קריטית.

אם שיטות כלליות וגמישות מסוגלות להתחרות באלגוריתמים ייעודיים, ייתכן שהיתרון התעשייתי יעבור ממי שמחזיק במודל התאורטי המתוחכם ביותר למי שמחזיק בתשתית הערכה, סימולציה ואימון טובה יותר. זהו שינוי תפיסתי: פחות פולחן סביב אלגוריתם חדש, יותר דגש על הנדסה ניסויית, מדידה קפדנית ובדיקת ביצועים בתרחישי קצה.

עבור שוק הבינה המלאכותית, המסר ברור. מערכות AI אסטרטגיות לא יימדדו רק לפי תשובה נכונה, אלא לפי עמידות מול יריב שמנסה לנצל אותן. בעולם אמיתי של אינטרסים מתנגשים, זו עשויה להיות אחת ההבחנות החשובות ביותר בין הדגמה מרשימה לבין מערכת שאפשר לסמוך עליה.

שאלות נפוצות