חזרה לחדשות
מחקר MIT: מאגר נתונים עצום לבחינת יכולות הוכחה של בינה מלאכותית

מחקר MIT: מאגר נתונים עצום לבחינת יכולות הוכחה של בינה מלאכותית

25 באפריל 2026
מערכת זירת AI
מקור:זירת AI

According to an MIT News report, חוקרי MIT יצרו את MathNet, מאגר פתוח של מעל 30 אלף בעיות הוכחה מתחרויות ב-47 מדינות ו-17 שפות. המאגר חושף פערים משמעותיים בהסקה חזותית וברב-לשוניות במודלי AI.

According to an MIT News report, צוות מחקר מ-MIT CSAIL בשיתוף King Abdullah University of Science and Technology (KAUST) וחברת HUMAIN הקים את MathNet, מאגר הנתונים הגדול בעולם של בעיות מתמטיקה ברמת אולימפיאדה, וכעת הוא פתוח לכל. מדובר ביותר מ-30,000 בעיות ופתרונות שנכתבו ונבדקו על ידי מומחים, שנאספו מתוך חוברות רשמיות של תחרויות לאומיות ובינלאומיות ב-47 מדינות, ב-17 שפות, לאורך כארבעה עשורים.

המחקר, שיוצג בכנס ICLR בברזיל, הובל על ידי Shaden Alshammari (דוקטורנטית ב-MIT), ונכתב יחד עם Navid Safaei, מהנדסת ה-AI בחברת HUMAIN Abrar Zainal, מנהל האקדמיה ב-KAUST וחבר קהילת IMO Sultan Albarakati, וכן חוקרי MIT Kevin Wen, Mark Hamilton, והפרופסורים William Freeman ו-Antonio Torralba. מעבר להישג ההנדסי, החוקרים מציבים כאן יעד עקרוני: ליצור מדד גלובלי שמייצג תרבויות חשיבה מתמטיות שונות, ולא רק את המסלולים הדומיננטיים באנגלית או בסינית.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

הערך המרכזי של MathNet הוא איכות המקור. בניגוד למאגרים רבים שמבוססים על פתרונות קהילתיים בפורומים, כאן החומר נלקח אך ורק מחוברות רשמיות של תחרויות. המשמעות היא פתרונות ארוכים, מנומקים ומרובי גישות, לעיתים על פני כמה עמודים, בדיוק הסוג שמאפשר למודלים ללמוד רצפי הסקה והוכחה ולא רק “לנחש תשובה”. לטובת בניית המאגר נדרשה עבודת איסוף חריגה בהיקפה: 1,595 קובצי PDF שהם מעל 25 אלף עמודים, כולל סריקות ישנות, פורמטים לא אחידים ושפות רבות. חלק משמעותי מהחומר הגיע מארכיון פרטי שספאיי אסף וסרק ידנית מאז 2006, דוגמה לאופן שבו ידע קהילתי יכול להפוך לתשתית מחקרית גלובלית כשהוא מתועד ומאומת.

לצד תועלת ברורה לתלמידים המתכוננים ל-IMO ולתחרויות לאומיות, MathNet נועד גם לשמש בנצ’מרק קשוח לבינה מלאכותית. כאן מתברר שהתמונה מורכבת יותר מהכותרות על “AI שמנצח במתמטיקה”: גם מודלים מתקדמים מתקשים בסביבה מגוונת ורב-מודאלית. לפי הדיווח, GPT-5, המודל החזק שנבחן, הגיע לכ-69.3% במבחן המרכזי (6,400 בעיות), כלומר נכשל בכמעט שליש מהמשימות ברמת אולימפיאדה. כאשר לבעיות מצורפים שרטוטים או תרשימים, הביצועים יורדים באופן עקבי, ומדגישים שחולשת ההסקה החזותית עדיין מגבילה גם מודלים חזקים.

המאגר חושף גם פערים ברב-לשוניות: בעוד שמודלי GPT מתוארים כבעלי ביצועים דומים באנגלית ובשפות נוספות, כמה מודלים בקוד פתוח קיבלו 0% בבעיות במונגולית, סימן לכך שהיכולת “להבין מתמטיקה” אינה מנותקת מגישה לנתוני אימון ושפה. בעולם שבו בינה מלאכותית אמורה לשרת חינוך גלובלי, מחקר וחדשנות, הפער הזה הופך לשאלה של נגישות ושוויון, לא רק של הנדסה.

חידוש נוסף הוא מדד של שליפה והקבלה מבנית: האם מודל מסוגל לזהות ששתי בעיות שונות לכאורה חולקות את אותה תבנית מתמטית. החוקרים מציינים שאפילו ועדות מומחים עלולות לפספס דמיון כזה, ולעיתים הופיעו בעיות כמעט זהות בבחינות IMO לאורך השנים. בבדיקת שמונה מודלי embedding מתקדמים, גם הטוב ביותר מצא את ההתאמה הנכונה בכ-5% בלבד בניסיון הראשון, מה שמרמז עד כמה “הבנה מבנית” עדיין רחוקה ממוצרים אמינים.

בסופו של דבר, MathNet אינו רק ספרייה לתרגול, אלא תשתית למדידה אמיתית של יכולות הוכחה, ראייה ורב-לשוניות. בעולם שממהר לשלב מודלים בשיעורי מתמטיקה, במערכות תרגול ובכלי עזר לפתרון בעיות, המאגר עשוי להפוך לכלי שמכתיב סטנדרט חדש: פחות הצהרות על הצלחה, ויותר בדיקות עומק שמראות איפה הבינה המלאכותית באמת מבינה, ואיפה היא עדיין רק מתקרבת.

המאגר זמין לציבור בכתובת: https://mathnet.csail.mit.edu

שאלות נפוצות