חזרה לחדשות
OpenAI מציגה ניסיונות הוכחה ל-First Proof: מודל מחקר פנימי מספק הוכחות ניתנות לבדיקה לחמישה אתגרים

קרדיט תמונה: Zirat AI / AI

OpenAI מציגה ניסיונות הוכחה ל-First Proof: מודל מחקר פנימי מספק הוכחות ניתנות לבדיקה לחמישה אתגרים

21 בפברואר 2026
מערכת זירת AI

לפי פרסום חדש של OpenAI, מודל מחקר פנימי הפיק עשרה ניסיונות הוכחה לאתגר First Proof ברמת מחקר. חמישה מהם נחשבים בעלי סיכוי גבוה לנכונות, בעוד אחרים בבדיקה. המהלך מדגים התקדמות ביכולות הסקה מתמשכת ובניית טיעונים מתמטיים מורכבים.

OpenAI: מודל מחקר פנימי הפיק עשרה ניסיונות הוכחה לבעיות First Proof, אתגר מתמטי ברמת מחקר שמטרתו לבדוק האם מערכות בינה מלאכותית מסוגלות להפיק הוכחות ניתנות לבדיקה בבעיות דומיין ייעודיות. לפי החברה, לפחות חמישה מניסיונות ההוכחה של המודל לבעיות 4, 5, 6, 9 ו-10 בעלי סיכוי גבוה להיות נכונים, בעוד ניסיונות נוספים עדיין בבחינת מומחים. במקביל, OpenAI עדכנה כי הניסיון לבעיה 2, שלגביו העריכה בתחילה כי הוא נכון, התברר כלא נכון בעקבות הערות רשמיות וניתוח קהילתי.

מהו First Proof ולמה זה חשוב

בניגוד למבחני מתמטיקה קצרי תשובה או לתחרויות בסגנון אולימפיאדות, First Proof דורש בנייה של טיעון קצה-לקצה בתחומי משנה מתמטים מומחיים, שבהם קביעת התקפות אינה טריוויאלית ולעיתים מחייבת סקירה ידנית של מומחים. לפי OpenAI, זוהי מסגרת שמאפשרת להעריך היבטים שקשה ללכוד בבנצ'מרקים סטנדרטיים, כמו החזקת שרשראות היסק ארוכות, בחירת אבסטרקציות מתאימות, טיפול בעמימות, ויכולת להפיק טיעונים שעוברים ביקורת חיצונית קפדנית.

מודל מחקר פנימי שמתמקד בקשיחות והיסק מתמשך

לדברי ג'יימס אר. לי, חוקר הסקה ב-OpenAI, החברה מאמנת כעת מודל חדש שמטרתו להעלות את רמת הקשיחות והעקביות בהסקה, כך שיוכל "לחשוב" ברציפות שעות רבות ולשמור על ביטחון גבוה במסקנות. לדבריו, כבר בתחילת הדרך המודל פתר את בעיות 9 ו-10, ובהמשך, עם התקדמות האימון, הוסיף פתרונות שלדעת הצוות נכונים גם לבעיות נוספות, לרבות 6 ו-4. "מדהים לראות מודל נהיה חכם יותר יום אחר יום", אמר לי.

מתודולוגיה, אימות ותיעוד תהליכי פרומפטינג

OpenAI מדגישה כי הניסויים בוצעו בפיקוח אנושי מוגבל. במהלך התהליך הוצעו למודל אסטרטגיות ניסוי חוזרות שהוכיחו עצמן בניסיונות קודמים, וחלקים בהוכחות הורחבו או הובהרו לפי משוב מומחים כדי להקל על אימות. בנוסף, התקיים שיח בין המודל הפנימי לבין ChatGPT לצורך בדיקות, עימוד וסגנון. בחלק מהבעיות הוצג הניסיון החזק ביותר מתוך מספר ריצות, על בסיס שיפוט אנושי. החברה מודה כי היה זה ספרינט מהיר ולא ניסוי קליני מבוקר, ומבקשת לקדם מול מארגני First Proof מסגרת הערכה סדורה ומהודקת יותר.

המסמך המלא שפורסם כולל את עשרת ניסיונות ההוכחה וכן נספח חדש עם תבניות פרומפטים ודוגמאות שמדמות את האינטראקציות הידניות שהתקיימו בדרך. OpenAI שיתפה את הניסיונות לראשונה ב-14 בפברואר 2026, ומאז עודכנו המסקנות לגבי חלק מהבעיות בהתאם למשוב הקהילה והפרשנויות הרשמיות.

הקשר רחב יותר: מה-IMO ל-GPT-5.2 בפיזיקה תאורטית

ההישג הנוכחי נסמך על שורת תוצאות קודמות בתחום הסקת עומק במדע ובמתמטיקה. ביולי 2025, מודל הסקה כללי של OpenAI הגיע לביצוע ברמת מדליית זהב באולימפיאדה הבינלאומית במתמטיקה עם 35 מתוך 42 נקודות. בנובמבר 2025 פורסמו "ניסויים מוקדמים בהאצת המדע עם GPT-5" שכללו התקדמות קונקרטית במתמטיקה, פיזיקה וביולוגיה לצד תיעוד מגבלות. לאחרונה דיווחה החברה כי GPT-5.2 הניב ביטוי מועמד לנוסחת אמפליטודות גלואונים, אשר הוכח פורמלית בידי מודל פנימי ואומת על ידי המחברים.

מבט קדימה

אם חמש ההוכחות אכן יאושרו, מדובר בצעד משמעותי בדרך למודלים שמסוגלים לייצר הוכחות ניתנות לבדיקה בתחומי מתמטיקה מתקדמים. המשמעות חורגת למתמטיקה טהורה, שכן יכולות אלו רלוונטיות גם לתכנון ניסויים מדעיים, אימות תאוריות ובסופו של דבר להגברת הבטיחות והאמינות של מערכות AI. עם זאת, OpenAI מבהירה כי האתגר האמיתי הוא בבקרה קפדנית, צמצום כשלים אופייניים כמו בטחון יתר, וניסוח מסגרות הערכה שמבודדות היסק אמיתי מעבודת עזר אנושית בלתי נראית.

שאלות נפוצות