
קרדיט תמונה: OpenAI
OpenAI משיקה את GPT-5.3-Codex-Spark: מודל קוד בזמן אמת במהירות 1000 טוקנים לשנייה על Cerebras
OpenAI מציגה את GPT-5.3-Codex-Spark, גרסה קלת-משקל ומהירה במיוחד של Codex המותאמת לקידוד בזמן אמת. המודל רץ על שבב Wafer Scale Engine 3 של Cerebras, תומך בהקשר של 128k, ומגיע ליותר מ-1000 טוקנים לשנייה, עם שיפורי השהיה שיגיעו לכלל המודלים.
OpenAI: GPT-5.3-Codex-Spark הוא מודל קוד חדש ומהיר במיוחד לקידוד בזמן אמת, כפי שנחשף בפרסום של OpenAI מהיום. המודל, גרסה קומפקטית של GPT-5.3-Codex, מסמן את אבן הדרך הראשונה בשותפות עם Cerebras ונועד להרגיש כמעט מיידי בסביבות פיתוח, תוך שמירה על יכולת גבוהה למשימות קוד בעולם האמיתי.
מהירות ואינטליגנציה
ליבת החידוש היא חוויית אינטראקציה הדוקה שבה ההשהיה חשובה לא פחות מהדיוק. Codex-Spark משיב כמעט מיידית, מאפשר לעצור ולהכווין את הפלט תוך כדי עבודה, ומתמקד בעריכות ממוקדות במקום בשכתוב מסיבי. על גבי חומרת השהיה-נמוכה של Cerebras המודל מייצר מעל 1000 טוקנים לשנייה, נתון משמעותי לפיתוח אינטראקטיבי, ריצות קצרות, שינויים בלוגיקה ועידון ממשקים. הוא מגיע עם חלון הקשר של 128k ותומך בטקסט בלבד בשלב התצוגה המקדימה.
מעבר למספרי מהירות גולמיים, הביצועים נמדדו גם במדדים סוכניים עדכניים בקהילת התוכנה. על SWE-Bench Pro ו-Terminal-Bench 2.0 מציג GPT-5.3-Codex-Spark תוצאות חזקות, תוך סיום משימות בפחות זמן לעומת GPT-5.3-Codex המלא. זמני המשימה מחושבים כסכום זמן יצירת הפלט, זמן prefill, זמן הרצת כלים ועלויות רשת – שם בדיוק מושקעת אופטימיזציה אגרסיבית.
שיפורי השהיה לכלל המודלים
OpenAI מציינת כי מהירות המודל לבדה לא מספיקה לחוויה בזמן אמת. לכן הוטמעו שיפורים מקצה לקצה בצנרת הבקשה-תגובה: שכתוב חלקים מרכזיים בערימת האינפרנס, שיפור זרימת סטרים לקוח-שרת ופתיחת סשנים זריזה יותר. חיבור WebSocket מתמיד וטיוב ב-Responses API הפחיתו את תקורת הסבב לקוח/שרת ב-80 אחוזים, את התקורה פר טוקן ב-30 אחוזים, ואת זמן ה-token הראשון ב-50 אחוזים. מסלול ה-WebSocket פעיל כברירת מחדל עבור Codex-Spark וצפוי להפוך לברירת המחדל לכל המודלים בקרוב.
מואץ בידי Cerebras
המודל רץ על Wafer Scale Engine 3 של Cerebras – מאיץ ייעודי לאינפרנס מהיר במיוחד – שמעניק ל-Codex שכבת שירות מוכוונת השהיה נמוכה לצד צי ה-GPU הקיים. לדברי שון לי, ה-CTO ומייסד-שותף של Cerebras, השקה זו היא רק ההתחלה של גילוי תבניות אינטראקציה ושימושים חדשים שמתאפשרים בזכות אינפרנס מהיר. ב-OpenAI מדגישים כי GPU יישארו תשתית מרכזית להכשרת מודלים ולהיקפי שימוש רחבים, בעוד Cerebras משלימה את התמונה כשנדרשת השהיה זעירה – ואפשר אף לשלב בין השניים לעומסי עבודה יחידים.
זמינות, בטיחות ומה הלאה
Codex-Spark מושק כתצוגה מקדימה מחקרית למנויי ChatGPT Pro בגרסאות האחרונות של אפליקציית Codex, ה-CLI ותוסף VS Code, וכן דרך ה-API לקבוצת שותפי עיצוב נבחרת. מאחר שהוא רץ על חומרה ייעודית, חלים עליו מגבלות קצב נפרדות שעשויות להשתנות לפי העומס. המודל כולל את אותה הכשרה בטיחותית כמו המודלים המרכזיים של OpenAI, לרבות הערכות קיבולת סייבר, ונקבע כי אינו מתקרב לספי המסגרת המוכנותית של OpenAI בתחומי סייבר או ביולוגיה.
OpenAI מתארת חזון דו-מצבי ל-Codex: מצב חשיבה וביצוע לטווח ארוך לצד שיתופיות מיידית לאיטרציה מהירה. בהמשך שני המצבים יתמזגו – סוכן ראשי שומר על לולאה אינטראקטיבית הדוקה, בעוד תתי-סוכנים מטפלים בריצות רקע ארוכות או בפיזור משימות מקבילי. ככל שהמודלים מתחזקים, מהירות האינטראקציה הופכת לבקבוקון. אינפרנס אולטרה-מהיר מצמצם את הפער הזה והופך רעיון לקוד עובד מהר מאי פעם.
הפרסום נכתב בידי OpenAI, עם ציטוט של Sean Lie מ-Cerebras.
