מודלי שפה בדיפוזיה שמאיצים יצירת טקסט ומאתגרים את ה-LLM הקלאסי

מודלי שפה בדיפוזיה שמאיצים יצירת טקסט ומאתגרים את ה-LLM הקלאסי

26 במאי 2026
מערכת זירת AI
מקור:זירת AI

חברת NVIDIA מציגה משפחת מודלי שפה חדשה המשלבת יצירה אוטורגרסיבית, דיפוזיה וספקולציה עצמית באותו מודל. מעבר לשיפור במהירות, המהלך מצביע על כיוון חשוב בשוק ה-AI: הפחתת עלויות השהיה וחישוב, בלי לוותר על תאימות לכלים קיימים.

מהפכת המהירות הבאה ב-LLM אינה רק מודל גדול יותר

במשך שנים, מודלי שפה גדולים נבנו סביב עיקרון פשוט אך מגביל: יצירת טקסט מילה אחר מילה, או ליתר דיוק טוקן אחר טוקן. הגישה האוטורגרסיבית הזו הפכה לבסיס של ChatGPT, Claude, Gemini ורוב המודלים הפתוחים, משום שהיא יציבה, נוחה לאימון וקלה יחסית לפריסה. אבל היא גם יוצרת צוואר בקבוק עמוק: כל טוקן חדש דורש מעבר נוסף במודל, טעינת משקלים מהזיכרון והמתנה לסיום החישוב הקודם.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

במאמר שפורסם ב-Hugging Face, צוות NVIDIA מציג את Nemotron-Labs Diffusion, משפחת מודלים שמנסה לפרוץ את המגבלה הזו באמצעות מודלי שפה בדיפוזיה. במקום לייצר טקסט באופן ליניארי בלבד, המודל מסוגל לייצר מספר טוקנים במקביל, לשפר אותם בשלבים, ואף לתקן חלקים שכבר נוצרו. זו לא רק אופטימיזציה טכנית. זו הצעה לארכיטקטורת עבודה אחרת עבור יישומי AI שבהם זמן תגובה ועלות תשתית קובעים אם מוצר יכול להגיע לפרודקשן.

שלושה מצבי יצירה במודל אחד

החידוש המרכזי של Nemotron-Labs Diffusion הוא השילוב בין שלוש שיטות יצירה תחת אותו מודל. במצב אוטורגרסיבי הוא מתנהג כמו LLM רגיל, כך שמפתחים יכולים להשתמש בו בתהליכי עבודה מוכרים. במצב דיפוזיה הוא יוצר בלוקים של טקסט ומלטש אותם בהדרגה. במצב ספקולציה עצמית, המודל משתמש בדיפוזיה כדי להציע כמה טוקנים קדימה, ואז מאמת אותם בפענוח אוטורגרסיבי.

המשמעות העסקית ברורה: ארגונים לא צריכים להמר על פרדיגמה חדשה ולשכתב את כל שכבת האפליקציה. הם יכולים לפרוס את אותו checkpoint בכמה מצבים, לבחור בין דיוק, מהירות ועלות, ולהתאים את ההתנהגות לסוג המשימה. למשל, עוזר קוד יכול להעדיף מהירות חזקה בהשלמות קצרות, בעוד מערכת מסמכים משפטיים תעדיף אימות שמרני יותר.

הביצועים מרשימים, אבל החשיבות היא בתשתית

לפי הנתונים שפורסמו, גרסת Nemotron-Labs Diffusion 8B מציגה שיפור דיוק ממוצע של 1.2% מול Qwen3 8B, לצד קפיצה משמעותית ביעילות הפענוח. מצב הדיפוזיה מגיע עד פי 2.6 במדד טוקנים למעבר קדמי, בעוד מצב הספקולציה העצמית מגיע לפי 6 ואף פי 6.4 בתרחישים מסוימים. באינטגרציה עם SGLang דווח גם על כ-865 טוקנים לשנייה על חומרת B200, בערך פי 4 מקו בסיס אוטורגרסיבי באותו מבחן.

עם זאת, המספרים עצמם הם רק חלק מהסיפור. הבעיה המרכזית של תעשיית ה-AI כיום אינה בהכרח חוסר במודלים חכמים, אלא חוסר ביכולת להגיש אותם בזול, מהר ובקנה מידה רחב. אם דיפוזיה בשפה תצליח להפחית תלות בפענוח טוקן אחר טוקן, היא עשויה לשפר במיוחד תרחישים עם batch קטן, סוכני AI אינטראקטיביים, כלי פיתוח בזמן אמת ומערכות ארגוניות רגישות להשהיה.

קוד פתוח חלקי, רישוי מסחרי ושאלת האימוץ

NVIDIA משחררת מודלי טקסט בגדלים 3B, 8B ו-14B תחת רישיון פתוח ידידותי למסחר, לצד מודל חזותי-שפתי בגודל 8B תחת רישיון מחקרי יותר. בנוסף פורסם מתכון אימון במסגרת Megatron Bridge, והמודלים צפויים לקבל תמיכה ב-SGLang. אלה פרטים חשובים, משום שטכנולוגיית פענוח חדשה לא תנצח רק בזכות מאמר מחקרי, אלא בזכות שילוב יציב בשרתי inference, כלי ניטור, מנגנוני caching ותהליכי פריסה קיימים.

לא סוף ה-Transformer, אלא שכבת ביצועים חדשה

Nemotron-Labs Diffusion לא מבטל את המודל האוטורגרסיבי. להפך, הוא משתמש בו כבסיס ומוסיף יכולת דיפוזיה על גבי ידע שכבר נרכש באימון מוקדם. זו גישה פרגמטית מאוד: לא להחליף את כל עולם ה-LLM, אלא להרחיב אותו כך שיתאים טוב יותר לחומרה מודרנית ולדרישות מוצר אמיתיות.

אם המגמה הזו תבשיל, הקרב הבא בין מודלי AI לא יוכרע רק בשאלה מי עונה נכון יותר, אלא מי מצליח לענות מהר יותר, בזול יותר, ובצורה שמאפשרת למפתחים לשלוט בתקציב החישוב בזמן אמת. עבור NVIDIA, זה גם מסר אסטרטגי: עתיד ה-AI לא תלוי רק בגודל המודל, אלא באופן שבו המודל מנצל את ה-GPU.

שאלות נפוצות