מיקרוסופט חוקרת קשב חסכוני למודלי AI: הדרך לעיבוד מיליון טוקנים בלי צוואר בקבוק

מיקרוסופט חוקרת קשב חסכוני למודלי AI: הדרך לעיבוד מיליון טוקנים בלי צוואר בקבוק

30 במאי 2026
מערכת זירת AI
מקור:זירת AI

מחקר חדש על Interleaved DeepSeek Sparse Attention מציע גישה יעילה יותר להרצת מודלי שפה ארוכי הקשר. במקום לחפש בכל המעבדים את הטוקנים החשובים ביותר באופן גלובלי, השיטה מפזרת את ההקשר ומאפשרת בחירה מקומית כמעט מדויקת, עם פחות סנכרון ועלות חישובית נמוכה יותר.

האתגר הבא של מודלי שפה: לא רק חלון הקשר, אלא איך מפענחים אותו

מודלי שפה גדולים כבר אינם נמדדים רק במספר הפרמטרים שלהם, אלא גם ביכולת שלהם לקרוא, לזכור ולעבד הקשרים עצומים. חלון הקשר של מיליון טוקנים פותח תרחישים עסקיים מרשימים: ניתוח מאגרי קוד שלמים, חיפוש משפטי במסמכים ארוכים, עבודה על תיקי מטופלים מורכבים, קריאת חוזים מרובי נספחים וסוכני AI שמנהלים היסטוריית עבודה מלאה לאורך זמן. אבל מאחורי ההבטחה הזו מסתתרת בעיה הנדסית קשה: שלב הפענוח בזמן אמת הופך יקר, איטי ותלוי מאוד בתקשורת בין כרטיסי GPU.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

המחקר של ייפאן גואו, ויי צוי ופנג צ'נג מתמקד בדיוק בנקודת הכאב הזו. גישות קשב דליל דינמי ברמת הטוקן, כמו DeepSeek Sparse Attention, מנסות לבחור בכל צעד רק את טוקני המפתח החשובים ביותר במקום לחשב קשב מלא מול כל ההקשר. מבחינת איכות מודל, זו גישה חזקה יותר מחלוקה גסה לבלוקים, משום שהיא מסוגלת לזהות טוקנים רלוונטיים מכל מקום במסמך. הבעיה היא שהבחירה המדויקת של Top-K גלובלי על פני כמה כרטיסי GPU מחייבת סנכרון יקר או שליפה כפולה של מידע, וכך היתרון החישובי נשחק דווקא בהקשרים הארוכים ביותר.

למה Top-K מדויק הופך לבעיה תשתיתית

במרכז המאמר עומדת הבחנה חשובה: לא כל טוקן שנוסף לרשימת ההקשר משנה בפועל את תוצאת הקשב. בגלל תכונות פונקציית Softmax, טוקנים בעלי רלוונטיות שולית תורמים מעט מאוד לפלט הסופי. מכאן עולה רעיון פרגמטי: במקום להילחם על בחירה גלובלית מושלמת בכל צעד, אפשר לעצב את פריסת הנתונים כך שבחירות מקומיות בכל GPU יכסו כמעט לחלוטין את הטוקנים החשובים באמת.

הגישה המוצעת, Interleaved DeepSeek Sparse Attention או IDSA, מפזרת את הטוקנים בין המעבדים בצורה משולבת. כל מכשיר מבצע בחירת Top-m מקומית בלבד, ללא צורך במיזוג רב שלבי וכבד בין כל הכרטיסים. כאשר הפריסה נעשית נכון, האיחוד של הבחירות המקומיות מצליח לשחזר כמעט את קבוצת ה-Top-K הגלובלית, אך עם עלות תקשורת נמוכה בהרבה. במילים אחרות, זו אינה רק אופטימיזציה מתמטית, אלא שינוי ארכיטקטוני בדרך שבה מריצים מודלים ארוכי הקשר בסביבה מבוזרת.

המשמעות העסקית: זיכרון ארוך הופך למוצר אפשרי

אם גישות מסוג IDSA יבשילו וייכנסו למערכות ייצור, ההשפעה עשויה להיות רחבה. ארגונים לא רוצים רק מודל שמסוגל תאורטית לקבל מיליון טוקנים, אלא שירות שמחזיר תשובה במהירות סבירה ובעלות צפויה. פתרון שמפחית סנכרון בין GPU יכול לשפר השהיה, להגדיל תפוקה ולהוריד עלויות ענן, שלושה מדדים קריטיים בפריסת AI ארגוני.

הנקודה המעניינת היא שהמחקר מסמן מגמה רחבה יותר בתעשייה: ההתקדמות הבאה ב-AI לא תגיע רק ממודלים גדולים יותר, אלא ממערכות חכמות יותר להפעלה שלהם. קשב דליל, ניהול זיכרון, חלוקת עומסים וקומפילציה למאיצים הופכים לשכבת החדשנות המרכזית. עבור ספקיות ענן, חברות שבבים וסטארטאפים בתחום התשתיות, זו זירה אסטרטגית לא פחות מפיתוח המודל עצמו.

לא פתרון קסם, אבל כיוון חשוב

חשוב להדגיש כי IDSA אינה מבטלת את הצורך בהערכת איכות קפדנית. במטלות שבהן פרט נדיר אחד משנה את התשובה, למשל גילוי סתירה משפטית או איתור באג אבטחה, גם אובדן קטן של טוקן רלוונטי עלול להיות משמעותי. לכן השאלה המרכזית תהיה איזון בין דיוק, עלות והשהיה לפי סוג היישום.

ובכל זאת, הכיוון ברור: עתיד מודלי השפה ארוכי ההקשר תלוי ביכולת להפוך זיכרון עצום למשאב יעיל, לא רק למספר מרשים בשקף שיווקי. המחקר הזה מצביע על דרך אפשרית להפוך הקשר של מיליון טוקנים מתצוגת יכולת יקרה לתשתית שימושית באמת.

שאלות נפוצות