DeepSeek מנסה להחליף את החיבור השיורי: פריצת דרך בארכיטקטורת מודלי שפה גדולים

DeepSeek מנסה להחליף את החיבור השיורי: פריצת דרך בארכיטקטורת מודלי שפה גדולים

14 ביוני 2026
מערכת זירת AI
מקור:זירת AI

חיבורים שיוריים הם אחד היסודות הוותיקים ביותר של למידה עמוקה, אך בעידן מודלי השפה הענקיים הם הופכים לצוואר בקבוק. מחקר חדש של DeepSeek מציע מנגנון mHC שמרחיב את זרימת המידע ברשתות נוירונים בלי לאבד יציבות, ויכול להשפיע על הדור הבא של בינה מלאכותית.

החלק הישן שממשיך להחזיק את מהפכת ה-AI

כמעט כל מודל בינה מלאכותית מודרני, ממערכות ראייה ממוחשבת ועד מודלי שפה גדולים, נשען על רעיון שהוצג לפני כעשור: החיבור השיורי. זהו מנגנון פשוט לכאורה, שבו שכבה ברשת אינה מחליפה את הקלט שקיבלה אלא מוסיפה עליו טרנספורמציה חדשה. בפועל, הפשטות הזו היא שאפשרה לאמן רשתות עמוקות מאוד בלי שהגרדיאנטים ייעלמו או יתפוצצו.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

אבל מה שעבד היטב עבור ResNet ועבור דורות מוקדמים של Transformers מתחיל להיראות מוגבל בעידן שבו מודלים מגיעים לעשרות ומאות מיליארדי פרמטרים. הבעיה אינה רק מספר השכבות או גודל הזיכרון, אלא הדרך שבה מידע עובר בין שכבות. הזרם השיורי הקלאסי דומה לצינור ברוחב קבוע: כל הקשר, ייצוג, זיכרון פנימי ורמז סמנטי חייבים להידחס לאותו מרחב וקטורי.

DeepSeek והניסיון להרחיב את צינור המידע

במאמר שפורסם ב-Towards Data Science, מוליק גופטה מנתח את עבודת DeepSeek-AI על Manifold-Constrained Hyper-Connections, או בקיצור mHC. הרעיון המרכזי הוא לאפשר לרשת להחזיק כמה זרמי מידע מקבילים במקום זרם שיורי יחיד. הגישה הזו ממשיכה כיוון שהוצע קודם לכן על ידי חוקרי ByteDance תחת השם Hyper-Connections, שבו מרחיבים את המרחב השיורי פי כמה וממפים אותו בחזרה לשכבות החישוב הרגילות.

ההיגיון העסקי והטכנולוגי ברור: אם אפשר להגדיל את יכולת הייצוג של המודל בלי להגדיל משמעותית את שכבות ה-Attention וה-MLP, מקבלים מודל חכם יותר בעלות חישובית מתונה יותר. עבור חברות שמאמנות מודלים בהיקפים של מיליוני דולרים, אפילו שיפור קטן ביעילות הארכיטקטורה יכול להפוך ליתרון תחרותי.

הבעיה: יותר קיבולת, פחות יציבות

Hyper-Connections רגילים מגיעים עם מחיר כבד. מטריצות המיפוי החופשיות בין הזרמים עלולות לשבור את תכונת הזהות שהפכה את החיבור השיורי המקורי ליציב כל כך. כאשר מטריצה אחת מגבירה מעט את האות, והדבר חוזר על עצמו לאורך עשרות שכבות, ההגברה יכולה להפוך להתפוצצות מספרית. לפי הניתוח, בגרסה בלתי מוגבלת של HC האות עשוי לגדול פי אלפים, מה שמוביל לקפיצות בגרדיאנטים ולחוסר יציבות באימון.

כאן נכנס החידוש של DeepSeek. במקום לאפשר למטריצת הזרם השיורי ללמוד כל דבר, החוקרים כופים עליה להיות מטריצה דו-סטוכסטית, כלומר מטריצה לא שלילית שכל שורה וכל עמודה בה מסתכמים ל-1. האילוץ הזה ממקם אותה בתוך פוליטופ בירקהוף ומבטיח שהמטריצה תערבב מידע בין הזרמים בלי לנפח את אנרגיית האות.

מתמטיקה יפה אינה מספיקה בלי הנדסת מערכות

כדי להפוך מטריצה רגילה לדו-סטוכסטית בזמן אימון נעשה שימוש באלגוריתם Sinkhorn-Knopp, אך כאן מתגלה האתגר האמיתי. הרחבת הזרם השיורי מגדילה את תנועת הנתונים בזיכרון ה-GPU, ובמודלים מודרניים צוואר הבקבוק הוא לעיתים קרובות לא פעולת הכפל עצמה אלא הקריאה והכתיבה לזיכרון.

DeepSeek פתרה זאת באמצעות איחוד פעולות לליבות GPU מותאמות, חישוב מחדש סלקטיבי של נתוני ביניים ותזמון שמסתיר תקשורת בין מאיצים בזמן שהמודל מבצע חישובי Attention כבדים. התוצאה המרשימה היא תוספת זמן אימון של כ-6.7% בלבד לעומת מודל בסיסי, נתון נמוך יחסית בהתחשב בהרחבת יכולת הייצוג.

למה זה חשוב לתעשיית הבינה המלאכותית

בניסויים על מודלים המבוססים על DeepSeek-V3, עד קנה מידה של 27 מיליארד פרמטרים, mHC שיפר יציבות אימון והציג ביצועים עדיפים ברוב מבחני ההערכה, במיוחד במשימות הסקה. זהו סימן חשוב: ייתכן שהדור הבא של מודלי שפה לא יתקדם רק באמצעות יותר דאטה, יותר GPU ויותר פרמטרים, אלא באמצעות תכנון מחדש של צינורות המידע הפנימיים.

עם זאת, האימוץ לא יהיה מיידי. mHC דורש ליבות GPU מותאמות, ניהול זיכרון מתקדם ושינויים בתשתית האימון. עבור מעבדות קטנות זהו חסם משמעותי, אך עבור חברות כמו DeepSeek, OpenAI, Anthropic, Google DeepMind ו-Meta, מדובר בדיוק בסוג החדשנות שמבדיל בין עוד מודל גדול לבין ארכיטקטורה יעילה יותר.

המסר הרחב יותר הוא שהחיבורים השיוריים אינם מתים, אבל הם כבר אינם מובנים מאליהם. אחרי עשור שבו נראו כמו תשתית קבועה, גם הם הופכים לשדה תחרות מרכזי במרוץ לבניית מודלי AI חזקים, יציבים וזולים יותר לאימון.

שאלות נפוצות