
חומרה חדשה לבינה מלאכותית: שלוש גישות לשבירת מחסום הזיכרון
מודלי בינה מלאכותית גדלים בקצב מהיר, אך מחסום פיזי הנקרא 'קיר הזיכרון' מאט את הביצועים ומייקר את התשתיות. שלוש גישות טכנולוגיות יכולות לשנות את המצב: חישוב בתוך הזיכרון, רשתות עצביות בהשראת המוח, ועיבוד בדיוק חלקי. המשמעות עבור חברות ישראליות העוסקות ב-edge AI ובמכשור רפואי היא משמעותית.
כשהחומרה הופכת לצוואר הבקבוק של הבינה המלאכותית
במשך השנים האחרונות, הדיון סביב בינה מלאכותית התמקד בעיקר בגודל המודלים ובאיכות הנתונים. אך כעת עולה אתגר שונה לחלוטין: ה-GPU החזק ביותר לא יכול לחמוק מחוקי הפיזיקה. ה"קיר הזיכרון" - פקק בתעבורת הנתונים בין יחידות הזיכרון למעבדים - הופך למגבלה תפעולית ממשית, כפי שמנתח פרופ' קאושיק רוי, פרופסור מובחר באוניברסיטת פרדו, במאמר שפורסם השבוע על ידי הפורום הכלכלי העולמי.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
הנתונים מדברים בעד עצמם: מודלי שפה גדלו פי 5,000 במשך ארבע שנים בלבד. בכל פעולת חישוב, הנתונים צריכים לנסוע בין הזיכרון למעבד ובחזרה - ותעבורה זו צורכת זמן ואנרגיה עצומים. הבעיה מקבלת ממד כפול: מחד, עלויות התשתית של מרכזי הנתונים עולות בקצב שאינו בר-קיימא; מאידך, יישומים קריטיים - רכבים אוטונומיים, מכשירים רפואיים, רחפנים לחילוץ - זקוקים לעיבוד מקומי מהיר שאינו תלוי בחיבור לענן.
גישה ראשונה: חשב בתוך הזיכרון
מחשבים מודרניים פועלים לפי ארכיטקטורת פון נוימן - זיכרון ועיבוד פיזית נפרדים. כל פעולה דורשת העברת מידע הלוך ושוב. מערכות compute-in-memory מציעות פתרון אחר: ביצוע פעולות חישוב בתוך מערך הזיכרון עצמו או בסמוך אליו. הפחתת תעבורת הנתונים מקצרת את זמן הגישה ומפחיתה צריכת אנרגיה, שני גורמים קריטיים לצמיחת מערכות AI בקנה מידה גדול.
גישה שנייה: ללמוד מהמוח האנושי
רשתות עצביות מלאכותיות רגילות מחשבות ברציפות - גם כאשר אין שינוי משמעותי בקלט. המוח הביולוגי פועל אחרת: הנוירונים שקטים ברוב הזמן, ו"יורים" רק בתגובה לשינוי. גישה זו, המכונה spiking neural networks, משלבת חישוב מונע-אירועים עם חיישנים מבוססי אירוע. מצלמה רגילה, למשל, מצלמת פריים מלא בכל רגע. מצלמה מבוססת-אירוע מתעדת רק שינויים בפיקסלים - תנועה, הבדלי בהירות - וכך מפחיתה דרמטית את נפח הנתונים לעיבוד. עבור רחפן חילוץ הסורק שטח הרוס עם סוללה מוגבלת, זהו הבדל קריטי.
גישה שלישית: דיוק יחסי לפי הצורך
לא כל חישוב בבינה מלאכותית זקוק לדיוק מלא. מודלים רבים סובלניים לשגיאות חישוב קטנות מבלי שביצועיהם הכוללים יפגעו. גישות stochastic ו-approximate computing מאפשרות להפחית את צריכת החשמל ואת עומס המעגלים על ידי שימוש בדיוק נומרי נמוך יותר שם שזה מתאפשר. עבור רכב אוטונומי או מכשיר לביש, מהירות תגובה ויעילות אנרגטית עשויות להיות חשובות יותר מדיוק מוחלט בכל שלב.
שילוב הגישות: עיצוב משותף של חומרה ואלגוריתם
האתגר האמיתי אינו לבחור גישה אחת אלא לשלב ביניהן. עיצוב עתידי של מעבדי AI יצטרך להתייחס לאדריכלות הזיכרון, אסטרטגיית הדיוק, החיישנים ומודל הלמידה כמכלול אחד - מה שמכונה hardware-algorithm co-design. כל עומס עבודה ידרוש שילוב שונה.
עבור חברות ישראליות הפועלות בתחומים כמו רפואה דיגיטלית, ביטחון ואוטומציה תעשייתית, ההשלכות ממשיות: מכשירי ניטור רפואי הזקוקים לעיבוד מקומי, מערכות חזון ממוחשב לרכבים, ורחפנים ביטחוניים - כולם עשויים להרוויח מדור חדש של חומרה יעילה יותר. חברות כמו Mobileye, שמפתחת שבבים לרכב אוטונומי, וחברות ה-fabless הישראליות נמצאות בצומת הזה ממש.
המסקנה ברורה: הקפיצה הבאה ב-AI לא תגיע בהכרח ממודלים גדולים יותר, אלא ממכונות חכמות ויעילות יותר להריץ אותם.
