
גוגל מאיצה את Gemini Nano בפיקסל: Multi-Token Prediction מביא AI מהיר וחסכוני יותר במכשיר
גוגל מציגה שיטה חדשה להאצת Gemini Nano במכשירי Pixel 9 ו-Pixel 10 באמצעות Multi-Token Prediction על מודלים קיימים וקפואים. המשמעות: יצירת טקסט מהירה יותר, פחות צריכת סוללה, ושדרוג חשוב ליכולת להריץ בינה מלאכותית פרטית ויעילה ישירות על הסמארטפון.
למה ההאצה של Gemini Nano חשובה לשוק ה-AI במובייל
המרוץ האמיתי בבינה מלאכותית כבר אינו מתנהל רק בענן. הוא עובר לכיס של המשתמש. ככל שמודלים כמו Gemini Nano הופכים לחלק ממערכת ההפעלה של הטלפון, היכולת לייצר סיכומי התראות, לתקן ניסוח הודעות או להציע תגובות חכמות בלי לשלוח מידע אישי לשרת חיצוני הופכת ליתרון תחרותי מרכזי. בפוסט של Google Research נחשפה גישה חדשה שמטרתה לפתור את אחת הבעיות הקשות ביותר של AI במכשיר: איך לגרום למודל שפה גדול לפעול מהר, בלי לשחוק את הסוללה ובלי לחרוג ממגבלות הזיכרון.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
החידוש מתמקד ב-Multi-Token Prediction, או חיזוי כמה אסימונים קדימה, עבור Gemini Nano v3 במכשירי Pixel 9 ו-Pixel 10. במקום שהמודל יפיק כל מילה או חלק מילה בצעד נפרד, כפי שמקובל במודלים אוטורגרסיביים, הארכיטקטורה החדשה מאפשרת לו להציע רצף קצר של אסימונים עתידיים ולאמת אותם במקביל. כאשר החיזוי נכון, המשתמש מקבל תשובה מהר יותר. כאשר הוא שגוי, מנגנון האימות מחזיר את המודל למסלול המקורי, ולכן איכות הפלט אינה נפגעת.
היתרון של מודל קפוא: האצה בלי לפתוח מחדש את תהליך האימון
הנקודה המעניינת ביותר במהלך של גוגל אינה עצם השימוש בחיזוי ספקולטיבי, אלא האופן שבו הוא הותאם למודל שכבר נמצא בפריסה. במקום לאמן מחדש את Gemini Nano כולו או לבנות מודל טיוטה נפרד לכל משימה, גוגל מקפיאה את משקלי המודל הראשי ומוסיפה לו ראש חיזוי קל יחסית. הראש הזה לומד להשתמש בייצוגים הפנימיים העמוקים שהמודל הראשי כבר חישב, וכך הוא נהנה מהבנה סמנטית עשירה יותר מזו של מודל טיוטה חיצוני.
מבחינה עסקית והנדסית, זו נקודה קריטית. מודלים במכשיר אינם נהנים ממשאבי הענן, וכל מאות מגה-בייט בזיכרון משפיעים על ביצועים, חום וחיי סוללה. גוגל מדווחת כי הארכיטקטורה החדשה חוסכת עד 130 מגה-בייט לכל מופע לעומת טיוטן עצמאי, בין היתר בזכות הימנעות משכפול מטמונים ופרמטרים ייעודיים. במובייל, חיסכון כזה אינו אופטימיזציה שולית אלא תנאי להפיכת תכונות AI למוצר יומיומי יציב.
ארכיטקטורת Zero-Copy והמשמעות למפתחים
אחד המרכיבים החשובים בגישה הוא שימוש במטמון ה-KV של המודל הראשי ללא העתקה מיותרת. ראש ה-MTP אינו בונה לעצמו היסטוריה נפרדת של ההקשר, אלא ניגש אל המצב הפנימי שכבר חושב על ידי Gemini Nano. בכך נחסכת השהיית טעינה ראשונית של מודל הטיוטה, ומצטמצם העומס על רוחב הפס של הזיכרון, שהוא צוואר בקבוק מרכזי בטלפונים.
למפתחים מדובר בשינוי משמעותי. במקום לתחזק מודלי טיוטה מותאמים לכל אפליקציה או תרחיש, ניתן לקבל האצה רוחבית מתוך שכבת ההסקה עצמה. גוגל מציינת שבתרחישי ייצור כמו סיכומי התראות ובדיקת ניסוח, המערכת מצליחה לחזות בממוצע כמעט שני אסימונים נוספים בכל מעבר חישוב. במכשירי Pixel 9 נרשמו שיפורי מהירות של 50% ויותר בתרחישים מסוימים בהשוואה למצב שלפני העדכון.
השלב הבא: AI מקומי כסטנדרט, לא פיצ׳ר פרימיום
המסר הרחב יותר הוא שהעתיד של AI במובייל לא ייקבע רק לפי גודל המודל, אלא לפי יעילות מחסנית ההרצה כולה. אם גוגל תמשיך לשלב טכניקות כמו חיזוי מקבילי, אימות גמיש וניהול הסתעפויות לשוניות, מכשירי קצה יוכלו להריץ יכולות מתקדמות יותר מבלי להסתמך תמיד על הענן. זהו צעד חשוב בדרך למחשוב אישי שבו פרטיות, מהירות וחוויית משתמש אינם מתנגשים זה בזה, אלא נבנים יחד בתוך אותה ארכיטקטורה.
