
קרדיט תמונה: AI Generated / Research Based
Gemma 4 של גוגל: AI חזק שרץ על המחשב שלך בחינם
גוגל שחררה את Gemma 4, משפחת מודלים פתוחים עם רישיון Apache 2.0 שמאפשר שימוש מסחרי חופשי. המודל מציג ביצועים תחרותיים מול GPT ו-Claude, רץ על חומרת צרכן רגילה, ומאפשר לראשונה פריסה מקומית אמיתית לחברות וליחידים שלא רוצים לשלוח נתונים לענן.
כשגוגל מחליטה לשחרר את המפלצת
באפריל 2026 שחררה גוגל את Gemma 4, ובשקט יחסי עשתה משהו שהתעשייה לא ציפתה לו: הציעה מודל AI ברמה שמתחרה בפרונטייר, פתוח לחלוטין, שניתן להוריד ולהריץ על מחשב ביתי. לא בענן. לא עם מנוי חודשי. לא עם תנאי שימוש מגבילים.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
הרישיון הוא Apache 2.0, הסטנדרט הפתוח ביותר בעולם הקוד הפתוח. כל שימוש מסחרי מותר. אין תמלוגים, אין הגבלות על פריסה, אין צורך בהסכם עם גוגל. זה לא "open-ish" כמו שחלק מהמתחרים אוהבים להציג את עצמם. זה פתוח לגמרי.
ארבעה מודלים, כל אחד למשהו אחר
המשפחה מגיעה בארבע גרסאות שמכסות טווח רחב של צרכים ותקציבים:
- E2B - הגרסה הקלה ביותר, 4.6GB בלבד ב-8bit. רצה על Raspberry Pi ועל טלפונים.
- E4B - האופציה הטובה ביותר ללפטופ, דורשת 7.5GB RAM של GPU.
- 26B A4B MoE - ארכיטקטורת Mixture of Experts שמפעילה רק 4 מיליארד פרמטרים בכל token, למרות שיש לה 26 מיליארד סה"כ. חכמה וזולה לריצה.
- 31B Dense - הגרסה החזקה ביותר, מדורגת במקום השלישי בין כל המודלים הפתוחים בעולם.
הנתון שמעניין כאן הוא הגרסת MoE: למרות שהיא גדולה יותר מה-31B Dense מבחינת פרמטרים כוללים, היא מהירה בהרבה בזמן ריצה כי היא לא "קוראת" את כל המשקולות בכל פעם. זה מסביר איך אפשר לקבל ביצועים גבוהים על חומרה צנועה.
ביצועים: לא עוד "טוב לקוד פתוח"
השוואה ישירה לבין Gemma 4 31B ל-GPT-4 מראה פער של 2.1 נקודות בלבד ב-MMLU, מדד הידע הכללי הסטנדרטי. במתמטיקה, קפיצת הדורות בין Gemma 3 ל-4 היא פשוט דרמטית: ב-AIME 2026 הגרסה הקודמת קיבלה 20.8%, הגרסה החדשה מגיעה ל-89.2%. זו לא שיפור מצטבר, זו קטגוריה אחרת.
בתכנות, ה-31B מגיע לדירוג ELO של 2,150 ב-Codeforces, שמקביל לרמת מתכנת תחרותי מנוסה. הגרסה הקודמת עמדה על 110. בפועל, זה אומר שמפתח ישראלי שעובד offline, בלי לשלוח קוד לענן, יכול כיום לקבל עזרה ברמה שקרובה ל-GitHub Copilot.
מול Claude 4.6 ו-GPT-5.4 בגרסאות הגדולות שלהם, Gemma 4 עדיין נמצאת מדרגה מתחת על מדדים מורכבים. אבל ההשוואה הנכונה היא לא "מי חכם יותר" - ההשוואה הנכונה היא מה אתה מקבל בחינם, מקומית, בלי לשלם לאיש.
למה זה רלוונטי בישראל
לחברות ישראליות שעובדות עם נתונים רגישים, המצב עד היום היה בעייתי: או ששולחים נתונים ל-OpenAI ול-Anthropic ומקווים לטוב, או שמשלמים הון על infrastructure פרטי עם מודלים שמפגרים בביצועים. Gemma 4 משנה את המשוואה.
עם הגרסה ב-4bit quantization, גם ה-31B Dense דורשת 17.4GB בלבד. כלומר שרת עם GPU סביר, או אפילו workstation ייעודי, מספיק. עבור סטארטאפים בתחומי רפואה, משפט, ביטחון וכל תחום שיש בו רגישות לפרטיות, זו לא אופציה נחמדה, זו פתרון שמאפשר להם להשתמש ב-AI בכלל.
כיצד מריצים אותה בפועל
הדרך הפשוטה ביותר להתחיל: Ollama. שלוש שורות בטרמינל ויש לך Gemma 4 רצה מקומית. למי שמעדיף ממשק גרפי, LM Studio מציע חווית drag-and-drop לבחירת מודל וקוונטיזציה. לסביבות ייצור, vLLM עם PagedAttention הוא הסטנדרט לשרתים.
המודל תומך בקלט מולטימודלי: טקסט, תמונות, וידאו, ואצל הגרסאות הקטנות גם אודיו. חלון ההקשר מגיע ל-256K tokens בגרסת ה-31B, מספיק לניתוח מסמכים ארוכים בשלמותם.
השורה התחתונה
Gemma 4 היא לא סתם עוד מודל פתוח. היא הוכחה שהפער בין open-source לפרופריאטרי מצטמצם בקצב שאף אחד לא ציפה לו. עבור מי שמחשב הפרטיות, העצמאות מספקי ענן, ועלויות תפעול הם שיקולים אמיתיים, המודל הזה הוא נקודת כניסה שכדאי לבדוק עוד השבוע.
