
טרימינג למודלי AI: איך לצמצם מודלים רב לשוניים בלי אימון מחדש
טכניקת Trimming מציעה דרך פרקטית להקטין מודלי שפה, מודלי אמבדינג ומודלים מולטימודליים באמצעות קיצוץ אוצר המילים בלבד. הניסוי הרחב שפורסם סביב 5,526 מודלים מצביע על פוטנציאל עסקי משמעותי: פחות זיכרון, פחות עלויות ולעיתים ביצועים דומים או טובים יותר.
קיצוץ אוצר מילים הופך לכלי אסטרטגי במודלי AI
בעידן שבו ארגונים מנסים להריץ מודלי בינה מלאכותית על תשתיות זולות יותר, קרובות יותר למשתמש ולעיתים גם מקומיות, טכניקת Trimming מקבלת משמעות חדשה. במאמר שפורסם בבלוג Hugging Face מציגים לואיק בורדואה ועמיתיו ניסוי רחב היקף שמדגים כיצד ניתן להקטין מודלים רב לשוניים באמצעות הסרת טוקנים שאינם רלוונטיים לשפה או למשימה, בלי לאמן מחדש את המודל ובלי להשתמש ב-GPU.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
בניגוד ל-Pruning, שמנסה להסיר שכבות או משקלים מתוך ליבת המודל, Trimming נוגע בעיקר בשכבת האמבדינג ובטוקנייזר. כלומר, המודל עצמו נשאר כמעט כשהיה, אבל אוצר המילים שלו מצטמצם. אם מודל רב לשוני מחזיק מאות אלפי טוקנים כדי לתמוך בעשרות או מאות שפות, ארגון שפועל רק בעברית, צרפתית או הולנדית אינו בהכרח צריך לשאת את כל המטען הזה בכל הרצה.
למה זה חשוב לעסקים ולא רק לחוקרים
המשמעות העסקית ברורה: פחות פרמטרים פירושם צריכת זיכרון נמוכה יותר, פריסת מודלים קלה יותר ועלויות תשתית נמוכות יותר. בחלק מהניסויים דווחו צמצומים דרמטיים, במיוחד במודלי אמבדינג ו-CLIP, שבהם הקטנת אוצר המילים יכולה להפחית עשרות אחוזים ואף יותר מגודל המודל. עבור חברות שמריצות חיפוש סמנטי, סיווג תמונות, מערכות המלצה או עיבוד מסמכים בהיקפים גדולים, מדובר בהבדל שיכול להתבטא ישירות בעלות ענן חודשית.
הנקודה המעניינת ביותר היא שהביצועים לא בהכרח נפגעים. במודלי אמבדינג מסוימים, ובמיוחד כאשר נשמרים 32,768 טוקנים, התוצאות היו דומות למקור ולעיתים אף מעט טובות יותר. ההסבר הסביר הוא שהסרת טוקנים נדירים או רועשים מצמצמת הפרעות סטטיסטיות. עם זאת, זו אינה נוסחת קסם. כאשר שכבות נוספות יושבות מעל שכבת האמבדינג, כפי שנצפה בחלק ממודלי embeddinggemma, הקיצוץ עלול לפגוע בביצועים.
Trimming מול Distillation ו-Quantization
ההשוואה החשובה ביותר היא מול Distillation, שיטה יקרה בהרבה שבה מאמנים מודל קטן ללמוד ממודל גדול. Trimming אינו מחליף דיסטילציה בכל מצב, אבל כאשר יעד הצמצום דומה, הוא עשוי להיות עדיף משום שהוא רץ בדקות על מעבד רגיל. לאחר מכן אפשר לבצע Fine-tuning על המודל המצומצם, ובשל גודלו הקטן יותר גם האימון הזה מהיר וחסכוני יותר.
מול Quantization, התמונה מורכבת אך מעודדת. קוונטיזציה מפחיתה דיוק מספרי של משקלים, למשל ל-BF16 או INT8, בעוד Trimming מפחית את מספר הפרמטרים עצמם. לכן השיטות אינן מתחרות בהכרח אלא משלימות. במודלי ראייה ושפה מסוג CLIP, השילוב בין שתי הגישות נראה אטרקטיבי במיוחד: גם ירידה גדולה בנפח וגם שמירה כמעט מלאה על התפוקה.
המגבלה הגדולה: כמה טוקנים באמת צריך
השאלה שנותרה פתוחה היא מהו גודל אוצר המילים האופטימלי. 16,384 טוקנים יכולים להספיק למשימות מסוימות, אך 32,768 נראים כבחירה בטוחה יותר עבור שימוש כללי. שפות שונות מתנהגות אחרת, ומשימות שונות דורשות כיסוי שונה. עברית, למשל, תדרוש בדיקה ייעודית ולא ניתן להניח שהתנהגותה תהיה זהה לאנגלית, הולנדית או קוריאנית.
השורה התחתונה היא ש-Trimming מסמן כיוון חשוב בתעשיית ה-AI: התאמת מודלים לצורך האמיתי במקום שימוש עיוור במודלים כלליים וכבדים. בעולם שבו יעילות, פרטיות ועלות הופכות לקריטיות, קיצוץ אוצר מילים עשוי להפוך מאופטימיזציה שולית לכלי מרכזי בארכיטקטורת AI ארגונית.
