
אולי לא נצטרך יותר מודלי AI שאינם מדברים את שפת המשתמש?
מחקר חדש שפורסם לאחרונה בשם Soro: A Lightweight Foundation Model and Chatbot for Tajik מצא כי ניתן לבנות LLM מותאם לשפת מיעוט - הטג'יקית - תוך שמירה על ביצועים תחרותיים באנגלית, עם דגש על פריסה במכשירים עם משאבים מוגבלים. המשמעות הפרקטית: מדינות ואוכלוסיות שנעדרות ייצוג בעולם ה-AI יכולות לקבל כלים לשוניים איכותיים ללא תלות בחברות הענק.
כשה-AI לא מדבר את שפתך - הבעיה שנותרת בשוליים
רוב פריצות הדרך בתחום ה-LLM מתרכזות בשפות דומיננטיות: אנגלית, סינית, ספרדית. שפות עם פחות ממאה מיליון דוברים נותרות לרוב ללא מענה - אין מספיק נתוני אימון, אין Benchmarks מוסכמים, ואין מודלים מותאמים לפריסה בשטח. הטג'יקית, שפת כ-10 מיליון איש בטג'יקיסטן, היא דוגמה קלאסית לפער הזה.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
צוות חוקרים מאוניברסיטת קורנל, בהובלת Stanislav Liashkov ועמיתיו, פרסם לאחרונה את Soro - משפחת LLMs ייעודית לשפה הטג'יקית, שתוכננה מלכתחילה לתנאי פריסה מאתגרים: חיבורי אינטרנט אטיים, חומרה מוגבלת ותשתיות ענן חלקיות, המאפיינות את המדינה.
הגישה הטכנית: Continual Pretraining על בסיס Gemma 3
החוקרים לא בנו מודל מאפס. נקודת המוצא הייתה Gemma 3, מודל קוד-פתוח של Google, שעליו בוצע Continual Pretraining ייעודי לטג'יקית. קורפוס האימון כלל כ-1.9 מיליארד טוקנים שאוצרו בקפידה ממקורות מגוונים: טקסט מהאינטרנט, מסמכי PDF ומאטריאלים חינוכיים המותאמים לתכנית הלימודים המקומית.
שלב שני כלל Supervised Instruction Tuning על 40 אלף דוגמאות בסגנון מורה-תלמיד בטג'יקית - מה שמכשיר את המודל לשיחה טבעית ולא רק להשלמת טקסט.
תוצאות הניסויים, כפי שמדווחים החוקרים, מראות כי Soro מצליח לעלות בביצועים על Gemma 3 בגרסאות זהות בגודלן - ואת זאת תוך שמירה על ביצועי אנגלית תחרותיים ב-Benchmarks סטנדרטיים כמו MMLU ו-HellaSwag.
קוונטיזציה לקצה: FP8 ו-INT4
אחד האתגרים המשמעותיים בפריסת מודלים בשטח הוא צריכת הזיכרון. החוקרים בחנו קוונטיזציה ב-FP8 וב-INT4 - שיטות לדחיסת המשקלים של המודל - ומצאו כי הן שומרות על רוב השיפורים בטג'יקית תוך הפחתה ניכרת בדרישות הזיכרון. המשמעות: ניתן לפרוס את Soro על מכשירים זולים בבתי ספר ובאוניברסיטאות בטג'יקיסטן, גם ללא חיבור ענן יציב.
Benchmarks שנבנו מאפס לטג'יקית
בהיעדר Benchmarks מקובלים לטג'יקית בפלטפורמות הגדולות, הצוות יצר ערכת מבחנים חדשה המכסה ידע כללי, כשירות לשונית ותחומי בחינות קבלה לבתי ספר ולאוניברסיטאות - ופרסם אותה כקוד פתוח ב-Hugging Face. מהלך זה מאפשר לקהילת המחקר להמשיך ולפתח מודלים מתחרים ולהשוות ביניהם בצורה שקופה ומבוססת.
מה המשמעות לשוק הטכנולוגיה הרחב?
המחקר מדגים גישה שיש לה השלכות מעשיות מעבר לטג'יקיסטן. עבור צוותי פיתוח המעוניינים לפרוס AI בשפות כמו ערבית מדוברת, אמהרית, בנגלית או שפות ילידיות - המתודולוגיה של Soro מציעה תבנית עבודה: Continual Pretraining על מודל קיים, קורפוס מאוצר בקפידה, ו-Instruction Tuning על נתוני שיחה בשפת היעד.
בישראל, שבה פועלים מרכזי מחקר ופיתוח של חברות כמו Google, Microsoft, Amazon ו-Meta, יש עניין ישיר בפיתוח יכולות שפה לשפות שאינן מקבלות מענה מספק - לרבות ערבית ישראלית, אמהרית ורוסית. המתודולוגיה שהוצגה במחקר, ובמיוחד הגישה לבניית Benchmarks ייעודיים, יכולה לשמש כמודל פעולה לפרויקטים דומים בסביבה המקומית.
הפרויקט כבר נמצא בפיילוט פעיל במגזר החינוך בטג'יקיסטן, עם תוכניות הרחבה לבתי ספר נוספים - ממצא שמוכיח כי מחקר אקדמי יכול לעבור לפריסה מעשית בפרק זמן קצר כאשר הצורך השטחי ברור וההתאמה הלשונית מוקפדת.
