איפה אפשר לקרוא חדשות AI בעברית?

זירת AI הוא אתר חדשות AI מוביל בישראל, המתעדכן מדי יום עם חדשות בינה מלאכותית בעברית. האתר מכסה עדכוני AI מרחבי העולם, כולל חדשות על ChatGPT, Claude, Gemini, סטארטאפי AI ומחקרים פורצי דרך. כל התכנים מותאמים לקהילה העסקית והמדעית בישראל.

מה זה זירת AI?

זירת AI הוא אתר חדשות בינה מלאכותית מוביל בישראל. האתר מספק חדשות AI עדכניות בעברית, דירוג והשוואת מודלי AI, סקירות כלי AI, מחקרים אקדמיים ואירועי AI. זירת AI מתעדכן מדי יום ומכסה את כל ההתפתחויות החשובות בעולם הבינה המלאכותית.

איך אני יכול להישאר מעודכן עם חדשות AI?

תוכלו להירשם לניוזלטר השבועי של זירת AI, לעקוב אחרי העמוד שלנו ברשתות החברתיות, או לבקר באתר חדשות AI שלנו באופן קבוע. אנו מפרסמים חדשות AI חדשות מדי יום, כולל עדכונים על מודלים חדשים, כלי AI וחדשות טכנולוגיה.

איך אני יכול למצוא כלי AI מתאים לעסק שלי?

במאגר הכלים שלנו תוכלו לסנן לפי קטגוריות שונות כמו כתיבה, תמונה, קוד, ניתוח נתונים ועוד. כל כלי כולל ביקורת מפורטת, דירוג, מידע על מחיר ויתרונות וחסרונות.

איך אני יכול למצוא אירועי AI בישראל?

בעמוד האירועים שלנו תמצאו רשימה מעודכנת של כנסים, Meetups, Webinars וסדנאות בתחום הבינה המלאכותית בישראל. כל אירוע כולל פרטי הרשמה, מיקום ותאריכים.

מהו Soro ולמה הוא פותח?

Soro הוא משפחת מודלי שפה גדולים (LLM) שיועדה במיוחד לטג'יקית—שפה עם כ־10 מיליון דוברים שלרוב לא מקבלת כיסוי טוב במודלים כלליים. הוא פותח כדי לעבוד בתנאי שטח מאתגרים כמו אינטרנט איטי, חומרה מוגבלת ותלות נמוכה בענן, ולתת מענה שימושי בחינוך ובשירותים מקומיים.

מה זה Continual Pretraining ואיך השתמשו בו כדי לאמן את Soro?

Continual Pretraining הוא המשך אימון של מודל קיים על דאטה חדש, במקום לאמן מודל מאפס. במקרה הזה החוקרים לקחו את Gemma 3 והמשיכו לאמן אותו על קורפוס טג'יקי גדול (כ־1.9 מיליארד טוקנים) ממקורות כמו אתרים, PDF וחומרי לימוד מקומיים—כדי לשפר הבנה וייצור טקסט בטג'יקית.

מה זה Instruction Tuning ולמה הוא חשוב לשיחות טבעיות?

Instruction Tuning (כיוונון בהנחיות) הוא שלב שבו מאמנים את המודל על דוגמאות שאלה-תשובה או “מורה-תלמיד”, כדי שידע לענות בצורה שימושית ולא רק להשלים טקסט. ב-Soro בוצע כיוונון מפוקח על כ־40 אלף דוגמאות בטג'יקית, מה שהופך את המודל לשיחתי יותר ומתאים לעוזר לימודי או שירות לקוחות בשפה.

איך קוונטיזציה (FP8 ו-INT4) עוזרת לפרוס מודל AI על מכשירים חלשים?

קוונטיזציה היא דחיסה של משקלי המודל כדי להקטין זיכרון וחישוב. בשיטות כמו FP8 ו-INT4 החוקרים הראו שאפשר לשמור על רוב השיפור בביצועים בטג'יקית, תוך הפחתה משמעותית בדרישות הזיכרון. כך ניתן להריץ את המודל גם על מכשירים זולים בבתי ספר, בלי צורך בחיבור ענן יציב.

מה זה Benchmarks ולמה היה צריך לבנות Benchmarks חדשים לטג'יקית?

Benchmarks הם מבחני הערכה קבועים שמשווים בין מודלים באופן עקבי. בטג'יקית אין סטנדרט מקובל בפלטפורמות הגדולות, לכן נבנתה ערכת מבחנים חדשה לידע כללי, כשירות לשונית ונושאי בחינות קבלה. היא פורסמה כקוד פתוח ב-Hugging Face כדי לאפשר השוואה שקופה ופיתוח מתמשך.

מה המשמעות של המחקר לשפות “קטנות” אחרות ולפרויקטים מקומיים?

המחקר מציע תבנית עבודה לשפות שלא מקבלות כיסוי מספק: המשך אימון (Continual Pretraining) על מודל קיים, איסוף קורפוס איכותי, ואז Instruction Tuning על שיחות בשפת היעד—ובמקביל בניית Benchmarks ייעודיים. הגישה רלוונטית גם לשפות כמו ערבית מדוברת, אמהרית, בנגלית ושפות ילידיות.

אולי לא נצטרך יותר מודלי AI שאינם מדברים את שפת המשתמש? - חדשות AI

כשה-AI לא מדבר את שפתך - הבעיה שנותרת בשוליים

רוב פריצות הדרך בתחום ה-LLM מתרכזות בשפות דומיננטיות: אנגלית, סינית, ספרדית. שפות עם פחות ממאה מיליון דוברים נותרות לרוב ללא מענה - אין מספיק נתוני אימון, אין Benchmarks מוסכמים, ואין מודלים מותאמים לפריסה בשטח. הטג'יקית, שפת כ-10 מיליון איש בטג'יקיסטן, היא דוגמה קלאסית לפער הזה.

צוות חוקרים מאוניברסיטת קורנל, בהובלת Stanislav Liashkov ועמיתיו, פרסם לאחרונה את Soro - משפחת LLMs ייעודית לשפה הטג'יקית, שתוכננה מלכתחילה לתנאי פריסה מאתגרים: חיבורי אינטרנט אטיים, חומרה מוגבלת ותשתיות ענן חלקיות, המאפיינות את המדינה.

הגישה הטכנית: Continual Pretraining על בסיס Gemma 3

החוקרים לא בנו מודל מאפס. נקודת המוצא הייתה Gemma 3, מודל קוד-פתוח של Google, שעליו בוצע Continual Pretraining ייעודי לטג'יקית. קורפוס האימון כלל כ-1.9 מיליארד טוקנים שאוצרו בקפידה ממקורות מגוונים: טקסט מהאינטרנט, מסמכי PDF ומאטריאלים חינוכיים המותאמים לתכנית הלימודים המקומית.

שלב שני כלל Supervised Instruction Tuning על 40 אלף דוגמאות בסגנון מורה-תלמיד בטג'יקית - מה שמכשיר את המודל לשיחה טבעית ולא רק להשלמת טקסט.

תוצאות הניסויים, כפי שמדווחים החוקרים, מראות כי Soro מצליח לעלות בביצועים על Gemma 3 בגרסאות זהות בגודלן - ואת זאת תוך שמירה על ביצועי אנגלית תחרותיים ב-Benchmarks סטנדרטיים כמו MMLU ו-HellaSwag.

קוונטיזציה לקצה: FP8 ו-INT4

אחד האתגרים המשמעותיים בפריסת מודלים בשטח הוא צריכת הזיכרון. החוקרים בחנו קוונטיזציה ב-FP8 וב-INT4 - שיטות לדחיסת המשקלים של המודל - ומצאו כי הן שומרות על רוב השיפורים בטג'יקית תוך הפחתה ניכרת בדרישות הזיכרון. המשמעות: ניתן לפרוס את Soro על מכשירים זולים בבתי ספר ובאוניברסיטאות בטג'יקיסטן, גם ללא חיבור ענן יציב.

Benchmarks שנבנו מאפס לטג'יקית

בהיעדר Benchmarks מקובלים לטג'יקית בפלטפורמות הגדולות, הצוות יצר ערכת מבחנים חדשה המכסה ידע כללי, כשירות לשונית ותחומי בחינות קבלה לבתי ספר ולאוניברסיטאות - ופרסם אותה כקוד פתוח ב-Hugging Face. מהלך זה מאפשר לקהילת המחקר להמשיך ולפתח מודלים מתחרים ולהשוות ביניהם בצורה שקופה ומבוססת.

מה המשמעות לשוק הטכנולוגיה הרחב?

המחקר מדגים גישה שיש לה השלכות מעשיות מעבר לטג'יקיסטן. עבור צוותי פיתוח המעוניינים לפרוס AI בשפות כמו ערבית מדוברת, אמהרית, בנגלית או שפות ילידיות - המתודולוגיה של Soro מציעה תבנית עבודה: Continual Pretraining על מודל קיים, קורפוס מאוצר בקפידה, ו-Instruction Tuning על נתוני שיחה בשפת היעד.

בישראל, שבה פועלים מרכזי מחקר ופיתוח של חברות כמו Google, Microsoft, Amazon ו-Meta, יש עניין ישיר בפיתוח יכולות שפה לשפות שאינן מקבלות מענה מספק - לרבות ערבית ישראלית, אמהרית ורוסית. המתודולוגיה שהוצגה במחקר, ובמיוחד הגישה לבניית Benchmarks ייעודיים, יכולה לשמש כמודל פעולה לפרויקטים דומים בסביבה המקומית.

הפרויקט כבר נמצא בפיילוט פעיל במגזר החינוך בטג'יקיסטן, עם תוכניות הרחבה לבתי ספר נוספים - ממצא שמוכיח כי מחקר אקדמי יכול לעבור לפריסה מעשית בפרק זמן קצר כאשר הצורך השטחי ברור וההתאמה הלשונית מוקפדת.

אולי לא נצטרך יותר מודלי AI שאינם מדברים את שפת המשתמש?

כשה-AI לא מדבר את שפתך - הבעיה שנותרת בשוליים

רוצה להישאר מעודכן ב-AI?

הגישה הטכנית: Continual Pretraining על בסיס Gemma 3

קוונטיזציה לקצה: FP8 ו-INT4

Benchmarks שנבנו מאפס לטג'יקית

מה המשמעות לשוק הטכנולוגיה הרחב?

שאלות נפוצות