
האם מודלי שפה צריכים לראות טקסט? ניסוי בסינית חושף יתרון מפתיע ל-AI חזותי
ניסוי חדש בתווי סינית מציע שמודלי שפה יכולים להרוויח מייצוג חזותי של אותיות ותווים, במיוחד בתחילת האימון ובמצבי דלילות נתונים. אבל בטווח הארוך, ההקשר הלשוני עדיין מנצח את הצורה הגרפית.
כשהשפה הופכת לתמונה
אחד הרעיונות המקובלים ביותר בעולם מודלי השפה הוא שטקסט צריך להפוך קודם למספרים. בתהליך Tokenization, כל מילה, תו או חלקיק טקסט מקבלים מזהה מספרי, ומשם המודל לומד את יחסי ההקשר מתוך רצפים. זו הנחת עבודה יעילה, אבל היא גם מוחקת שכבה שלמה של מידע: הצורה.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
בסינית, המחיקה הזו משמעותית במיוחד. תווים סיניים אינם רק סימנים שרירותיים. הם בנויים מרכיבים גרפיים, רדיקלים, מבני קווים ויחסים מרחביים שלעתים מרמזים על משמעות, תחום סמנטי או קשר משפחתי בין מילים. תווים הקשורים לפעולות יד, למשל, עשויים לחלוק רכיב חזותי משותף. כאשר כל אחד מהם מוחלף במספר אקראי בטבלת הטוקנים, הקשר הזה נעלם בתחילת הדרך.
היתרון שמופיע בתחילת האימון
הניסוי המתואר בכתבה של שויאנג ב-Towards Data Science בוחן חלופה מסקרנת: במקום להזין למודל מזהי טוקנים, מציירים כל תו כתמונה בגווני אפור ומבקשים מהמודל לחזות את התו הבא. במילים אחרות, השפה נכנסת למודל לא רק כרצף סמלים, אלא גם כאות חזותי.
התוצאה החשובה אינה שהמודל החזותי מנצח בסוף. להפך, לאחר מספיק אימון שני המסלולים מתכנסים לרמת דיוק דומה. אבל בתחילת האימון נוצר פער משמעותי: המודל שרואה את צורת התווים מתחיל מהר יותר, משום שהוא מקבל מראש רמזים מבניים על דמיון בין תווים. זהו מעין קיצור דרך סטטיסטי. במקום ללמוד מאפס שתווים בעלי רכיב משותף נוטים להשתייך למשפחה לשונית קרובה, הוא מזהה זאת כבר מהתמונה.
הממצא המעניין אף יותר הוא שהמודל לא זקוק לתמונה איכותית. גם תווים ברזולוציה נמוכה מאוד, ואף תווים חתוכים חלקית, משמרים די מידע כדי לספק יתרון. מבחינת למידת מכונה, זה רומז שהמודל לא קורא קווים דקים כמו בן אדם, אלא מזהה מבנים גסים שמספיקים כדי לבנות הטיה התחלתית טובה.
למה היתרון נעלם בהמשך
כאן נמצא הלקח העמוק יותר לתעשיית ה-AI. צורה חזותית מספקת Prior, כלומר הנחת פתיחה מועילה, אך היא אינה מחליפה את התפלגות השפה עצמה. חיזוי התו הבא תלוי בסופו של דבר בהקשרים, בצירופים, בתחביר ובשימושים בפועל. תווים שנראים דומים יכולים להופיע בהקשרים שונים לחלוטין, ולכן לאחר שהמודל רואה מספיק טקסט, המידע הסטטיסטי מתוך הקורפוס גובר על הדמיון הגרפי.
זו הבחנה חשובה גם מחוץ לסינית. בשנים האחרונות התעשייה מתמקדת בהגדלת מודלים, הרחבת דאטה ושיפור ארכיטקטורות. המחקר מזכיר שיש ערך גם להטיות אינדוקטיביות חכמות: תכנון ייצוג שמכניס למודל ידע מוקדם רלוונטי, בלי להגדיל משמעותית את עלות החישוב.
השלכות עסקיות ומחקריות
המשמעות המעשית בולטת במיוחד בסביבות דלות נתונים. ארגונים שעובדים עם שפות פחות מיוצגות, כתבי יד היסטוריים, מסמכים פגומים או OCR באיכות נמוכה עשויים להפיק תועלת ממודלים שמשלבים בין שפה לראייה. במקום להמתין לכמויות ענק של נתונים, אפשר להשתמש במבנה הגרפי של השפה כמנוף ללמידה יעילה יותר.
גם בתחום שימור תרבות ומחקר היסטורי יש כאן פוטנציאל אמיתי. כתבי יד סיניים עתיקים, מסמכים שנפגעו, הדפסות דהויות וטקסטים שבהם חסרים חלקי תווים הם מקרים שבהם מודל טקסט רגיל מתקשה, בעוד שמודל בעל הבנה חזותית עשוי להשלים פערים בצורה טבעית יותר.
המסקנה אינה שכל מודל שפה צריך להפוך למודל ראייה. המסקנה המדויקת יותר היא ששפה אינה תמיד רק רצף מופשט של טוקנים. בחלק מן המערכות הלשוניות, ובעיקר בכתבים לוגוגרפיים, יש לשפה שכבה חזותית שה-AI יכול לנצל. היא לא משנה את תקרת הביצועים כאשר יש הרבה דאטה, אבל היא יכולה לשנות מאוד את הדרך לשם.
