חזרה לחדשות
הארי פוטר קם לתחייה? למה GPT-5 התחיל לדבר על גובלינים

הארי פוטר קם לתחייה? למה GPT-5 התחיל לדבר על גובלינים

30 באפריל 2026
מערכת זירת AI
מקור:זירת AI

OpenAI פרסמה החודש חקירה יוצאת דופן על “מוזרות לשונית” במודלי GPT-5: עלייה חדה בשימוש במטאפורות של גובלינים, גרמלינים ויצורים נוספים. לפי הדוח, מקור התופעה היה תמריץ לא מכוון באימון התאמת אישיות, שזלג גם למצבים שלא הופעל בהם אותו סגנון.

תופעת “הגובלינים” במודלי GPT-5 היא לא בדיחה פנימית, אלא שיעור מעשי באיך תמריצים קטנים באימון יכולים להטות התנהגות של מודלי AI, כפי שנחשף בפרסום של OpenAI.

כשהמודל מתחיל להעדיף מטאפורות עם יצורים

ב-OpenAI מספרים כי החל מהשקת GPT-5.1 הם זיהו דפוס שהתחיל כ'טיק' קטן: המודל מרבה לשלב בתשובות מטאפורות על גובלינים, גרמלינים ויצורים דמיוניים נוספים. בניגוד לתקלות “קלאסיות” שנמדדות בירידה בביצועים או בקפיצה במדדים, כאן מדובר בהרגל לשוני שזחל לאט והפך בולט יותר מדור לדור.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

הסימנים הראשונים התחדדו בנובמבר, זמן קצר אחרי השקת GPT-5.1, בעקבות תלונות משתמשים על טון “חברי מדי” ותבניות דיבור חוזרות. צוות הבטיחות הוסיף במפורש את המילים “Goblin” ו-“Gremlin” לבדיקה, וגילה שמספר האזכורים של “Goblin” עלה ב-175% לאחר ההשקה, בעוד “Gremlin” עלה ב-52%.

הרמז הגדול: אישיות 'Nerdy' והנדסת תמריצים לא מכוונת

הפריצה בחקירה הגיעה סביב GPT-5.4, כשגם עובדים וגם משתמשים שמו לב לעלייה נוספת בשכיחות היצורים. בבדיקה פנימית נמצא שהשימוש בשפת יצורים היה מרוכז במיוחד בקרב משתמשים שבחרו באפשרות התאמת האישיות “Nerdy”, פרופיל שנועד להיות משחקי, חכם ולא מתנצל על הנטייה ל'חנוניות'.

לפי OpenAI, למרות ש-Nerdy ייצג רק כ-2.5% מכלל התשובות ב-ChatGPT, הוא היה אחראי ל-66.7% מכל אזכורי ה-“Goblin”. המשמעות הייתה שהבעיה אינה “טרנד אינטרנטי” שמתפזר באופן אחיד, אלא תוצאה של אופטימיזציה ממוקדת לסגנון מסוים.

איך RL יצר “לולאת משוב” של גובלינים

בחקירה השתמשו בכלים פנימיים וב-Codex כדי להשוות פלטים שנוצרו במהלך אימון בחיזוק (Reinforcement Learning, בדגש על RLHF או גרסאות דומות) בין תשובות עם המילים “Goblin/Gremlin” לבין תשובות ללא אותן מילים. אות חזק במיוחד הופיע באות תמריץ שנועד לעודד את אישיות Nerdy: הוא נטה לתת ציון גבוה יותר לניסוחים שכללו יצורים. OpenAI מדווחת כי ב-76.2% ממאגרי הנתונים שנבדקו, אות התמריץ של Nerdy העניק “יתרון” עקבי לפלטים עם גובלינים או גרמלינים.

החלק המעניין יותר היה הזליגה עצמה: גם כאשר לא הופעלה אישיות Nerdy, שכיחות האזכורים עלתה כמעט באותו יחס כמו בדגימות עם Nerdy. הסבר אפשרי, כפי שמתארת OpenAI, הוא הכללה של ההתנהגות מחוץ לתנאי האימון המקורי.

באימון מודרני למודלי שפה, התנהגות שמקבלת תגמול עשויה להיטמע כמנגנון “כללי” של המודל, במיוחד כאשר דגימות שנוצרו על ידי המודל (Rollouts) חוזרות אחר כך לאימון מפוקח (SFT) כחלק מנתוני העדפה או דוגמאות איכות.

התוצאה היא לולאת משוב: מחזקים סגנון משחקי, חלק מהדוגמאות המתגמלות כוללות טיק ייחודי, הטיק מופיע יותר, ואז נכנס שוב לנתוני אימון ומתחזק. לפי הדוח, בסריקת נתוני ה-SFT של GPT-5.5 נמצאה גם “משפחת יצורים” רחבה יותר כמו דביבונים, טרולים, אוגרים ויונים, בעוד שמרבית ההופעות של 'צפרדע' (המילה “Frog”) היו לגיטימיות בהקשר.

מה OpenAI שינתה, ולמה זה חשוב לקהילת ה-AI

כדי לעצור את התופעה, OpenAI פרשה את אישיות Nerdy באמצע מרץ לאחר השקת GPT-5.4, הסירה את אות תמריץ ה”חובב יצורים” וסיננה נתוני אימון שהכילו מילות יצורים כדי לצמצם הופעות לא מתאימות. עם זאת, GPT-5.5 כבר היה בתהליך אימון לפני שנמצא שורש הבעיה, ובבדיקות מוקדמות ב-Codex עובדים זיהו מיד “זיקה לגובלינים”, ולכן נוספה גם הנחיית מפתח שמטרתה לדכא זאת.

OpenAI מדגישה שהסיפור משמש דוגמה חדה לסיכון מחקרי-מוצרי: אותות תגמול קטנים יכולים לשנות סגנון, מילון ואפילו נורמות שיחה, בלי שהדבר יופיע מיד במדדי ביצועים סטנדרטיים. מעבר לאנקדוטה המשעשעת, החברה מציינת שהחקירה הולידה כלים חדשים להאצת איתור דפוסים חריגים, לאבחון מקורם ולתיקון בעיות התנהגות “מהשורש”, לפני שהן הופכות להרגל יציב במודל שמגיע למיליוני משתמשים.

שאלות נפוצות