האם מודלי שפה גדולים יכולים להחליף משתתפים בסקרים?

האם מודלי שפה גדולים יכולים להחליף משתתפים בסקרים?

21 במאי 2026
מערכת זירת AI
מקור:זירת AI

מחקר שפורסם ב-Towards Data Science בוחן אם מודלי LLM מסוגלים לדמות אלפי משיבים אנושיים בסקרי ציפיות אינפלציה. הממצאים מראים כי המודלים קולעים לממוצע, אך נכשלים בלשחזר את הפיזור האמיתי של דעות הציבור, אלא אם עוברים תהליך מחיקה ממוקד של מידע מהמשקלים.

האם מודלי שפה גדולים יכולים להחליף בני אדם בסקרים כלכליים, פוליטיים וחברתיים? כפי שנחשף בפרסום של Towards Data Science ממאי, התשובה המעניינת אינה נמצאת בממוצע התשובות, אלא דווקא במה שהמודלים מתקשים לייצר: שונות אנושית אמיתית.

הממוצע נכון, אבל הציבור נעלם

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

במאמר שפרסם מוריץ פייפר, על בסיס מחקר משותף עם עמי דלול מאוניברסיטת דויסבורג-אסן, נבדקה יכולתם של מודלי שפה גדולים לדמות משיבים בסקרי משקי בית, ובפרט בסקרים העוסקים בציפיות אינפלציה. בשנים האחרונות עלתה הטענה כי מודלים כמו GPT-4o, Claude, DeepSeek ו-Llama יכולים לשמש תחליף זול ומהיר לסקרים אנושיים, משום שהם מצליחים לשחזר בקירוב את התשובה החציונית של סקרים רשמיים.

הדוגמה המרכזית מגיעה מסקר ציפיות הצרכנים של הבנק הפדרלי של ניו יורק, ה-SCE. בשנת 2020 דיווח הסקר על ציפיית אינפלציה חציונית של כ-3% לשנה קדימה. כאשר מודל Llama-3 התבקש לדמות אלפי משקי בית אמריקאיים, עם פרסונות דמוגרפיות והנחיה שלא להשתמש במידע עדכני מעבר לנקודת זמן מסוימת, גם הוא החזיר חציון של כ-3%. לכאורה, הצלחה מרשימה.

אבל כאן מתחילה הבעיה. בעוד שבסקר האנושי התשובות נעו בטווח רחב, בערך ממינוס 25% ועד פלוס 27%, המודל ריכז 95% מהתשובות בטווח צר של כשתי נקודות אחוז בלבד. במילים אחרות, ה-LLM הצליח לייצר את האדם הממוצע, אך לא הצליח לייצר אוכלוסייה.

קריסת מצבים: כשהמודל עונה בשם כולם

החוקרים מכנים את התופעה הזו mode collapse, קריסת מצבים. בסקרים אנושיים, 44% עד 70% מהמשיבים נותנים תשובות המרוחקות ביותר משלוש נקודות אחוז מהתשובה השכיחה. בדגימות שנוצרו על ידי מודלי LLM, שיעור כזה כמעט לא הופיע כלל. גם כאשר הוזנו למודלים פרסונות עשירות המבוססות על נתוני מפקד אוכלוסין, וגם כאשר ניתנו להם הוראות מפורשות שלא “לחפש” נתונים סטטיסטיים, הפיזור נותר צר מאוד.

ההסבר הסביר הוא דליפת מידע מהאימון. מודלים גדולים נחשפו במהלך האימון לטבלאות מדד מחירים לצרכן, פרסומים של הבנק הפדרלי, כתבות כלכליות ומאמרים אקדמיים. לכן, כאשר שואלים אותם על ציפיות אינפלציה בשנת 2020, הם אינם באמת מדמים משיבים מגוונים, אלא שולפים או משחזרים נתון מרכזי שנצרב במשקלים.

מחיקת ידע ממוקדת משפרת את הפיזור

כדי לבדוק אם אפשר לפתור את הבעיה, החוקרים יישמו שתי שיטות unlearning על Llama-3.1-8B-Instruct, מודל פתוח המאפשר שינוי משקלים. השיטה הראשונה, Gradient Ascent, גורמת למודל להגדיל את השגיאה על קבוצת נתונים שיש “לשכוח”, במקרה זה סדרות CPI ונתוני סקרים רשמיים, תוך שמירה על יכולות הסקה כלליות. השיטה השנייה, Negative Preference Optimization, מתייחסת להשלמות המבוססות על הנתונים הרשמיים כהעדפות שליליות ומענישה את יצירתן.

התוצאה הייתה משמעותית. בגרסת הבסיס של Llama-3, כ-92% מהתשובות התאימו בדיוק לתשובה השכיחה, ולא הופיעו כמעט תשובות רחוקות ביותר משלוש נקודות אחוז. לאחר Gradient Ascent, ההתאמות המדויקות ירדו לכ-24%, ו-43% מהתשובות עברו את סף שלוש נקודות האחוז. כלומר, המודל החל להציג פיזור המזכיר יותר אוכלוסייה אנושית.

לא תחליף מלא לסקרים, אבל כלי מחקרי מבטיח

החוקרים בחנו גם ניסוי מבוקר אקראי בתחום ציפיות האינפלציה, בהשראת מחקר של אוליבייה קויביון, יורי גורודניצ’נקו ומייקל ובר משנת 2022. בניסוי כזה נבדק כיצד אנשים משנים ציפיות לאחר חשיפה למידע כלכלי, למשל יעד האינפלציה של הפד או נתוני אינפלציה קודמים. כאן התברר כי רק גרסת Llama שעברה Gradient Ascent הצליחה לשחזר חלק מכיווני ההשפעה שנראו אצל בני אדם.

המסקנה הרחבה חשובה במיוחד לחברות, חוקרים וגופי מדיניות ששוקלים שימוש בנתונים סינתטיים. מודלי שפה יכולים להיות מרשימים מאוד כאשר מודדים ממוצעים, אך מסוכנים כאשר מסיקים מהם מסקנות על התפלגות דעות, קצוות אוכלוסייה או תגובה לטיפול ניסויי. עבור סקרים אמיתיים, השונות אינה רעש סטטיסטי. היא בדיוק הדבר שאותו מבקשים למדוד.

שאלות נפוצות