איפה אפשר לקרוא חדשות AI בעברית?

זירת AI הוא אתר חדשות AI מוביל בישראל, המתעדכן מדי יום עם חדשות בינה מלאכותית בעברית. האתר מכסה עדכוני AI מרחבי העולם, כולל חדשות על ChatGPT, Claude, Gemini, סטארטאפי AI ומחקרים פורצי דרך. כל התכנים מותאמים לקהילה העסקית והמדעית בישראל.

מה זה זירת AI?

זירת AI הוא אתר חדשות בינה מלאכותית מוביל בישראל. האתר מספק חדשות AI עדכניות בעברית, דירוג והשוואת מודלי AI, סקירות כלי AI, מחקרים אקדמיים ואירועי AI. זירת AI מתעדכן מדי יום ומכסה את כל ההתפתחויות החשובות בעולם הבינה המלאכותית.

איך אני יכול להישאר מעודכן עם חדשות AI?

תוכלו להירשם לניוזלטר השבועי של זירת AI, לעקוב אחרי העמוד שלנו ברשתות החברתיות, או לבקר באתר חדשות AI שלנו באופן קבוע. אנו מפרסמים חדשות AI חדשות מדי יום, כולל עדכונים על מודלים חדשים, כלי AI וחדשות טכנולוגיה.

איך אני יכול למצוא כלי AI מתאים לעסק שלי?

במאגר הכלים שלנו תוכלו לסנן לפי קטגוריות שונות כמו כתיבה, תמונה, קוד, ניתוח נתונים ועוד. כל כלי כולל ביקורת מפורטת, דירוג, מידע על מחיר ויתרונות וחסרונות.

איך אני יכול למצוא אירועי AI בישראל?

בעמוד האירועים שלנו תמצאו רשימה מעודכנת של כנסים, Meetups, Webinars וסדנאות בתחום הבינה המלאכותית בישראל. כל אירוע כולל פרטי הרשמה, מיקום ותאריכים.

למה מודלי שפה מצליחים בממוצע אבל “מאבדים” את הציבור?

כי הם נוטים לרכז תשובות סביב ערך מרכזי במקום לפזר אותן כמו בני אדם. בדוגמה על ציפיות אינפלציה, סקר אנושי הראה טווח רחב מאוד של תשובות, בעוד שהמודל החזיר 95% מהתשובות בתוך טווח צר של כשתי נקודות אחוז. כך מתקבלת “אדם ממוצע” בלי אוכלוסייה מגוונת.

מה זה Mode Collapse (קריסת מצבים) בהקשר של סקרים?

Mode collapse היא תופעה שבה מודל מייצר בעיקר תשובות שכיחות ודומות, במקום מגוון רחב של תשובות אפשריות. בסקרים אנושיים, שיעור גדול מהמשיבים נותנים תשובות רחוקות מהתשובה השכיחה; אצל מודלי שפה זה כמעט לא קורה. התוצאה: שונות נמוכה מדי שלא משקפת אוכלוסייה אמיתית.

למה דליפת מידע מהאימון פוגעת בסימולציה של משיבים?

כי המודל כבר “ראה” במהלך האימון נתונים רשמיים, טבלאות, מאמרים ופרסומים כלכליים. לכן כששואלים אותו על שנה מסוימת, הוא לא באמת מדמה דעות מגוונות של משיבים, אלא משחזר נתון מרכזי שנלמד. זה יוצר תשובות ממורכזות שמחקות סטטיסטיקה — לא התנהגות אנושית.

מה זה Unlearning ואיך הוא משפר את הפיזור בתשובות?

Unlearning הוא תהליך של “מחיקת ידע” ממוקדת כדי לצמצם הסתמכות על נתונים ספציפיים שנלמדו. שתי שיטות שנבדקו: Gradient Ascent (מגדילה שגיאה על מידע שצריך לשכוח) ו‑Negative Preference Optimization (מענישה השלמות המבוססות על נתונים רשמיים). אחרי Gradient Ascent, הפיזור גדל והתקרב להתנהגות אנושית.

האם LLM אחרי Unlearning יכול להחליף ניסוי מבוקר אקראי (RCT) בסקרים?

עדיין לא. בניסוי מבוקר על ציפיות אינפלציה, רק גרסה שעברה Gradient Ascent הצליחה לשחזר חלק מכיווני ההשפעה שנראו אצל בני אדם. זה מצביע על פוטנציאל מחקרי, אבל גם על סיכון: בלי שיפור השונות והתגובה לטיפול, נתונים סינתטיים עלולים להוביל למסקנות שגויות.

האם מודלי שפה גדולים יכולים להחליף משתתפים בסקרים? - חדשות AI

האם מודלי שפה גדולים יכולים להחליף בני אדם בסקרים כלכליים, פוליטיים וחברתיים? כפי שנחשף בפרסום של Towards Data Science ממאי, התשובה המעניינת אינה נמצאת בממוצע התשובות, אלא דווקא במה שהמודלים מתקשים לייצר: שונות אנושית אמיתית.

הממוצע נכון, אבל הציבור נעלם

במאמר שפרסם מוריץ פייפר, על בסיס מחקר משותף עם עמי דלול מאוניברסיטת דויסבורג-אסן, נבדקה יכולתם של מודלי שפה גדולים לדמות משיבים בסקרי משקי בית, ובפרט בסקרים העוסקים בציפיות אינפלציה. בשנים האחרונות עלתה הטענה כי מודלים כמו GPT-4o, Claude, DeepSeek ו-Llama יכולים לשמש תחליף זול ומהיר לסקרים אנושיים, משום שהם מצליחים לשחזר בקירוב את התשובה החציונית של סקרים רשמיים.

הדוגמה המרכזית מגיעה מסקר ציפיות הצרכנים של הבנק הפדרלי של ניו יורק, ה-SCE. בשנת 2020 דיווח הסקר על ציפיית אינפלציה חציונית של כ-3% לשנה קדימה. כאשר מודל Llama-3 התבקש לדמות אלפי משקי בית אמריקאיים, עם פרסונות דמוגרפיות והנחיה שלא להשתמש במידע עדכני מעבר לנקודת זמן מסוימת, גם הוא החזיר חציון של כ-3%. לכאורה, הצלחה מרשימה.

אבל כאן מתחילה הבעיה. בעוד שבסקר האנושי התשובות נעו בטווח רחב, בערך ממינוס 25% ועד פלוס 27%, המודל ריכז 95% מהתשובות בטווח צר של כשתי נקודות אחוז בלבד. במילים אחרות, ה-LLM הצליח לייצר את האדם הממוצע, אך לא הצליח לייצר אוכלוסייה.

קריסת מצבים: כשהמודל עונה בשם כולם

החוקרים מכנים את התופעה הזו mode collapse, קריסת מצבים. בסקרים אנושיים, 44% עד 70% מהמשיבים נותנים תשובות המרוחקות ביותר משלוש נקודות אחוז מהתשובה השכיחה. בדגימות שנוצרו על ידי מודלי LLM, שיעור כזה כמעט לא הופיע כלל. גם כאשר הוזנו למודלים פרסונות עשירות המבוססות על נתוני מפקד אוכלוסין, וגם כאשר ניתנו להם הוראות מפורשות שלא “לחפש” נתונים סטטיסטיים, הפיזור נותר צר מאוד.

ההסבר הסביר הוא דליפת מידע מהאימון. מודלים גדולים נחשפו במהלך האימון לטבלאות מדד מחירים לצרכן, פרסומים של הבנק הפדרלי, כתבות כלכליות ומאמרים אקדמיים. לכן, כאשר שואלים אותם על ציפיות אינפלציה בשנת 2020, הם אינם באמת מדמים משיבים מגוונים, אלא שולפים או משחזרים נתון מרכזי שנצרב במשקלים.

מחיקת ידע ממוקדת משפרת את הפיזור

כדי לבדוק אם אפשר לפתור את הבעיה, החוקרים יישמו שתי שיטות unlearning על Llama-3.1-8B-Instruct, מודל פתוח המאפשר שינוי משקלים. השיטה הראשונה, Gradient Ascent, גורמת למודל להגדיל את השגיאה על קבוצת נתונים שיש “לשכוח”, במקרה זה סדרות CPI ונתוני סקרים רשמיים, תוך שמירה על יכולות הסקה כלליות. השיטה השנייה, Negative Preference Optimization, מתייחסת להשלמות המבוססות על הנתונים הרשמיים כהעדפות שליליות ומענישה את יצירתן.

התוצאה הייתה משמעותית. בגרסת הבסיס של Llama-3, כ-92% מהתשובות התאימו בדיוק לתשובה השכיחה, ולא הופיעו כמעט תשובות רחוקות ביותר משלוש נקודות אחוז. לאחר Gradient Ascent, ההתאמות המדויקות ירדו לכ-24%, ו-43% מהתשובות עברו את סף שלוש נקודות האחוז. כלומר, המודל החל להציג פיזור המזכיר יותר אוכלוסייה אנושית.

לא תחליף מלא לסקרים, אבל כלי מחקרי מבטיח

החוקרים בחנו גם ניסוי מבוקר אקראי בתחום ציפיות האינפלציה, בהשראת מחקר של אוליבייה קויביון, יורי גורודניצ’נקו ומייקל ובר משנת 2022. בניסוי כזה נבדק כיצד אנשים משנים ציפיות לאחר חשיפה למידע כלכלי, למשל יעד האינפלציה של הפד או נתוני אינפלציה קודמים. כאן התברר כי רק גרסת Llama שעברה Gradient Ascent הצליחה לשחזר חלק מכיווני ההשפעה שנראו אצל בני אדם.

המסקנה הרחבה חשובה במיוחד לחברות, חוקרים וגופי מדיניות ששוקלים שימוש בנתונים סינתטיים. מודלי שפה יכולים להיות מרשימים מאוד כאשר מודדים ממוצעים, אך מסוכנים כאשר מסיקים מהם מסקנות על התפלגות דעות, קצוות אוכלוסייה או תגובה לטיפול ניסויי. עבור סקרים אמיתיים, השונות אינה רעש סטטיסטי. היא בדיוק הדבר שאותו מבקשים למדוד.

האם מודלי שפה גדולים יכולים להחליף משתתפים בסקרים?

הממוצע נכון, אבל הציבור נעלם

רוצה להישאר מעודכן ב-AI?

קריסת מצבים: כשהמודל עונה בשם כולם

מחיקת ידע ממוקדת משפרת את הפיזור

לא תחליף מלא לסקרים, אבל כלי מחקרי מבטיח

שאלות נפוצות