חזרה למחקרים
השימוש ב‑LLMs לתייג נתונים במחקר בניהול: הנחיות יסוד ואזהרות
Strategic Management Journal
עיבוד שפה טבעית

השימוש ב‑LLMs לתייג נתונים במחקר בניהול: הנחיות יסוד ואזהרות

מחברים:Natalie A. Carlson, Vanessa Burbano
תאריך פרסום:28 באוקטובר 2025
סוג המחקר:ניסוי אמפירי
מקור:Strategic Management Journal

יישומי המאמר

הממצא המעשי המרכזי הוא ש־LLMs יכולים להפחית עלויות וזמן אנוטציה של טקסטים במהירות ובמדרג גבוה לעומת קידוד ידני או איסוף נתוני אימון כבד. למנהלים ומחקרי נתונים זה אומר שאפשר לבצע ניתוחים סקייליים של טקסט (למשל סקרי צרכנים, ביקורות, תכנים פרסומיים) מהר וזול יותר, אך יש להקפיד על תיעוד החלטות טכניות (מודל, גרסה, פרומפטים) ובדיקות רגישות לפני קבלת החלטות עסקיות מבוססות על תוויות אלו — אחרת קיים סיכון למסקנות מוטעות כתוצאה משגיאות מסודרות במיון.

TL;DR

מאמר זה מציע מסגרת מעשית לשילוב מודלים שפתיים גדולים (LLMs) במשימות אנסוטציה וקטלוג טקסט במחקר מנהלי. המחברים מפרקים את התהליך ל־5 שלבים מרכזיים: בחירת שיטה, בחירת מודל ויציבותו, הנדסת פרומפטים, שיקולי עלות והיקף, ואימות ורגישות. באפליקציה אמפירית הם מסווגים 295,985 פרויקטי Kickstarter לפי טענות סביבתיות/חברתיות, ומשווים LLMs לשיטת GBM מונחית (אימון על 2,068 מדוגמים ובדיקת זהב על 250 דוגמאות). תוצאות מראות ש־LLMs יכולים להגיע לביצועים שווים או טובים יותר בעלות נמוכה בהרבה (GBM: 92% דיוק; תצורות מובילות של LLM הגיעו עד 94%), אך תוצאות רגישות ביותר לעיצוב הפרומפט ולבחירת המודל; שונות זו משפיעה גם על המסקנות הסטטיסטיות המשניות. המחקר ממליץ על בדיקות רגישות מחמירות, תיעוד מלא ושימוש בערכות בדיקה אנושיות כ"זהב".

פירוט המאמר

Abstract / Research summary

המאמר מפתח מסגרת יישומית לשימוש במודלים שפתיים גדולים (LLMs) למשימות אנוטציה וטיפול בטקסט במחקר מנהלי. המחברים מפרקים את התהליך לחמישה שלבים מהותיים ומנחים על בחירות מפתח, סיכונים ופרקטיקות טובות. כדי להמחיש את המסגרת הם מבצעים אפליקציה אמפירית: סיווג טקסטים של פרויקטים ב־Kickstarter לפי טענה על תועלת חברתית/קיימות. המחקר משווה ביצועים של LLMs מול מודל GBM מפותח מראש, מציג רגישות גבוהה לתכנוני פרומפט ולטיפוס המודל, ומציע פרוצדורות בדיקת רגישות, תיעוד ושימור פלטים ככלים לשימור תקפות ושחזור.

Introduction

הופעתם של LLMs מאפשרת כלי חזק לעיבוד טקסטים בלתי מובנים וליצירת משתנים מובנים למחקר כמותי באמונות חברתיות ומנהליות. עם זאת, יש פער במתודולוגיה: כיצד לבחור שיטה, אילו מודלים מתאימים, איך לגבש פרומפטים, וכיצד להבטיח שחזוריות ותקפות תוצאות, במיוחד כאשר התוויות משמשות כמשתנים בניתוחים משניים.

Baseline framework (חמשת השלבים)

המסגרת מחולקת ל: (1) בחירת שיטה — להשוות LLMs לאלטרנטיבות כמו קידוד אנושי, מילונאים או מודלים מונחים; (2) בחירת מודל ויציבות — לתעד גרסה/גישה, לבדוק מספר מודלים ולשמור פלטים; (3) הנדסת פרומפטים — לבנות משפחות פרומפטים ולתעדם; (4) עלות והיקף — לאזן בין גודל מדגם, אורך פרומפט ומספר בדיקות; (5) אימות ורגישות — לשמור "זהב" של תוויות אנוש ולבצע בדיקות רגישות שיטטיות.

העקרונות כוללים עדיפות לתיעוד, בדיקות רגישות מרובות מודלים/פרומפטים, שימוש בגיוון פרומפטים כדי להעריך אי־ודאות מתודית, ושמירה על סט בדיקה ידני לאימות.

Prompt engineering strategies

המחברים מסקרים אסטרטגיות פרומפט נפוצות: zero-shot, few-shot, role-based, Chain of Thought (CoT), self-consistency, Tree of Thought (ToT) ו־Reflection on Search Trees (RoT). הם מדגישים שסנסיטיביות לפרומפטים גבוהה; לכן ממליצים לייצר משפחות פרומפטים, לבחון על דוגמאות מגוון ולהתעד את כל רכיבי הפרומפט (כולל system prompts).

Empirical application — הגדרת המקרה

מטרת היישום: לסווג פרויקטים ב־Kickstarter (2009–2016) לפי האם המוצר/שירות מספק תועלת חברתית רחבה. מדגם מלא של 295,985 פרויקטים הושלם על ידי גירוד טקסטים והתאמתם למטא־דאטה מה־CrowdBerkeley database. עבור אימון קודם נבנה סט תוייג ידנית של 2,068 דוגמאות; סט בדיקה זהב כדוגמאות ו־250 פרויקטים שימש לבחינה.

Prior method: supervised GBM

המודל המונחה (GBM) אומן על הסט של 2,068 תוויות ובדיקת הוולידציה של 250 פרויקטים הגיעה לדיוק של 92% (Fleiss' kappa של שותפים בין 0.6–0.7). פרוצדורה זו דרשה השקעת זמן וכסף משמעותיים (טווח עלות מקורב של ~3,000$ עבור תהליך זה לפי טבלת המחקר).

Stage 2–3: בחירת מודלים ופרומפטים

נבדקו חמישה מודלים מסחריים ונקודות איזון שונות בביצוע/עלות: GPT‑4, Claude 3 Opus (reasoning), GPT‑4o, Claude 3.5 Haiku (יעילות) ו‑GPT‑4o‑mini (זול וקל). נשמרה טמפרטורה=0 לצורך יציבות. נבדקו 7 אסטרטגיות פרומפט שונות (כולל zero/few-shot, role-based, CoT, ToT, RoT, self-consistency).

Stage 4: עלות והיקף

המשימה בהיקף המלא הייתה יקרה מאוד לביצוע על כל הצירופים; לכן כל הבדיקות הראשוניות בוצעו על סט הדוגמאות של 250 פרויקטים. עלות להרצת תמהיל בדיקות על 250 דוגמאות השתנתה בין כ־0.03$ ועד כ־5.71$ בהתאם למודל ולפרומפט. המחקר גם מדווח על עלויות פר־מופע: GPT‑4o כ־0.0019$ לפרויקט בממוצע כשהוא מביא ביצועים גבוהים; GPT‑4o‑mini כ־0.00012$ לפרויקט אך ביצועיו חלשים יותר.

Stage 4–5: תוצאות השלב הראשון (אנוטציה) — מספרים מרכזיים

בטבלת תוצאות על 250 דוגמאות: GBM: דיוק 0.920. בין צירופי מודל–פרומפט הבולטים: GPT‑4o הגיע לביצועים הטובים ביותר במספר פרומפטים — עד דיוק של 0.940 עם Tree‑of‑Thought; Claude‑3‑Opus גם הציג ביצועים טובים (סביב 0.876–0.880 בערכים מסוימים). GPT‑4o‑mini היה זול מאוד אך אכזב לעיתים (דיוק משתנה; דוגמה טובה: few‑shot 0.796). הביצועים והמאפיינים של שגיאות (false positives/negatives) השתנו במידה רבה לפי שילובי פרומפט ומודל.

Stage 5: השפעה על ניתוחים משניים (downstream)

המחברים בחנו כיצד התוויות שנוצרו משפיעות על רגרסיות לוגיסטיות המעריכות את הקשר בין תכונת "תועלת חברתית" לסיכוי להצליח (הגעה למטרה). הערכים האמתיים (human-labeled) הראו מקדם β = 1.645; GBM נותן β = 1.438. מבין 35 צירופי מודל–פרומפט שנבדקו, רק 5 שחזרו את הקשר החיובי ברמת ביטחון 95% ו‑7 נוספים ברמת 90%. נקודה תיאורטית חשובה: דיוק גבוה בשלב הראשון אינו מבטיח שחזור אמין של ההשפעה בשלב השני — אם שגיאות הסיווג מקושרות בצורה שיטתית למשתנה התוצאה, תיחשב הטיה במסקנות.

Sensitivity analysis ופרקטיקות מומלצות

המחקר מראה כי שימוש במשפחות פרומפטים (הם יצרו 100 פרומפטים שונים) מאפשר לכמת אי־וודאות מתודית. חלוקת התוצאות על פני וריאציות פרומפט הראתה פיזור במקדמי הרגרסיה; הגבלות איכות (לדוגמה: סינון פרומפטים לפי דיוק שלב‑א') מצמצמות שונות. שיטות חסכוניות למבחן רגישות כוללות בוטסטרפינג על תת‑מדגמים ו‑ablation tests ממוקדים. המסקנה המעשית: לבצע ניתוח ראשי עם תצורת בסיס טובה (הם ממליצים על GPT‑4o + ToT כמקרה לדוגמה), ואז לדווח טווח שמייצג רגישות לכמה צירופים סבירים.

הגבלות והמלצות להמשך

המחקר ממוקד במשימה בינארית ובהקשר ספציפי (Kickstarter). נדרשת הרחבה למשימות מורכבות יותר, ולבדיקות מול דורות עתידיים של מודלים. המחברים מדגישים את הצורך לתעד גרסת מודל, שיטת גישה ולקיים גיבוי לפלטים כדי לאפשר שחזור בעתיד כאשר גרסאות מסחריות יושפעו.

מסקנה

LLMs מציעים הזדמנות מעשית וחסכונית לאנוטציה כמותית של טקסט במחקר מנהלי, אך שימושם מחייב תיעוד קפדני, שמירת סטי בדיקה אנושיים וביצוע בדיקות רגישות שיטתיות. החוקרים צריכים לתעד ולא לדחוף לבחירת פרומפט/מודל יחיד בלי להציע טווחי רגישות — שכן המסקנות המחקריות עלולות להשתנות באופן מהותי לפי החלטות אלה.

✨ היילייטס

  • LLMs יכולים להגיע לביצועים שווים או טובים יותר משיטות מונחות מסורתיות בעלות ובזמן נמוכים בהרבה (לדוגמה: GBM דיוק 92%; תצורות מובילות של LLM עד 94%).
  • בחירות בפרומפט ובמודל משפיעות משמעותית לא רק על דיוק הסיווג אלא גם על מסקנות ניתוחים משניים; דיוק גבוה בשלב הראשון לא מבטיח חוסר הטיה בניתוח המשני אם שגיאות מקושרות לתוצאה.
  • יש להתייחס ל־LLMs ככלי בתוך ארגז כלים מתודולוגי: יש להשוות לאלטרנטיבות, לתעד גרסאות ופרמטרים, ולשמור סט בדיקה אנושי כ"זהב".
  • מומלץ לבצע בדיקות רגישות שיטתיות (משפחות פרומפטים, מבחני ablation, בוטסטרפינג) ולדווח טווח של תוצאות (bounded estimates) במקום נקודות יחידות בלבד.
  • שימוש נרחב וקל ב־LLMs מגדיל את הסיכון ל"חיפוש מפרטי" (p‑hacking); שקיפות ותיעוד של כל צירופי בדיקה הם הכרחיים לשמירה על תקפות המדעית.

חוקרים

Natalie A. CarlsonVanessa Burbano

מילות מפתח

LLMsprompt engineeringdata annotationsensitivity analysiscrowdfunding

שאלות נפוצות