אם סוכני AI נכשלים ב-95% מהמקרים - אז מי מפסיד?

אם סוכני AI נכשלים ב-95% מהמקרים - אז מי מפסיד?

4 ביוני 2026
מערכת זירת AI
מקור:זירת AI

חברות טכנולוגיה מפטרות עשרות אלפי עובדים בטענה שסוכני AI יחליפו אותם. אלא שנתוני מחקר חדש של Scale AI מגלים כי הסוכנים מצליחים לייצר עבודה ברמה מקצועית בפחות מ-5% מהמקרים. בין ממצאי מחקר מטרידים לבין הצהרות אופטימיות של חברות, נשאלת השאלה: האם גל הפיטורים הזה מוצדק מבחינה טכנולוגית?

כשהנתונים סותרים את הנרטיב

בחודשים האחרונים הפכה ההכרזה "אנחנו מצמצמים כוח אדם לטובת AI" לנוסחה שגורה בדיווחים הרבעוניים של חברות טכנולוגיה גדולות. Meta פיטרה כמעט 10% מכוח העבודה שלה בחודש שעבר תוך מעבר לאוטומציה אגנטית. בלוק, חברת הפינטק של ג'ק דורסי, קיצצה כמעט מחצית מהעובדים בפברואר תוך ייחוס ישיר לאימוץ AI. מיקרוסופט ואמזון פיטרו אלפים, ובשני המקרים הוזכר מעבר ל-AI כגורם מרכזי.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

אבל מה שהנתונים אומרים הוא שונה לחלוטין.

חברת Scale AI, ספקית תשתית נתונים ומערכות הערכה לממשלות וחברות Fortune 500, פיתחה מדד ביצועים הנקרא Remote Labour Index, שנועד למדוד עד כמה סוכני AI מסוגלים לבצע בפועל "עבודה מרחוק בעלת ערך כלכלי" מקצה לקצה. הממצאים חדים: אפילו הסוכנים המתקדמים ביותר מייצרים עבודה ברמה "מקצועית ומוכנה ללקוח" בפחות מ-5% מהמקרים (כפי שפורסם ב-CBC News על ידי קווין מיימן).

מאדהו סהווג, ראשת המחקר של Scale AI, אמרה ל-CBC News: "סוכני AI מסוגלים לבצע משימות מסוימות. אבל החשיבה המורכבת וההיסק הנדרשים להשלמת משימה מקצה לקצה בצורה אמינה, עדיין נמצאים בצד האנושי."

מה בדיוק נבדק

צוות המחקר של Scale הציב בפני הסוכנים מגוון משימות שנשאבו מפלטפורמות פרילנסרים כמו Upwork: עיצוב פלייארים ולוגואים, עריכת וידאו, פיתוח מודלים אדריכליים ועוד. התוצאות הושוו לתוצרים של עובדים אנושיים עם כישורים דומים.

הסוכנים הציגו את הביצועים הטובים ביותר ביצירת תמונות, כתיבת דוחות ואחזור נתונים. הם נכשלו בשיעורים הגבוהים ביותר במשימות מורכבות כגון הכנת שרטוטים אדריכליים. הסיבה השכיחה ביותר לכישלון היתה איכות נמוכה שתוארה כ"ילדותית" או חובבנית, וזאת ב-46% מהמקרים. מעל שליש מהתוצרים הגשויים היו חלקיים, כ-18% היו פגומים פורמטית, וכ-15% כשלו בשמירה על עקביות ויזואלית או לוגית.

האינדקס מציג גם שיפור: בסתיו 2025, כשהמדד הושק, הסוכן המוביל השיג שיעור הצלחה של 2.5% בלבד. עד מרץ 2026 הוא עלה ל-4.17%. קצב ההתקדמות הוא ריאלי, אבל לא עומד בקצב שמשתמע מהכרזות החברות.

"AI-washing": מינוח חדש לתופעה ישנה

מנכ"ל Scale AI, ג'ייסון דרוגי, אמר בראיון לסמאפור בחודש אפריל שלקוחות ארגוניים מבקשים ממנו לרוב אוטומציה ש"תחסוך עלויות" - אבל הוא מרחיק אותם מכך, כי "יש הרבה בעיות שהטכנולוגיה עדיין לא בשלה מספיק לפתור ברמת אמינות ובטיחות."

דרוגי אמר שחלק מהחברות מבצעות "washing" לפיטורים שלהן - משתמשות ב-AI כתירוץ לצמצום כוח אדם. סם אלטמן, מנכ"ל OpenAI, אמר אף הוא בפברואר שחלק מהחברות מבצעות "AI-washing, שבו מאשימים את ה-AI בפיטורים שהיו מתבצעים ממילא."

פרופ' ג'ולי יוג'י צ'ן מאוניברסיטת טורונטו, שחוקרת את השפעת הטכנולוגיות הדיגיטליות על עולם העבודה, אמרה: "AI דורש הרבה כסף. זה כמו ניסוי שסוחט מזומנים, ואף חברה לא יכולה לחזות בוודאות אם זה יצליח - לכן הן מפטרות עובדים כדי להוריד עלויות."

חשוב להוסיף: מחקר של MIT משנת 2025 מצא שלמרות השקעות ארגוניות של 30 עד 40 מיליארד דולר ב-Generative AI, 95% מהארגונים לא ראו תשואה כספית.

ג'ונתן קוזמנקו, מוביל תהליכי יישום של סוכני AI בארגונים מבדיל בין 4 רמות שונות של יישום סוכני AI: יישומי AI, תהליכי עבודה מוגברים על ידי AI, סוכני AI לא אוטונומיים הפועלים כחלק מתהליך עסקי דטרמניסטי וסוכנים אוטונומיים. "כאשר מדברים על סוכני AI אוטונומיים מדובר ברעיון שכרגע לא אפוי בטח ובטח לסביבה ארגונית. השליטה נמוכה, הסיכון גבוה, הביצועים חלשים. עם זאת, כאשר ניגשים בצורה חכמה ומסתכלים על AI כרכיב מוגבל בתהליך עבודה עם יישום נכון של אדם בלולאה, מקבלים תוצרים משמעותית מתקדמים וטובים יותר. אין ספק כי ל Agentic AI יש מקום נהדר בסביבה ארגונית אך צריך לגשת לזה בהבנה מרבית הן של הטכנולוגיה והן של הנדסת התהליך". מוסיף קוזמנקו.

ההשלכות על ישראל

המגמה הזו רלוונטית במיוחד לשוק הישראלי, שבו חברות טכנולוגיה רבות נמצאות עכשיו בצומת דרכים בין השקעה ב-AI Agents לבין שמירה על כוח אדם מיומן. חברות כמו פרסונה, טימוורק ואחרות שפיתחו מוצרים ניסויים מבוססי Agents עשויות להיות מחויבות לבחון מחדש את ה-ROI בטרם צמצמו עובדים.

המשמעות עבור מנהלים ישראלים היא שהחלטת פיטורים שמוצגת תחת כותרת "מעבר ל-AI" חייבת להתבסס על נתוני ביצועים מדידים - ולא על נרטיב תאגידי. כפי שמציגים הממצאים של Scale AI, הפער בין שיווק לבין מציאות טכנולוגית עשוי להיות גדול במיוחד.

המומחים מסכימים על דבר אחד: מי שנשאר יועסק בעיקר בפיקוח, אימות ובקרה על סוכנים - עבודה שמצריכה לא פחות שיפוט אנושי, אלא יותר.

שאלות נפוצות