חזרה לחדשות
סוכני ה-AI רחוקים מלהחליף פרילנסרים: מדד חדש מצא ביצועים עלובים

קרדיט תמונה: Zirat AI / AI

סוכני ה-AI רחוקים מלהחליף פרילנסרים: מדד חדש מצא ביצועים עלובים

29 באוקטובר 2025
מערכת זירת AI

מחקר משותף של Scale AI ו-CAIS מציג מדד כימות חדש ליכולות סוכני AI בביצוע עבודות פרילנס מרחוק. התוצאה: פחות מ-3 אחוזי הצלחה ורווח מצטבר של 1,810 דולר מתוך פוטנציאל של 143,991 דולר. למרות ההייפ והבטחות לאוטומציה רחבה, מודלים מתקשים במשימות רב-שלביות, בזיכרון ארוך טווח ובהפעלת כלים חיצוניים.

כפי שפורסם ב WIRED על ידי ויל נייט, סוכני AI מתקדמים עדיין מתקשים להפוך לעובדי פרילנס אמינים. מדד חדש בשם Remote Labor Index, שפותח על ידי Scale AI ו-Center for AI Safety, בחן יכולת אוטומציה של משימות פרילנס אמיתיות ממספר תחומים, ומצא שהביצועים רחוקים מרמת אדם.

במסגרת הניסוי הועברו לסוכנים משימות שגובשו עם פרילנסרים מאומתים ב-Upwork, כולל עיצוב גרפי, עריכת וידאו, פיתוח משחקים וניקוי/שאיבת נתונים. כל משימה כללה תיאור, מבנה קבצים ודוגמת תוצר אנושי. התוצאה: גם הסוכן המצליח ביותר הצליח לבצע פחות מ-3 אחוז מהעבודה, והרוויח 1,810 דולר מתוך 143,991 דולר. בדירוג הביצועים הובילו Manus (סטארטאפ סיני), אחריו Grok של xAI, Claude של Anthropic, ChatGPT של OpenAI ו-Gemini של Google.

לדברי דן הנדריקס מ-CAIS, אף שמודלים השתפרו בקוד, מתמטיקה והיגיון, הם עדיין מתקשים בתזמור כלים, משימות ארוכות-טווח ולמידה מצטברת. במילים אחרות, היכולות ה"סוכנותיות" – עבודה רב-שלבית עם תלות בין תוצרים, שמירה על הקשר וניהול זיכרון – הן צוואר הבקבוק, לא רק הבנת טקסט.

הממצאים מאזנים נרטיבים אופטימיים יותר, כמו מדד GDPval של OpenAI מספטמבר, שלפיו מודלים מתקדמים מתקרבים לביצוע אנושי על מאות משימות משרדיות. ואולם, מדדי "ערך כלכלי" שונים נבדלים בהנחות, בשיטתיות ובקריטריונים של הצלחה, ולכן הפערים אינם מפתיעים.

הקשר המקומי: עבור פרילנסרים ישראלים בפלטפורמות כמו Fiverr ו-Upwork, המדד מרמז שהחלפה מלאה על ידי סוכנים אוטונומיים אינה מעבר לפינה. לעומת זאת, שימוש ב-AI ככלי עזר כבר מוכיח את עצמו – ליצירת תבניות, ניסוח הצעות, בדיקות איכות ואוטומציה של חלקי-תהליך. חשוב גם לזכור שמודלים רבים עדיין חלשים יחסית בעברית, במיוחד במשימות הדורשות הבנה לשונית עמוקה או שילוב בין עברית-אנגלית, מה שעלול להחריף את הקושי בביצוע משימות מקומיות באופן אוטונומי.

למרות שההייפ סביב Agentic AI גדל, כשלי זיכרון ארוך טווח, ניהול מצבים ועמידות לשגיאות ממשיכים לפגוע בביצועים. פתרונות מתפתחים כוללים ארכיטקטורות עם Memory Stores, ביצוע תכניות רב-שלביות עם Planner-Executor ושרשראות כלים מסודרות דרך orchestrators, אך נכון לעכשיו אלה משפרים נקודתית ולא סוגרים פערים רחבים באמינות.

בשוק העבודה הרחב, חברות אכן מתייעלות באמצעות GenAI – השבוע אמזון הודיעה על קיצוץ 14 אלף משרות, בין היתר בשל אימוץ AI – אך המדד החדש מצביע שכמו בגלים קודמים, אוטומציה נוטה להתחיל בהאצת פרודוקטיביות של בני אדם לפני שהיא מחליפה אותם. עבור עסקים ופרילנסרים בישראל, האסטרטגיה הפרקטית לשנה הקרובה היא שילוב מושכל: בניית תהליכי עבודה היברידיים, אימון מודלים על תבניות פנימיות, ובחינה מבוקרת של סוכנים למשימות אטומיות ולא לפרויקטים שלמים.

שאלות נפוצות