
הניסוי שמעורר שאלות: Anthropic בדקה מסחר בין סוכני בינה מלאכותית
חברת Anthropic ערכה ניסוי שבו סוכני בינה מלאכותית ניהלו משא ומתן ועסקאות מסחריות אמיתיות בין עובדי החברה. הממצאים חושפים פערי איכות משמעותיים בין מודלים שונים, כאשר משתמשים לא מזהים שהם בעמדת נחיתות במשא ומתן. הניסוי מעלה שאלות לגבי מסחר אוטונומי בין סוכנים בעתיד.
שוק ניסיוני לסוכני AI
Anthropic ערכה ניסוי מעניין במיוחד בתחום המסחר האוטונומי, שבו סוכני בינה מלאכותית ייצגו גם קונים וגם מוכרים במערכת של מודעות מסווגות פנימית. במהלך הניסוי, הסוכנים ניהלו משא ומתן אמיתי על מוצרים אמיתיים וכסף אמיתי.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
החברה הודתה שהניסוי, שכונה Project Deal, היה "ניסוי פיילוט עם קבוצת משתתפים שנבחרה מרצון" - 69 עובדי Anthropic שקיבלו תקציב של 100 דולר (ששולם באמצעות כרטיסי מתנה) לרכישת פריטים מעמיתיהם לעבודה.
תוצאות מעניינות
למרות ההיקף המצומצם, Anthropic הצהירה כי היא "התרשמה מכמה טוב Project Deal עבד" - עם 186 עסקאות שהושלמו בסך כולל של למעלה מ-4,000 דולר. החברה הפעילה למעשה ארבעה שווקים נפרדים עם מודלים שונים: אחד "אמיתי" (שבו כולם יוצגו על ידי המודל המתקדם ביותר של החברה, והעסקאות אכן כובדו לאחר הניסוי) ועוד שלושה למחקר.
הממצא המשמעותי ביותר: כאשר משתמשים מיוצגים על ידי מודלים מתקדמים יותר (Opus לעומת Haiku למשל), הם משיגים "תוצאות טובות יותר באופן אובייקטיבי", כפי שעולה מנתוני הכתבה. אולם המשתמשים לא נראו מבחינים בפער הזה, מה שמעלה את האפשרות של "פערי איכות סוכנים" שבהם "אנשים בצד המפסיד עשויים שלא להבין שמצבם גרוע יותר".
הניסוי גם גילה שההנחיות הראשוניות שניתנו לסוכנים לא השפיעו על סבירות המכירה או על המחירים שנקבעו במשא ומתן.
הניסוי מעלה שאלות משמעותיות עבור חברות המתכננות לאמץ סוכני AI למשא ומתן מסחרי. בעידן שבו סטארטאפים מקומיים כבר מפתחים פתרונות אוטומציה מסחרית, הפערים שזוהו בניסוי מצביעים על צורך בוויסות ושקיפות בכלים אלו.
כך למשל חברות המסחר האלקטרוני, שכבר משתמשות באלגוריתמים לתמחור דינמי, יצטרכו להיות ערות למצב שבו סוכני AI מנהלים משא ומתן ישיר מול לקוחות. השאלה המרכזית היא האם חובה על חברות לחשוף את רמת המתקדמות של הסוכן שמייצג אותן, במיוחד כאשר הצד השני אינו מודע לפער. לכן בחירת המודל הוא שיקול משמעותי אך הוא טומן בתוכו גם שיקולי עלות וזמינות.
בתחום ה-B2B, שבו משא ומתן על חוזים מורכבים הוא שגרה, הממצאים מעוררים דאגה גם בקרב משרדי עורכי דין המתחילים להשתמש בכלי AI לניתוח חוזים. האם נראה בעתיד מצב שבו איכות הייצוג הדיגיטלי תהפוך למשתנה מכריע בעסקאות?
