
קרדיט תמונה: arXiv
אולי לא נצטרך יותר פידבק שגוי ממודלי שפה שלא יודעים להשתמש בו?
אולי לא נצטרך יותר פידבק שגוי ממודלי שפה שלא יודעים להשתמש בו?
הבעיה: פידבק שנוצר ולא מנוצל
אחת ההנחות השכיחות בפיתוח סוכנים מבוססי LLM היא שמתן פידבק בשפה טבעית - בין אם על ידי מעריך חיצוני או על ידי המודל עצמו - ישפר את ביצועיו. אך מה אם ההנחה הזו פשוט שגויה, לפחות ברוב המקרים?
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
מחקר חדש שפורסם ב-arXiv בסוף יוני 2026 תחת הכותרת What Drives Interactive Improvement from Feedback? בדק בדיוק את השאלה הזו, ותוצאותיו מפתיעות: שיפור בדיוק הסופי של סוכן Multi-Agent לאחר אינטראקציות מרובות אינו מעיד בהכרח על כך שהמודל השתמש בפידבק שקיבל. לעיתים קרובות, השיפור נובע מדגימה חוזרת, תיקון פורמט, או חישוב נוסף בזמן ריצה בלבד.
מה בדיוק נחקר?
החוקרים - בראשות Bartlomiej Cupial, Jan Lojek, Mikolaj Garstecki, Szymon Poblecki, Alicja Ziarko ו-Piotr Milos - פיתחו פרוטוקול מבוקר המכונה student-teacher protocol, שמאפשר להפריד בין שני תרחישים: האחד שבו המודל מקבל פידבק מועיל ופועל לפיו, והשני שבו הוא פשוט מנסה שוב ללא הכוונה מהותית.
הניסויים נערכו על ארבעה Benchmarks מובילים: Omni-MATH, Codeforces, BBEH Linguini ו-ARC-AGI1, תוך בחינת 13 מודלים פתוחים בתפקידי "תלמיד" ו"מורה". כל מודל נבחן הן כמקבל פידבק והן כמספק אותו.
הממצא המרכזי: הכלי אינו מספיק - הכשרון להשתמש בו הוא שקובע
הנתונים מראים בבירור: פידבק עצמי שנוצר על ידי המודל (self-feedback) תורם מעט מאוד מעבר לניסיון חוזר לא מונחה. לעומת זאת, מורים חיצוניים חזקים - כלומר מודלים גדולים ומדויקים יותר המספקים הכוונה ספציפית - מייצרים רווחים גדולים משמעותית, אך בתנאי אחד: שהמודל המקבל מסוגל לקלוט ולתרגם את הפידבק לפעולה.
מטריצות האינטראקציה שחישבו החוקרים מראות שהשיפורים האינטראקטיביים מונעים יותר על ידי יכולת המודל לפעול לפי פידבק מאשר על ידי זהות המורה, אם כי בחירת המורה נותרת קריטית עבור תלמיד ספציפי.
המסקנה המעשית ברורה: בניית סוכן שמוטמע בו לולאת פידבק ללא בחינה של יכולת המודל לנצל את אותו פידבק היא בזבוז משאבים חישוביים.
מה המשמעות לתעשייה?
כיום, צוותי פיתוח רבים בונים מערכות Multi-Agent שבהן סוכן אחד מבקר את הסוכן השני ומשלח לו הערות. המחקר הנוכחי מציב שאלת יסוד: האם המודל שמקבל את הביקורת מסוגל בכלל לפעול לפיה?
הממצאים מציעים כמה עקרונות פרקטיים:
- הערכת סוכנים חייבת להיעשות מול Baseline של ניסיונות חוזרים, ולא רק מול תוצאה יחידה. ביצוע טוב יותר לאחר פידבק אינו מוכיח שהפידבק הועיל.
- בחירת מודל ה"מורה" חשובה, אך רק אם ה"תלמיד" מסוגל להפיק ממנה תועלת. שימוש בנוסחת "מודל חזק מבקר מודל חלש" אינה מתכון מובטח לשיפור.
- פידבק ספציפי ומנחה עולה על פידבק גנרי. המחקר מדגיש שפידבק חייב לספק הכוונה מעבר לניסיון חוזר פשוט.
עבור צוותי פיתוח מקומיים המשלבים מודלים פתוחים בפיתרונות RAG ו-Multi-Agent, המשמעות היא שיש לבדוק באופן שיטתי את יכולת המודל לנצל פידבק לפני שבונים סביבו ארכיטקטורת Agent שלמה. השקעה בבחירת מודל "תלמיד" מתאים עשויה להניב תועלת רבה יותר מהשקעה בבניית מנגנון פידבק מורכב.
כלי הערכה פתוח
החוקרים השיקו את מסגרת ה-student-teacher evaluation בקוד פתוח, הזמינה לשימוש ציבורי. זהו צעד חשוב שמאפשר לכל צוות פיתוח לבחון את מודליו בפרוטוקול המבוקר שפותח במחקר - ולקבל תשובה ברורה לשאלה: האם הסוכן שלי באמת לומד מפידבק, או שהוא פשוט מנסה שוב?
