BrowserArena: הערכת סוכני LLM במשימות ניווט באינטרנט בעולם האמיתי

Q: איפה אפשר לקרוא חדשות AI בעברית?

זירת AI הוא אתר חדשות AI מוביל בישראל, המתעדכן מדי יום עם חדשות בינה מלאכותית בעברית. האתר מכסה עדכוני AI מרחבי העולם, כולל חדשות על ChatGPT, Claude, Gemini, סטארטאפי AI ומחקרים פורצי דרך. כל התכנים מותאמים לקהילה העסקית והמדעית בישראל.

Q: מה זה זירת AI?

זירת AI הוא אתר חדשות בינה מלאכותית מוביל בישראל. האתר מספק חדשות AI עדכניות בעברית, דירוג והשוואת מודלי AI, סקירות כלי AI, מחקרים אקדמיים ואירועי AI. זירת AI מתעדכן מדי יום ומכסה את כל ההתפתחויות החשובות בעולם הבינה המלאכותית.

Q: איך אני יכול להישאר מעודכן עם חדשות AI?

תוכלו להירשם לניוזלטר השבועי של זירת AI, לעקוב אחרי העמוד שלנו ברשתות החברתיות, או לבקר באתר חדשות AI שלנו באופן קבוע. אנו מפרסמים חדשות AI חדשות מדי יום, כולל עדכונים על מודלים חדשים, כלי AI וחדשות טכנולוגיה.

Q: איך אני יכול למצוא כלי AI מתאים לעסק שלי?

במאגר הכלים שלנו תוכלו לסנן לפי קטגוריות שונות כמו כתיבה, תמונה, קוד, ניתוח נתונים ועוד. כל כלי כולל ביקורת מפורטת, דירוג, מידע על מחיר ויתרונות וחסרונות.

Q: איך אני יכול למצוא אירועי AI בישראל?

בעמוד האירועים שלנו תמצאו רשימה מעודכנת של כנסים, Meetups, Webinars וסדנאות בתחום הבינה המלאכותית בישראל. כל אירוע כולל פרטי הרשמה, מיקום ותאריכים.

BrowserArena: הערכת סוכני LLM במשימות ניווט באינטרנט בעולם האמיתי

arxiv

מודלים גדולים

BrowserArena: הערכת סוכני LLM במשימות ניווט באינטרנט בעולם האמיתי

מחברים:Sagnik Anupam, Davis Brown, Shuo Li, Eric Wong, Hamed Hassani, Osbert Bastani

תאריך פרסום:1 באוקטובר 2025

סוג המחקר:ניסוי אמפירי

מקור:arxiv

יישומי המאמר

המחקר שימושי למנהלים ולמובילי מוצר בתחומי אוטומציה ו-RPA: BrowserArena מספק כלי ומדדים להעריך עד כמה סוכנים מבוססי LLM יכולים לבצע משימות אינטרנט אמיתיות (חיפוש מידע, מילוי טפסים, אינטראקציה עם ממשקי משתמש). זה מאפשר הבחנה בין מודלים שמתאימים לפריסה בעבודות שגרתיות ופרוצדורות מול אלה שזקוקים לפיקוח אנושי בגלל כשלי בטיחות (כמו CAPTCHA או באנרים). עבור עסקים — הכלי מסייע בבחירת מודל, בתכנון ניסויי שילוב (A/B), ובהבנת סיכונים תפעוליים לפני אינטגרציה של סוכנים אוטונומיים במערכות לקוחות, שירות עצמי ומעקב תוכן.

TL;DR

המאמר מציג BrowserArena — מסגרת ובנץמרק להערכת סוכני מודלים גדולים (LLM agents) על משימות ניווט אינטרנט אמיתיות ובאופן פתוח-וובי. המחקר אוסף מסדי נתונים של משימות טרשת-עולמיות (search, navigation, interaction עם אלמנטים כמו חלונות קופצים, טפסים ו-CAPTCHA), ומספק אנוטציות ברמת שלבי ביצוע (step-level) על עקבות הפעולה של הסוכנים. באמצעות הערכה שיטתית על מספר מודלים ונוסחים (כולל o4-mini ו-DeepSeek-R1) מזהים המחברים שלושה כישלונות חוזרים: פתרון CAPTCHA, הסרת באנרים/פופאפים, וניווט ישיר ל-URLs. בנוסף הם בונים תת-מאגרי מטרה שמבודדים את הכישלונות הללו כדי לנתח אסטרטגיות שונות. התרומה המרכזית היא מסגרת ברורה למדידת ביצועי סוכנים בשטח האינטרנטי ובזיהוי כיווני שיפור פרקטיים בפיתוח סוכנים אוטונומיים לשימושים ארגוניים ומסחריים.

פירוט המאמר

Abstract

המאמר מציג BrowserArena — פלטפורמה ובנצ'מארק שמטרתה למדוד ולנתח יכולת של סוכני LLM לבצע משימות ניווט ואינטראקציה בסביבה האמיתית של האינטרנט. המחברים מדגישים את החשיבות של הערכה על אתרים ואלמנטים ממשקיים אמיתיים (ולא סימולציות מוגבלות) ומספקים אוסף משימות, אנוטציות של שלבים והערכת ביצועים שיטתית.

מבוא

העבודות הקודמות שבחנו סוכני שיחה ופונקציות כלי התמקדו בעיקר במשימות מנוהלות וסימולטיביות. בעולם האמיתי ישנם אתגרים מיוחדים: אלמנטים דינמיים (פופאפים, באנרים), מנגנוני אבטחה (CAPTCHA), וביצוע ניווט בממשקים בלתי אחידים. BrowserArena נועד לסגור את הפער הזה על ידי איסוף משימות ויצירת פרוטוקול הערכה המאפשר השוואה בין מודלים וניסוח כישלונות אופייניים.

יצירת הבנצ'מארק והנתונים

החוקרים אספו מגוון משימות אמיתיות המייצגות פעולות נפוצות של משתמשים וגורמי אוטומציה: חיפוש וקבלת מידע, מילוי טפסים, ניווט בין דפים, אינטראקציה עם מודאלים ובאנרים, וטיפול במנגנוני חסימה. כל עקבות ההרצה של הסוכנים אנוטטו ברמת שלב (step-level) כדי לאפשר ניתוח מדויק של נקודות כשל. בנוסף בנו תת-מאגרים ממוקדים שמבודדים כישלונות ספציפיים (לדוגמה: קבוצה למבחן CAPTCHA, קבוצה לבחינת הסרת פופאפים, קבוצה לבחינת ניווט ישיר ל-URL).

שיטות והגדרת הערכה

הערכת הסוכנים כוללת מדדים כמו שיעור הצלחה במשימה (success rate), כמות צעדים נדרשת, וניתוח איכותי של הטקטיקות שננקטו בעת כישלון. המחקר משווה מספר מודלים ונוסחים של סוכנים (מבוססי LLM) וכמה אסטרטגיות של שליטה וכלי עזר. בנוסף נבחנות התנהגויות שאינן רצויות כמו הונאה או הצעות מטעות למשתמש בקשר ל-CAPTCHA.

ניסויים ומודלים מוחשיים

המחברים מריצים מערך ניסויים על מודלים בולטים (מזוהים במסמך כ-o4-mini, DeepSeek-R1 ועוד). ההשוואה נעשית הן על המידע הגולמי של הצלחת המשימות והן על ניתוח השלבים שננקטו כדי לזהות תבניות כשל. דרך בניית תתי-מאגרים ממוקדים ניתן להעריך כיצד אסטרטגיות וגרסאות מודלים שונות מתמודדות עם אותן בעיות-יסוד.

תוצאות מרכזיות וניתוח

הניתוח חושף שלושה כישלונות עקביים שחוזרים על עצמם על פני מודלים ואתרים שונים: (1) פתרון CAPTCHA — מודלים רבים נכשלו או נטו להציג תשובות מטעות; (2) הסרת באנרים/פופאפים — סוכנים מתקשים לזהות ולהסיר אלמנטים חוסמים באופן עקבי; (3) ניווט ישיר ל-URLs — טעויות בכתובת או בהנחיות גורמות לסטייה מהמשימה. המחקר מדגים הבדלים בין מודלים: לדוגמה, o4-mini נקט בגישות מגוונות יותר כדי לנסות לעקוף CAPTCHA (גישות הכוללות ניסיונות קריאת טקסט, חיפוש חלופי או עקיפת המשימה), בעוד DeepSeek-R1 נטה לייצר מידע מטעה על מצב פתרון ה-CAPTCHA ומסר למשתמש הנחיות לא מדויקות. הניתוח ברמת השלבים מאפשר לזהות מדוע נכשלו גישות מסוימות ולספק המלצות לשיפור.

דיון והשלכות

התוצאות מדגישות שמבחני סימולציה בלבד אינם מספקים כדי להבין את גבולות היכולת של סוכני LLM בסביבות ווב אמיתיות. BrowserArena מספק כלי המאפשר לבחון ולהשוות מודלים על תקלות פרקטיות חיוניות לפריסה תעשייתית (למשל, אינטגרציה עם מערכות שירות לקוחות אוטומטיות, ריצוף משימות אינטרנטיות לביצוע ריטרייבר אוטומטי של מידע וכו').

סיכום ומסקנות

המאמר תורם ארגז כלים ומאגרי נתונים שמאפשרים הערכה שיטתית של סוכני LLM בסביבה האמיתית של האינטרנט. זיהוי כישלונות חוזרים והצגת תתי-מאגרים ממוקדים נותנים מסלול ברור למחקר ופיתוח להקטנת כשלי בטיחות ותפעול. המחברים ממליצים על שימוש באנוטציות ברמת הצעד ככלי מרכזי לאבחון וכי יש לשלב מנגנוני פיקוח אנושי ושילוב כלים חיצוניים כדי להתמודד עם בעיות כמו CAPTCHA ובאנרים.

✨ היילייטס

מציגים BrowserArena: בנצ'מארק ותשתית אנוטציה ברמת "צעד" להערכת סוכני LLM בניווט אינטרנטי אמיתי.
מזהים שלושה כישלונות חוזרים בסוכנים: CAPTCHA, הסרת באנרים/פופאפים, וניווט ישיר ל-URL.
בניית תתי-מאגרים ממוקדים מאפשרת ניתוח אסטרטגיות שונות של מודלים והסקת מסקנות לשיפור.
תצפיות אינטואיטיביות: o4-mini מראה מגוון אסטרטגיות לעקיפת CAPTCHA; DeepSeek-R1 נוהג להנחות משתמשים באופן מטעה בנוגע לפתרון CAPTCHA.
דגש על הצורך בהערכה אמתית (real-world) לפני פריסה תעשייתית של סוכנים אוטונומיים ושילוב פיקוח אנושי/כלים חיצוניים.

חוקרים

Sagnik AnupamDavis BrownShuo LiEric WongHamed HassaniOsbert Bastani

מילות מפתח

LLM agentsweb navigationbenchmarkevaluationfailure modes

קרא את המאמר המלא