חזרה לחדשות
ענקית המידע Databricks קובעת שיא חדש בסוכני AI לארגונים

ענקית המידע Databricks קובעת שיא חדש בסוכני AI לארגונים

17 במאי 2026
מערכת זירת AI
מקור:זירת AI

מודל GPT-5.5 שולב בזרימות עבודה ארגוניות של Databricks לאחר שהציג שיא ביצועים במבחן OfficeQA Pro. לטענת OpenAI המודל הפחית שגיאות ב-46% לעומת GPT-5.4 והפך לראשון שחוצה רף דיוק של 50% בבנצ'מרק המיועד למשימות מסמכים ארגוניות קשות.

דגם GPT-5.5 נכנס לזרימות עבודה ארגוניות של Databricks לאחר שהציג ביצועי שיא במבחן OfficeQA Pro, כך נחשף בפרסום של OpenAI ממאי 2026. לפי החברה, המודל החדש הצליח להפחית שגיאות ב-46% בהשוואה ל-GPT-5.4 והפך למודל הראשון שעובר דיוק של 50% בבנצ'מרק שמדמה משימות סוכני AI מורכבות בארגונים.

שיא חדש בבנצ'מרק שמאתגר סוכני AI ארגוניים

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

OfficeQA Pro הוא מבחן פנימי של Databricks שנועד לבדוק כיצד מודלים מתמודדים עם עבודת ידע ארגונית אמיתית: קריאת מסמכים סרוקים, טיפול בקבצים ישנים, שליפת מידע מהקשר ארוך והסקת מסקנות שמבוססת על מקור נתונים מאומת. אלו בדיוק האזורים שבהם מערכות סוכנים נוטות להיכשל בייצור, בעיקר כאשר טעות קטנה בזיהוי ספרה, תאריך או סעיף בחוזה משנה את כל המשך תהליך קבלת ההחלטות.

ארנב סינגווי, מהנדס מחקר ב-Databricks, ציין בפרסום כי Codex עם GPT-5.5 נמצא כעת בחזית הביצועים בקרב סוכנים ומודלים. לדבריו, בדגמים קודמים כמו GPT-5.4 נרשמו כשלים בזיהוי מדויק של ספרות במסמכים ישנים ומסמכי PDF סרוקים, בעוד GPT-5.5 מציג קפיצה משמעותית ביכולת הפענוח. בעולם הארגוני, שיפור כזה אינו עניין קוסמטי: חשבוניות, דוחות כספיים, מסמכי ציות ותיקי לקוח תלויים בדיוק בפרטים הקטנים ביותר.

למה parsing הוא צוואר בקבוק קריטי בארגון

אחד האתגרים הגדולים בסוכני AI ארגוניים הוא שרשרת העבודה המלאה. מודל לא רק עונה על שאלה, אלא צריך לפרק מסמך, לאתר מידע רלוונטי, להצליב מקורות, להפעיל כלים ולעיתים גם להעביר משימה לסוכן מתמחה אחר. כאשר שלב הפענוח הראשוני, המכונה parsing, נכשל, הטעות מתגלגלת הלאה לשלב האחזור, ההיגיון והביצוע.

מבחינה טכנית, מסמכים סרוקים ומערכות ארכיון ישנות מציבים בעיה קשה במיוחד. הם כוללים איכות תמונה ירודה, טבלאות לא עקביות, טקסטים שנוצרו מ-OCR, הערות שוליים, חתימות וסריקות עקומות. לכן שיפור ביכולת להבין מסמכים כאלה מצביע לא רק על מודל שפה חזק יותר, אלא גם על התקדמות ביכולות רב-שלביות שחשובות להפעלת Agentic AI בסביבות ייצור.

שילוב ב-AgentBricks וב-Agent Supervisor API

Databricks מתכוונת להפוך את GPT-5.5 לזמין ללקוחות דרך AI Unity Gateway, כחלק מזרימות עבודה שנבנות באמצעות AgentBricks ו-Agent Supervisor API. במבנה הזה, GPT-5.5 משמש כשכבת תזמור שמנהלת parsing, שליפה, בדיקה וביצוע בין סוכנים מתמחים. סינגווי הוסיף כי החברה צופה שימוש רחב של לקוחות ב-AgentBricks וב-Agent Supervisor API לבניית זרימות עבודה מותאמות אישית, וכי השימוש ב-GPT-5.5 כמפקח על התהליכים הוא התפתחות משמעותית.

המשמעות עבור מנהלי טכנולוגיה, צוותי דאטה ויחידות תפעול היא שמודלים מתקדמים מתחילים לעבור מתרחישי הדגמה ליישומים שבהם נמדדים דיוק, אמינות ועלות תפעולית. אם GPT-5.5 אכן מצליח לצמצם מסלולי חיפוש מיותרים, לשפר שליפת הקשר ולסיים תהליכים מורכבים עם פחות פיקוח אנושי, הוא עשוי להאיץ אימוץ של סוכני AI בתחומים כמו פיננסים, ביטוח, בריאות, שירות לקוחות וניהול מסמכים.

עוד צעד במעבר מבינה מלאכותית מסייעת לסוכנים מבצעיים

הפרסום של OpenAI ו-Databricks מדגיש מגמה רחבה יותר בשוק: ארגונים כבר אינם מחפשים רק צ'אטבוט חכם, אלא מערכות שמסוגלות לבצע עבודה מלאה על בסיס נתונים פנימיים, תוך בקרה, אחזור מדויק והפחתת טעויות. GPT-5.5, לפי הנתונים שפורסמו, מסמן התקדמות בכיוון הזה, במיוחד בסביבה שבה מסמכים ארגוניים הם עדיין אחד ממקורות הידע החשובים והמורכבים ביותר.

שאלות נפוצות