
דרך לעקוף את מגבלת חלון ההקשר במודלי AI
AWS מפרסמת ארכיטקטורה חדשה המבוססת על Recursive Language Models, שמאפשרת לנתח מסמכים ומאגרי קוד עצומים בלי להזין אותם במלואם לחלון ההקשר של המודל. הגישה משלבת את Amazon Bedrock AgentCore Code Interpreter עם קריאות משנה למודלי שפה ומשיגה שיפור ניכר בדיוק ובאמינות.
ענקית הענן מציגה גישה מעשית להתמודדות עם אחת המגבלות המרכזיות של מודלי שפה גדולים: חלון ההקשר. גם כאשר מודלים תומכים במאות אלפי ואף במיליון טוקנים, ארגונים שמנסים לנתח דוחות כספיים, מאגרי קוד, מסמכים משפטיים או חומרי מחקר בהיקף של מיליוני תווים עדיין נתקלים בתקרת קלט, בעלויות גבוהות ובתופעת "האובדן באמצע", שבה מידע חשוב במרכז הטקסט זוכה לפחות תשומת לב מצד המודל.
במקום להגדיל את החלון, להפוך את המסמך לסביבת עבודה
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
הפתרון ש-AWS מתארת מבוסס על Recursive Language Models, או RLM. במקום לשלוח את כל המסמך למודל בבת אחת, המסמך נטען כסביבה חיצונית שאליה המודל ניגש באמצעות קוד. המודל הראשי מקבל את השאלה ואת תיאור הכלים הזמינים, כותב קוד Python כדי לחפש, לחתוך ולבדוק חלקים רלוונטיים במסמך, ורק כאשר נדרשת הבנה סמנטית הוא מפעיל מודל משנה על קטע מצומצם.
כך, המסמך המלא אינו תופס מקום בחלון ההקשר של המודל הראשי. תוצאות ביניים נשמרות כמשתנים בסביבת Python מתמשכת, מה שמאפשר למודל לבנות זיכרון עבודה לאורך זמן בלי להציף את ההקשר. מבחינה הנדסית, מדובר בשילוב בין תכנון סוכן, ביצוע קוד, חיפוש טקסטואלי וקריאות ממוקדות למודלי שפה.
AgentCore כזיכרון עבודה מתמשך
היישום שמוצג משתמש ב-Amazon Bedrock AgentCore Code Interpreter כסביבת הרצה מבודדת, יחד עם Strands Agents SDK לתזמור הסוכן. המסמך נטען לתוך סביבת הקוד כמשתנה Python, ופונקציה בשם llm_query מאפשרת לסביבה לבצע קריאות ישירות למודלי יסוד ב-Amazon Bedrock. במצב רשת ציבורי, ה-Code Interpreter יכול לשלוח בקשות החוצה ל-Bedrock, בעוד שהמודל הראשי נשאר ממוקד בתכנון צעדי החיפוש והניתוח.
המשמעות למפתחים היא שהמודל אינו רק "קורא" טקסט ארוך, אלא פועל כמו אנליסט שמחפש אינדקסים, מאתר טבלאות, בודק פונקציות במאגר קוד, מפצל משימות ומאגד ממצאים. זהו שינוי חשוב במיוחד בעולמות כמו ניתוח דוחות שנתיים, בדיקות תאימות, מחקר רפואי וסקירת קוד בהיקפים גדולים.
תוצאות: יותר הצלחה, יותר דיוק
במבחן Financial Multi-Document QA מתוך LongBench v2, שכלל שאלות על דוחות פיננסיים באורך של עד כשני מיליון תווים, גישת RLM השיגה שיעור הצלחה של 100 אחוז בכל התצורות שנבדקו. לשם השוואה, גישת Base עם חלון הקשר של 200 אלף טוקנים הצליחה לעבד רק 46.7 אחוז מהשאלות, ואילו Long Context עם חלון של מיליון טוקנים הגיעה ל-93.3 אחוז.
גם ברמת הדיוק נרשם שיפור. Claude Opus 4.6 עם RLM הגיע ל-80 אחוז דיוק, לעומת 66.7 אחוז בגישת Long Context. Claude Sonnet 4.6 השתפר מ-60 אחוז ל-73.3 אחוז. במבחן נוסף להבנת מאגרי קוד, שכלל ריפוזיטוריז באורך של עד יותר מ-16 מיליון תווים, RLM שוב הגיע ל-100 אחוז הצלחה ושיפר את הדיוק בכל המודלים שנבדקו.
לא פתרון חינמי, אבל דפוס חשוב לארגונים
AWS מציינת כי המחיר הוא זמן ריצה ועלות. כל ניתוח עשוי לכלול מספר קריאות למודל הראשי ולמודלי משנה, ולעיתים להימשך דקות. עם זאת, עבור עיבוד אצווה, מחקר ארגוני או ניתוח מסמכים שאינם מתאימים לחלון ההקשר, מדובר בדפוס ארכיטקטוני משמעותי. ייתכן שזהו אחד הכיוונים החשובים ביותר בבניית מערכות AI ארגוניות: לא להסתמך רק על מודל גדול יותר, אלא לתת למודל כלים, זיכרון עבודה ויכולת חקירה איטרטיבית.
