חזרה למחקרים
SemanticALLI: קאשינג של תהליך ההיסק (Reasoning), לא רק של תשובות (Responses), במערכות Agentic |
arXiv
מודלים גדולים

SemanticALLI: קאשינג של תהליך ההיסק (Reasoning), לא רק של תשובות (Responses), במערכות Agentic |

מחברים:Varun Chillara, Dylan Kline, Christopher Alvares, Evan Wooten, Huan Yang, Shlok Khetan, Cade Bauer, Tr'e Guillory, Tanishka Shah, Yashodhara Dhariwal, Volodymyr Pavlov, George Popstefanov
תאריך פרסום:21 בינואר 2026
סוג המחקר:ניסוי אמפירי
מקור:arXiv

יישומי המאמר

לארגונים שמפעילים סוכני LLM (צ'אט-בוטים אנליטיים, מערכות BI עם שפה טבעית, עוזרי דאטה פנימיים) יש בעיה יקרה: גם אם אין “שאלות זהות”, הרבה מהעבודה הפנימית חוזרת על עצמה. קאשינג רגיל שמבוסס על התאמת פרומפט/תשובה מפספס את זה, ולכן משלמים שוב ושוב על טוקנים וזמן. SemanticALLI מציעה דרך פרקטית להוזיל ולזרז: מפרקים את העבודה לשלבים קבועים, ומגדירים ייצוג ביניים מובנה (למשל כוונה אנליטית פורמלית או מפרט ויזואליזציה) שאותו ניתן לשמור בקאש ולהשתמש בו שוב גם כשנוסח הבקשה משתנה. המשמעות העסקית היא ירידה בעלויות מודל, קיצור זמני תגובה, ושיפור יציבות תוצרים (כי חלקים “סטנדרטיים” נבנים פעם אחת וממוחזרים). זה רלוונטי במיוחד למערכות שמייצרות גרפים/דשבורדים, מסכמות KPI, או מבצעות טרנספורמציות נתונים שחוזרות בהרבה שיחות.

TL;DR

מאמר זה מצביע על חוסר יעילות סמוי במערכות Agentic המבוססות LLM: גם כשמשתמשים מנסחים בקשות שונות, הפייפליין הפנימי לעיתים משחזר שוב ושוב לוגיקה זהה (למשל נרמול מדדים, בניית שלד לגרף/דשבורד), אך קאשינג “מסורתי” ברמת תשובה סופית מתקשה לזהות זאת כי הוא מתייחס למודל כקופסה שחורה. החוקרים מציגים את SemanticALLI, ארכיטקטורה מודעת-פייפליין (שפותחה בתוך פלטפורמת המודיעין השיווקי Alli של PMG) שמפרקת את תהליך ההפקה לשני שלבים: Analytic Intent Resolution (AIR) ו‑Visualization Synthesis (VS). במקום לשמור רק תשובות, המערכת מקדמת ייצוגים ביניים מובנים (IRs) לארטיפקטים “ממעמד ראשון” שניתנים לקאשינג ושימוש חוזר. בהערכה, קאשינג מונוליתי מגיע ל‑38.7% hit rate, בעוד שהגישה המובנית משיגה 83.10% hit rate בשלב ה‑VS, חוסכת 4,023 קריאות LLM, עם חציון השהייה של 2.66ms לפגיעה בקאש, ומפחיתה צריכת טוקנים כוללת.

פירוט המאמר

רקע ומוטיבציה

המאמר עוסק בבעיה תפעולית נפוצה במערכות “Agentic” המבוססות על מודלים גדולים (LLMs): למרות שמשתמשים מבקשים דברים בניסוחים שונים, הפייפליין הפנימי של המערכת (שרשרת של שלבים, כלים וקריאות מודל) נוטה לבצע שוב ושוב חישובים/הסקות זהים או דומים מאוד. דוגמאות שהמאמר מציין הן נרמול מדדים (metric normalization) או “סידור שלד” (chart scaffolding) לפני יצירת ויזואליזציה.

הגישה המקובלת לקאשינג במערכות LLM היא לרוב קאשינג גבולי/מונוליתי (“boundary caching”)—שמירת תוצאה סופית של השיחה/התשובה לפי מפתח שמבוסס על הטקסט הנכנס. אולם בגלל שונות לשונית (linguistic variance) ובקשות חדשות, hit rate של קאש כזה נמוך; בנוסף, הוא מתייחס למערכת כקופסה שחורה ולא מנצל את העובדה שהמערכת מורכבת משלבים יציבים וחוזרים.

תרומת המחקר (Overview)

החוקרים מציגים SemanticALLI—ארכיטקטורה “מודעת פייפליין” (pipeline-aware) שמטרתה להפוך קאשינג למבוסס-משמעות: לא לשמור רק תשובות, אלא לשמור ולהשתמש מחדש בהסקה/לוגיקה שמופיעה כייצוגים ביניים (Intermediate Representations; IRs).

המערכת נבנתה בתוך Alli—פלטפורמת מודיעין שיווקי (marketing intelligence platform) של PMG. הרעיון המרכזי הוא להגדיר נקודות בדיקה יציבות בתוך הלולאה הסוכנית, כך שגם אם הטקסט של המשתמש משתנה, עדיין ניתן לזהות ולמחזר חלקים פנימיים מהפתרון.

ארכיטקטורת SemanticALLI

המאמר מתאר פירוק של תהליך ההפקה לשני שלבים עיקריים:

Analytic Intent Resolution (AIR)

בשלב זה המערכת ממירה את בקשת המשתמש (בשפה טבעית) לכוונה אנליטית מפורשת. מטרת השלב היא להוציא מהשפה את המשמעות המבצעית: מה המדדים, הסגמנטים, המסננים, חלון הזמן, והאגרגציות הדרושות.

Visualization Synthesis (VS)

בשלב זה נוצרת/מורכבת הוויזואליזציה (למשל גרף/תרשים) על סמך הכוונה האנליטית או תוצרי ביניים. כאן המאמר מדגיש שקיימות תבניות חוזרות רבות (כגון מבנה גרף סטנדרטי, בחירת סוג תרשים, פריסת צירים ועוד), ולכן זהו מקום טבעי לקאשינג ברמת IR.

החידוש הוא שהמערכת “מקדמת” ייצוגים ביניים מובנים (IRs) לישויות ממדרגה ראשונה: הם נשמרים בקאש, מקבלים מפתחות שמתבססים על תוכן סמנטי/מבני, וניתנים לשימוש חוזר גם כאשר המשתמש לא חזר בדיוק על אותה שאלה.

מתודולוגיית הערכה

המאמר מדווח על הערכה השוואתית בין:

  1. קאשינג מונוליתי/גבולי (baseline boundary caching) ברמת תשובה סופית.
  2. הגישה המובנית של SemanticALLI שמאפשרת קאשינג בתוך הפייפליין, ובפרט שלב נוסף/מבודל עבור VS.

מטריקות מפתח כוללות:

  • שיעור פגיעות בקאש (hit rate).
  • מספר קריאות LLM שנחסכו.
  • השהייה (latency) בעת hit.
  • השפעה על צריכת טוקנים כוללת.

תוצאות עיקריות

המאמר מדווח על שיפור חד בביצועי קאשינג כאשר עוברים מקאש מונוליתי לקאשינג מבוסס ייצוגים ביניים:

  • בבייסליין של קאשינג מונוליתי, שיעור הפגיעה בקאש “ננעל” על 38.7% hit rate, בעיקר בגלל שונות לשונית בין בקשות המשתמשים.
  • בגישה המובנית של SemanticALLI, הוספת שלב ייעודי וקאשינג ברמת VS מאפשרת להגיע ל‑83.10% hit rate.
  • באמצעות ה‑hitים הללו המערכת עקפה 4,023 קריאות LLM.
  • חציון זמן הגישה בקאש (ב‑hit) הוא 2.66ms (כלומר החזרת תוצר ביניים ממוחזר כמעט מיידית).

המאמר מסכם כי שימוש חוזר פנימי (internal reuse) כזה מפחית משמעותית את צריכת הטוקנים הכוללת, ומשמש “לקח תכנוני” למערכות AI: גם אם המשתמשים כמעט לא חוזרים על עצמם מילולית, הפייפליין כן חוזר על עצמו במקטעים קבועים—ולכן כדאי לקשקש (cache) דווקא את שלבי ההסקה המובנים ולא רק את הפלט הסופי.

דיון ומשמעויות

SemanticALLI ממחישה שינוי תפיסתי: קאשינג אינו רק אופטימיזציה ברמת “תשובה”, אלא חלק מארכיטקטורת מערכת סוכנית. ההשלכה המעשית היא שניתן:

  • להוזיל עלויות LLM ע"י צמצום קריאות חוזרות.
  • לשפר זמני תגובה וחוויית משתמש.
  • להגדיל עקביות בתוצרים (כי תבניות/שלדים סטנדרטיים ממוחזרים במקום להיווצר מחדש בכל פעם).

המאמר מדגיש שהנקודות היציבות ביותר לקאשינג הן “צמתים” בפייפליין שבהם ה‑IR מובנה מספיק כדי להשוות בין בקשות שונות, אך לא תלוי מדי בניסוח הטקסט.

מגבלות וכיווני המשך (כפי שמשתמע מהעבודה)

על בסיס עמוד התקציר (וללא פירוט מלא של כל פרקי המאמר), ניתן להבין שמידת ההכללה תלויה ביכולת להגדיר IRs איכותיים ומפתחות קאש סמנטיים נכונים. יישומים אחרים יצטרכו להתאים את פירוק השלבים (כמו AIR/VS) לתהליכי העבודה שלהם. כמו כן, נדרשת זהירות כדי להבטיח שתוצרי ביניים ממוחזרים עדיין תקפים תחת הקשר/נתונים משתנים.

לסיכום, המאמר מציע ארכיטקטורה ישימה לשיפור ביצועים במערכות Agentic: להפוך את ההסקה למודולרית ומקושקשת באמצעות ייצוגים ביניים, ולהראות אמפירית שחיסכון משמעותי מושג גם כשאין חזרתיות מילולית מצד המשתמש.

✨ היילייטס

  • קאשינג מונוליתי מוגבל: בבייסליין, קאשינג ברמת תשובה סופית מגיע רק ל‑38.7% hit rate עקב שונות לשונית.
  • קאשינג של ייצוגים ביניים מנצח: SemanticALLI משיגה 83.10% hit rate (בשלב ה‑Visualization Synthesis).
  • חיסכון תפעולי גדול: המערכת חסכה 4,023 קריאות LLM באמצעות שימוש חוזר פנימי.
  • ביצועי latency מצוינים ב‑hit: חציון השהייה לפגיעה בקאש הוא 2.66ms.
  • מסר ארכיטקטוני מרכזי: במערכות Agentic, המשתמש לא חוזר על עצמו—אבל הפייפליין כן; לכן כדאי לקשקש “Reasoning” ולא רק “Responses”.

חוקרים

Varun ChillaraDylan KlineChristopher AlvaresEvan WootenHuan YangShlok KhetanCade BauerTr'e GuilloryTanishka ShahYashodhara DhariwalVolodymyr PavlovGeorge Popstefanov

מילות מפתח

agentic systemscachingintermediate representationsLLM optimizationanalytics & visualization

שאלות נפוצות