חזרה למחקרים
DeepRead: הסקה מודעת למבנה המסמך לשיפור Agentic Search (חיפוש אגנטי) |
arXiv
עיבוד שפה טבעית

DeepRead: הסקה מודעת למבנה המסמך לשיפור Agentic Search (חיפוש אגנטי) |

מחברים:Zhanli Li, Huiwen Tian, Lvzhou Luo, Yixuan Cao, Ping Luo
תאריך פרסום:3 בפברואר 2026
סוג המחקר:ניסוי אמפירי
מקור:arXiv

יישומי המאמר

לארגונים יש מאגרי PDF עצומים—חוזים, נהלים, דוחות כספיים, מסמכי רגולציה ומפרטים טכניים—והיום הרבה מערכות RAG/חיפוש סוכני מתייחסות אליהם כאוסף מקטעים ללא מבנה. DeepRead מציע דרך מעשית להפוך מסמכים ארוכים ל״קריאים״ עבור סוכן: קודם לאתר איפה במסמך נמצאת התשובה (באיזה סעיף/תת‑סעיף ובאיזו פסקה), ואז לקרוא בצורה רציפה ושומרת-סדר בתוך אותו אזור. התוצאה הצפויה היא פחות “קפיצות” בין צ’אנקים, פחות החמצת מידע שמופיע בהמשך אותו סעיף, ויותר תשובות שמבוססות על הקשר נכון. עסקית, זה יכול לשפר מענה לשאלות לקוחות ועובדים על נהלים, להאיץ בדיקות ציות (compliance), לייעל ניתוח חוזים, ולשפר מערכות חיפוש פנימיות על דוקומנטים—במיוחד כאשר נדרש להבין סעיפים ארוכים והיררכיים ולא רק למצוא משפט בודד.

TL;DR

המאמר מציג את DeepRead—סוכן חיפוש וקריאה רב-סבבי עבור שאלות-ותשובות על מסמכים ארוכים (בעיקר PDF), שמנצל במפורש את מבנה המסמך במקום להתייחס אליו כאוסף “שטוח” של צ’אנקים. DeepRead ממיר PDF ל‑Markdown מובנה בעזרת OCR מבוסס LLM, שומר כותרות וגבולות פסקאות, ומבצע אינדוקס ברמת פסקה. לכל פסקה מוקצה “מפתח קואורדינטיבי” שמקודד את זהות הסעיף והמיקום הסדרתי בתוכו, וכך ניתן לבצע חיפוש שמחזיר גם את ההקשר המבני. המערכת מציידת את ה‑LLM בשני כלים משלימים: Retrieve שמאתר פסקאות רלוונטיות ומחזיר את הקואורדינטות שלהן (עם הקשר סריקה קל), ו‑ReadSection שמאפשר קריאה רציפה ושומרת-סדר בתוך טווח סעיף/פסקאות מוגדר. ניסויים מראים ש‑DeepRead משפר משמעותית ביצועים לעומת סוכני חיפוש “Search‑o1 style” ב‑document QA, ומדגים סינרגיה בין שלבי איתור לקריאה בדפוס התנהגות דמוי “לאתר ואז לקרוא”.

פירוט המאמר

רקע ומוטיבציה

המאמר מתמקד בגלגול החדש של Retrieval‑Augmented Generation (RAG) בסביבות סוכניות (agentic): במקום חיפוש חד‑פעמי והפקת תשובה, מערכות מודרניות מבצעות איסוף ראיות רב‑סבבי, מונחה‑החלטות, תוך שימוש בכלים. עם זאת, בעבודה מול מסמכים ארוכים—כגון PDF של דוחות, מאמרים, חוקים, מפרטים—רבות מהמסגרות מתייחסות למסמך כאל אוסף שטוח של צ’אנקים. גישה זו מחמיצה “פריורים טבעיים” של מסמכים: ארגון היררכי (סעיפים/תתי‑סעיפים), והזרימה הסדרתית (sequential discourse) בתוך סעיף. התוצאה היא חיפוש שמחזיר פסקאות מנותקות ללא הבנה איפה הן יושבות במבנה, ולעיתים גם קריאה לא רציפה שמדלגת על הקשר סמוך.

תרומת המחקר (Overview)

החוקרים מציגים את DeepRead, סוכן reasoning למסמכים ארוכים שמודע למבנה המסמך (document structure‑aware). המערכת מכוונת לשפר שאלות‑ותשובות על מסמכים (document question answering) באמצעות:

  1. שימור מבנה בעת המרת PDF לטקסט.
  2. אינדוקס ברמת פסקה במקום צ’אנקים גסים.
  3. ייצוג קואורדינטיבי לכל פסקה שמקודד את זהות הסעיף והמיקום הסדרתי בתוכו.
  4. שני כלים משלימים ל‑LLM: כלי איתור (Retrieve) וכלי קריאה רציפה ממוקדת‑סעיף (ReadSection).

עיבוד מסמך: PDF → Markdown מובנה

DeepRead מתחיל מ‑PDF וממיר אותו ל‑Markdown מובנה באמצעות OCR מבוסס LLM. המטרה היא לא רק להוציא טקסט, אלא לשמר:

  • כותרות וסימון היררכי של סעיפים.
  • גבולות פסקאות (paragraph boundaries).

שימור זה הוא תנאי לכך שהמערכת תוכל “לדעת” מהו סעיף, מהו תת‑סעיף, ואיזה משפטים שייכים לאותו רצף טיעון.

אינדוקס וייצוג מבני ברמת פסקה

לאחר ההמרה, המערכת מבצעת אינדוקס של המסמך ברמת פסקאות. לכל פסקה מוקצה מפתח מטא‑דאטה בסגנון קואורדינטות שמכיל:

  • Section identity: לאיזה סעיף/כותרת הפסקה שייכת.
  • In‑section order: מהו המספר הסדרתי של הפסקה בתוך אותו סעיף.

במילים פשוטות: במקום רק להחזיר “פסקה רלוונטית”, DeepRead מחזיר “פסקה 3 בסעיף 2.1”, וכך ה‑LLM יכול לבקש קריאה של פסקאות סמוכות באותו סעיף, בסדר הנכון.

כלי ה‑LLM: Retrieve ו‑ReadSection

DeepRead מצייד את המודל בשני כלים משלימים:

Retrieve

כלי האיתור מאתר פסקאות רלוונטיות לשאילתה ומחזיר אותן יחד עם הקואורדינטות המבניות שלהן. בנוסף מצוין כי הכלי מספק lightweight scanning context—כלומר הקשר סריקה קל שמסייע למודל להבין במה מדובר ולכוון את צעד הקריאה הבא.

ReadSection

כלי הקריאה מאפשר קריאה רציפה ושומרת-סדר (contiguous, order‑preserving) בתוך טווח מוגדר של סעיף ופסקאות. הכלי מאפשר, למשל, לקרוא פסקאות 3–7 בתוך סעיף מסוים ללא ערבוב עם סעיפים אחרים, וכך לשחזר את אופן הקריאה האנושי: אם מצאת את המקום הנכון, אתה ממשיך לקרוא סביבו.

ניסויים והערכה

המחברים מדווחים כי ניסויים מראים ש‑DeepRead משיג שיפורים משמעותיים לעומת סוכן חיפוש סוכני בסגנון Search‑o1 עבור משימות document question answering. בנוסף, המאמר מדגיש כי מתקיים אפקט סינרגטי בין כלי האיתור לכלי הקריאה: השילוב של “לאתר פסקאות” ואז “לקרוא רציף בתוך הסעיף” עובד טוב יותר מכל אחד מהם לבד.

המאמר כולל גם ניתוח התנהגותי עדין (fine‑grained behavioral analysis), שמראה כי דפוס הפעולה של DeepRead דומה להתנהגות אנושית: "locate then read"—תחילה איתור מיקום, לאחר מכן קריאה רציפה בהקשר המקומי.

הערה: בטקסט שסופק (עמוד האבסטרקט של arXiv) לא הופיעו מספרים/מדדים כמותיים (כגון EM/F1 או אחוזי שיפור) ולכן לא ניתן לשחזר כאן תוצאות מספריות מדויקות.

מגבלות והקשר

על בסיס האבסטרקט, המערכת תלויה באיכות ההמרה מ‑PDF ל‑Markdown (OCR וניתוח מבנה), וביכולת לייצר גבולות פסקאות וכותרות באופן אמין. כמו כן, ההצעה מכוונת במיוחד למסמכים בעלי מבנה היררכי ברור; במסמכים לא מובנים ייתכן שהיתרון קטן יותר.

מסקנות

DeepRead מציע מסגרת סוכנית שמחזירה את המבנה למסמכים ארוכים בתהליכי RAG: אינדוקס פסקאות עם קואורדינטות מבניות, וכלים שמאפשרים להפריד בין “מציאה” לבין “קריאה רציפה”. התוצאות המתוארות מצביעות על שיפור בביצועי QA על מסמכים ועל התנהגות סוכנית דמוית‑אדם, מה שמחזק את הטענה שמבנה מסמך הוא אות חיוני שמערכות חיפוש סוכני צריכות לנצל ולא להתעלם ממנו.

✨ היילייטס

  • מודעות למבנה מסמך במקום צ’אנקים שטוחים: DeepRead מתבסס על כותרות, סעיפים וגבולות פסקאות כדי להפוך QA על מסמכים ארוכים ליציב ומדויק יותר.
  • PDF→Markdown באמצעות OCR מבוסס LLM עם שימור היררכיה: המרה שמטרתה לשמר כותרות ופסקאות ולא רק להפיק טקסט גולמי.
  • אינדוקס ברמת פסקה עם “קואורדינטות” (section + order): לכל פסקה מזהה שמאפשר לחיפוש להחזיר גם מיקום והקשר מבני.
  • שני כלים משלימים לסוכן—Retrieve + ReadSection: איתור ממוקד שמספק קואורדינטות, ולאחריו קריאה רציפה ושומרת-סדר בתוך טווח סעיף/פסקאות.
  • נמצא שיפור משמעותי מול baseline בסגנון Search‑o1 וסינרגיה בין הכלים: ניתוח התנהגותי מצביע על דפוס פעולה "locate then read" הדומה לקריאה אנושית.

חוקרים

Zhanli LiHuiwen TianLvzhou LuoYixuan CaoPing Luo

מילות מפתח

agentic searchRAGdocument QAstructure-aware retrievallong-document reasoning

שאלות נפוצות