חזרה למחקרים
שיפור זיהוי ישויות בעלות שם במצבי few-shot עבור מודלי שפה גדולים באמצעות פרומפטינג דינמי מובנה עם יצירה מועשרת באחזור
npj Artificial Intelligence
בינה מלאכותית רפואית ובריאות דיגיטלית

שיפור זיהוי ישויות בעלות שם במצבי few-shot עבור מודלי שפה גדולים באמצעות פרומפטינג דינמי מובנה עם יצירה מועשרת באחזור

מחברים:Yao Ge
תאריך פרסום:30 במרץ 2026
סוג המחקר:ניסוי אמפירי
מקור:npj Artificial Intelligence

יישומי המאמר

המחקר מציע דרך פרקטית לשפר מערכות AI שקוראות טקסטים רפואיים ומחלצות מהם מידע חשוב כמו מחלות, תרופות, תסמינים והשפעות קליניות או חברתיות — גם כאשר יש מעט מאוד דוגמאות מסומנות לאימון. עבור ארגוני בריאות, חברות פארמה, סטארט-אפים רפואיים ומנהלי מוצר, המשמעות היא שאפשר להקים מערכות ניתוח מסמכים רפואיים, תיקים קליניים, מאמרים מדעיים או פוסטים ברשתות חברתיות מהר יותר ובעלות נמוכה יותר, בלי לבנות מאגרי אנוטציה גדולים ויקרים. השיטה גם מאפשרת התאמה טובה יותר בין מוסדות שונים וסוגי טקסט שונים, משום שהיא בוחרת בזמן אמת דוגמאות רלוונטיות במיוחד לכל קלט. בפועל, זה יכול לתרום לאוטומציה של סיכום מידע רפואי, ניטור בטיחות תרופות, גילוי תופעות לוואי, תמיכה במחקר קליני ומעקב אחר מגמות בריאות באוכלוסייה.

TL;DR

המחקר בוחן כיצד לשפר זיהוי ישויות רפואיות (NER) במצבי few-shot, שבהם קיימות מעט מאוד דוגמאות מסומנות, באמצעות מודלי שפה גדולים. החוקרים מציעים שתי תרומות מרכזיות: פרומפט סטטי מובנה עם שישה רכיבים, ופרומפט דינמי המבוסס על Retrieval-Augmented Generation, אשר שולף בזמן אמת דוגמאות דומות במיוחד לטקסט הנכנס. הניסוי בוצע על חמישה מאגרי נתונים ביו-רפואיים באמצעות GPT-4, GPT-3.5, LLaMA 3-70B ו-GPT-OSS-120B. פרומפט סטטי מובנה שיפר את ציון ה-F1 הממוצע ב-12.0% עבור GPT-4, ב-11.4% עבור GPT-3.5 וב-11.1% עבור LLaMA 3-70B לעומת פרומפט בסיסי. פרומפט דינמי שיפר עוד יותר את הביצועים, כאשר TF-IDF היה מנגנון האחזור היעיל ביותר ברוב המקרים, עם שיפור ממוצע של 8.8% ב-5-shot ושל 6.3% ב-10-shot. בנוסף, נמצא כי גם מאגר אחזור קטן יחסית של 100–200 דוגמאות מסומנות מספיק כדי להשיג רוב התועלת, מה שמדגיש יעילות אנוטציה ויישומיות בעולם האמיתי.

פירוט המאמר

מבוא

המאמר עוסק במשימת Named Entity Recognition ‏(NER) בתחום הביו-רפואי, כלומר זיהוי אוטומטי של ישויות כמו מחלות, תרופות, תסמינים והשפעות קליניות מתוך טקסט חופשי. זוהי משימה בסיסית ובעלת ערך רב ברפואה דיגיטלית, אך היא מאתגרת במיוחד משום שטקסטים רפואיים מאופיינים במונחים נדירים, שפה מקצועית משתנה בין תתי-תחומים, והבדלים בין מוסדות ותיעוד קליני. בנוסף, בניית מאגרי אימון גדולים דורשת מומחיות רפואית, זמן וכסף, ולעיתים בלתי אפשרית בגלל פרטיות או נדירות של מצבים רפואיים.

החוקרים מציעים להתמודד עם הבעיה באמצעות few-shot learning עם מודלי שפה גדולים, ובמיוחד באמצעות שילוב של פרומפטים מובנים עם Retrieval-Augmented Generation ‏(RAG). ההשערה המרכזית היא שפרומפט דינמי, שמתעדכן לפי טקסט הקלט באמצעות שליפת דוגמאות דומות במיוחד, ישפר ביצועים בהשוואה לפרומפט סטטי קבוע.

מטרות ותרומות המחקר

למחקר ארבע תרומות עיקריות:

  1. פיתוח מסגרת לפרומפט סטטי מובנה עבור NER ביו-רפואי.
  2. שילוב והערכה של RAG עם כמה מנועי אחזור שונים.
  3. השוואה שיטתית בין פרומפט סטטי לפרומפט דינמי במצבי few-shot.
  4. מחקר אבלציה שבודק כיצד גודל מאגר האחזור משפיע על הביצועים.

מערכי הנתונים

הניסויים בוצעו על חמישה מאגרי נתונים ביו-רפואיים שונים:

  • MIMIC-III: רשומות קליניות מטיפול נמרץ.
  • BC5CDR: זיהוי ישויות של מחלות וכימיקלים ממאמרים ביו-רפואיים.
  • NCBI-Disease: אבסטרקטים מ-PubMed עם אנוטציות של מחלות.
  • Med-Mentions: קורפוס גדול עם ישויות מקושרות ל-UMLS.
  • REDDIT-IMPACTS: מאגר מאתגר מרשתות חברתיות על השפעות קליניות וחברתיות של שימוש באופיואידים.

השונות בין המאגרים אפשרה לבחון את השיטה גם על טקסטים פורמליים ומובנים וגם על טקסטים רועשים ולא פורמליים.

שיטות: פרומפט סטטי מובנה

החוקרים בנו פרומפט סטטי עם שישה רכיבים:

  1. תיאור המשימה, הגדרות היישויות ופורמט הפלט.
  2. תיאור מאפייני מערך הנתונים.
  3. דוגמאות לישויות נפוצות מתוך סט האימון.
  4. ידע רקע מתחום UMLS.
  5. משוב מבוסס ניתוח שגיאות.
  6. דוגמאות few-shot מסומנות.

הם גם תכננו פורמט קלט/פלט חדש: במקום לבקש מהמודל להחזיר span-ים או BIO על טקסט לא ממותג, סיפקו למודל רשימת טוקנים, וביקשו להחזיר כל טוקן בצירוף התווית שלו. כך נשמרת התאמה מדויקת בין טוקנים לתוויות, ומפחיתים שגיאות הנובעות מטוקניזציה שונה של המודל.

שיטות: פרומפט דינמי עם RAG

בגישה הדינמית, מנוע אחזור מאנדקס מראש דוגמאות אנוטטיביות מתוך סט האימון. עבור כל משפט קלט חדש, המערכת מאחזרת את הדוגמאות הדומות ביותר, ומשלבת אותן בתוך הפרומפט לפני ההפעלה של מודל השפה. נבחנו ארבע שיטות אחזור:

  • TF-IDF
  • SBERT
  • ColBERT
  • DPR

ההיגיון הוא לבחור דוגמאות רלוונטיות סמנטית במקום דוגמאות אקראיות, תוך שליטה באורך הפרומפט.

מערך ניסויי

בפרומפט הסטטי נבחנו GPT-3.5, GPT-4 ו-LLaMA 3-70B. בפרומפט הדינמי נבחנו GPT-4, LLaMA 3-70B ו-GPT-OSS-120B. ההערכה נעשתה בתרחישים של 5-shot, 10-shot ו-20-shot. המדד המרכזי היה micro-F1 ברמת היישות, עם התאמה מדויקת גם של span וגם של תווית. לצורך יציבות סטטיסטית, התוצאות חושבו כממוצע על פני 4 בחירות אקראיות של דוגמאות, ונוספו רווחי סמך של 95% באמצעות bootstrap עם 1000 דגימות.

תוצאות: פרומפט סטטי

הוספת רכיבי הפרומפט המובנים שיפרה באופן עקבי את הביצועים בכל המודלים ובכל המאגרים. לעומת פרומפט בסיסי:

  • GPT-4 השתפר בממוצע ב-12.0% F1, עם טווח שיפור של 6.95% ב-MIMIC III ועד 23.7% ב-Med-Mentions.
  • GPT-3.5 השתפר ב-11.4% בממוצע, עם טווח של 7.1% ב-BC5CDR ועד 22.9% ב-Med-Mentions.
  • LLaMA 3-70B השתפר ב-11.1% בממוצע, כאשר השיפור הגדול ביותר היה 21.4% ב-Med-Mentions.

GPT-4 היה המודל החזק ביותר בכל התצורות. רכיב ה-UMLS לא תמיד עזר: למשל ב-REDDIT-IMPACTS ביצועי GPT-3.5 ירדו מעט מ-16.7% ל-16.4%, כנראה כי המידע הכללי האריך את הפרומפט ודילל רמזים ספציפיים למשימה.

תוצאות: פרומפט דינמי עם RAG

כל שלושת המודלים הרוויחו מהעדכון הדינמי של הפרומפט. TF-IDF היה לרוב מנוע האחזור הטוב ביותר. למשל ב-BC5CDR:

  • עבור GPT-4 הושגו F1 של 85.9%, 86.6% ו-87.2% ב-5, 10 ו-20-shot בהתאמה.
  • עבור GPT-OSS הושגו 86.0%, 87.8% ו-86.5%.

בממוצע על פני המודלים והמאגרים:

  • ב-5-shot, TF-IDF השיג שיפור ממוצע של 8.8%, SBERT השיג 8.4%, ColBERT 7.3%, ו-DPR 6.8%.
  • ב-10-shot, SBERT השיג את השיפור הגבוה ביותר עם 6.9%, TF-IDF 6.3%, DPR 6.1%, ו-ColBERT 3.5%.
  • ב-20-shot, TF-IDF שוב הוביל עם 6.2%, SBERT עם 5.6%, DPR עם 4.3%, ו-ColBERT עם 2.1%.

SBERT בלט במיוחד ב-REDDIT-IMPACTS, כנראה בזכות יכולתו להתמודד עם גיוון לשוני. לדוגמה, עבור GPT-4 הוא השיג 33.7% ב-5-shot ו-35.5% ב-10-shot, ועבור LLaMA 3 הגיע ל-41.4% ב-20-shot.

השוואת מודלים והשפעת מספר הדוגמאות

GPT-4 הוביל באופן עקבי על פני LLaMA 3 ו-GPT-OSS. ב-5-shot הוא עלה על LLaMA 3 ב-3.94% בממוצע ועל GPT-OSS ב-5.87%; ב-10-shot הפערים גדלו ל-5.47% ו-7.99%; וב-20-shot ל-8.30% ו-7.58%.

עבור GPT-4, העלאה מ-5 ל-10 דוגמאות שיפרה F1 ב-2.51%, ומ-10 ל-20 דוגמאות בעוד 1.64% בלבד, כלומר יש תשואה פוחתת. עבור GPT-OSS השיפור מ-5 ל-10 היה קטן מאוד, 0.39%, ומ-10 ל-20 היה 2.05%. אצל LLaMA 3 התמונה הייתה פחות עקבית, ובחלק מהמאגרים 10-shot היה עדיף על 20-shot.

אבלציה: גודל מאגר האחזור

החוקרים בדקו האם חייבים מאגר גדול של דוגמאות מסומנות כדי להשיג תועלת. הניסוי נערך עם LLaMA 3-70B, מנועי TF-IDF ו-SBERT, ובמאגרי אחזור בגודל 50, 100, 200 או כל סט האימון.

התוצאה המרכזית: הגדלת מאגר האחזור בדרך כלל משפרת ביצועים, אך רוב הרווח מתקבל כבר עם 100–200 דוגמאות. למשל ב-BC5CDR ב-5-shot, F1 עלה מ-75.07% עם 50 דוגמאות ל-78.45% עם 200. ב-MIMIC III עלה מ-68.81% ל-71.51%. ב-10-shot עבור BC5CDR, F1 עלה מ-76.28% עם 50 דוגמאות ל-79.22% עם 200, ורק ל-80.87% עם כל המאגר — שיפור זניח סטטיסטית. ב-MIMIC III, שימוש בכל המאגר אפילו פגע מעט לעומת 200 דוגמאות.

דיון ומסקנות

המחקר מראה שפרומפטים מובנים משפרים משמעותית few-shot NER רפואי, אך פרומפט דינמי עם RAG משפר עוד יותר משום שהוא מתאים את ההקשר לטקסט הספציפי. המסקנה החשובה היא שהרלוונטיות של הדוגמאות חשובה יותר מהכמות שלהן. עודף דוגמאות יכול להאריך את הפרומפט, ליצור רעש, ולהחליש הוראות קריטיות.

באופן מעניין, שיטת אחזור פשוטה כמו TF-IDF התבררה כאפקטיבית מאוד, ולעיתים אף טובה יותר מגישות עמוקות ומורכבות יותר. SBERT עדיף יותר כשיש גיוון לקסיקלי גבוה. מבחינה מעשית, המשמעות היא שניתן לבנות מערכות NER רפואיות חזקות גם עם מספר קטן יחסית של דוגמאות מסומנות, כל עוד בוחרים אותן חכם ומשלבים אותן בפרומפט מובנה. זהו יתרון חשוב לסביבות רפואיות אמיתיות, שבהן אנוטציה יקרה, נתונים רגישים, ולעיתים אין אפשרות לאסוף מאגרי אימון גדולים.

✨ היילייטס

  • פרומפט סטטי מובנה שיפר ביצועים בצורה עקבית: שילוב שיטתי של תיאור משימה, תיאור דאטה, דוגמאות נפוצות, משוב מניתוח שגיאות ודוגמאות few-shot העלה את ה-F1 הממוצע ב-12.0% עבור GPT-4, ב-11.4% עבור GPT-3.5 וב-11.1% עבור LLaMA 3-70B לעומת פרומפט בסיסי.
  • פרומפט דינמי מבוסס RAG שיפר עוד יותר את few-shot NER: אחזור דוגמאות רלוונטיות לפי טקסט הקלט שיפר את ה-F1 הממוצע ב-8.8% ב-5-shot וב-6.3% ב-10-shot, מה שממחיש שדוגמאות מותאמות עדיפות על דוגמאות אקראיות.
  • TF-IDF הפתיע לטובה והיה לרוב מנגנון האחזור הטוב ביותר: למרות פשטותו, TF-IDF עקף או השתווה לשיטות מתקדמות יותר כמו ColBERT ו-DPR, ובמקרים רבים גם ל-SBERT; עם זאת, SBERT היה חזק במיוחד על טקסטים רועשים ומגוונים כמו REDDIT-IMPACTS.
  • GPT-4 היה המודל החזק והיציב ביותר בכל התרחישים: הוא הוביל על LLaMA 3 ו-GPT-OSS בכל טווחי ה-shot, במיוחד במאגרים מאתגרים עם שפה לא פורמלית או ישויות עמומות.
  • לא נדרש מאגר אנוטציה גדול כדי להפיק ערך: בניסוי האבלציה נמצא כי מאגר אחזור של 100–200 דוגמאות כבר משיג תוצאות הקרובות לשימוש בכל סט האימון, מה שמדגיש יעילות אנוטציה ויכולת יישום טובה בסביבות דלות-נתונים.

חוקרים

Yao Ge

מילות מפתח

בינה מלאכותית רפואית ובריאות דיגיטליתעיבוד שפה טבעיתמודלים גדוליםבינה מלאכותית גנרטיביתלמידה עמוקה

שאלות נפוצות