
מחקר בהרווארד: מודל של OpenAI התעלה על רופאים בדיוק אבחון במיון
מחקר חדש מבית הספר לרפואה של הרווארד מצא שמודל o1 של OpenAI הציע אבחנות מדויקות יותר מרופאים בבדיקות חדר מיון אמיתיות. במקרי מיון ראשוניים, המודל הגיע לאבחנה נכונה או קרובה ב-67% מהמקרים, לעומת 55% ו-50% אצל שני רופאים מומחים. החוקרים מדגישים: תוצאות אלה מחייבות ניסויים קליניים פרוספקטיביים, ולא מעידות על מוכנות AI לקבלת החלטות רפואיות עצמאיות.
מודל AI מול רופאים: תוצאות מפתיעות ממחקר שטח
מחקר חדש שפורסם השבוע בכתב העת Science בוחן את יכולות מודלי השפה הגדולים של OpenAI בהקשרים רפואיים מגוונים, כשהתוצאות מעלות שאלות מהותיות לגבי התפקיד העתידי של AI ברפואה הקלינית.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
המחקר, שהתנהל תחת הנחיית רופאים ומדעני מחשב מבית הספר לרפואה של הרווארד ומרכז הרפואי Beth Israel Deaconess, בחן 76 מטופלים שהגיעו למיון. החוקרים השוו בין אבחנות שניתנו על ידי שני רופאים מומחים למחלות פנימיות לבין אבחנות שיצרו מודלי o1 ו-4o של OpenAI. שני רופאים אחרים העריכו את האבחנות באופן עיוור, ללא ידיעה מהו מקורן.
התוצאות היו בולטות במיוחד: במקרי המיון הראשוניים, כאשר כמות המידע המינימלית והדחיפות מקסימלית, מודל o1 הגיע לאבחנה מדויקת או קרובה מאוד ב-67% מהמקרים. לעומת זאת, אחד הרופאים הגיע לדיוק של 55% והשני ל-50%.
מבחן אמת במציאות קלינית
אחד ההיבטים המשמעותיים במחקר הוא שהחוקרים לא "עיבדו מראש" את הנתונים. מודלי ה-AI קיבלו בדיוק את אותו מידע שהיה זמין ברשומות הרפואיות האלקטרוניות בזמן האמת של כל אבחנה, בדיוק כפי שרופאים היו מקבלים במהלך העבודה השגרתית שלהם.
"בדקנו את מודל ה-AI כמעט מול כל אמת מידה אפשרית, והוא עלה הן על מודלים קודמים והן על רופאים", אמר ארג'ון מנראי אשר עומד בראש מעבדת AI בבית הספר לרפואה של הרווארד ואחד ממחברי המחקר הראשיים.
גבולות ברורים ואזהרות
עם זאת, החוקרים ממהרים להדגיש שהמחקר אינו טוען ש-AI מוכן לקבל החלטות של חיים ומוות במציאות הקלינית הנוכחית. במקום זאת, הממצאים מצביעים על "צורך דחוף בניסויים פרוספקטיביים כדי להעריך טכנולוגיות אלה בסביבות טיפול אמיתיות".
המחקר גם מציין מפורשות שהוא בחן רק ביצועים מבוססי טקסט, וכי "מחקרים קיימים מראים שמודלי היסוד הנוכחיים מוגבלים יותר בהיגיון על פני קלטים שאינם טקסט".
אדם רודמן, רופא מ-Beth Israel שגם נמנה כאחד מחברי המחקר, הזהיר שכיום "אין מסגרת פורמלית לאחריות" סביב אבחנות AI, ושמטופלים עדיין "רוצים שבני אדם ידריכו אותם בהחלטות חיים ומוות".
ביקורת מקצועית על הממצאים
קריסטן פנתגאני, רופאה במיון, העלתה ביקורת חשובה על המחקר: הוא השווה בין AI לבין רופאים מומחים למחלות פנימיות, ולא רופאי מיון. "אם אנחנו הולכים להשוות כלי AI ליכולת קלינית של רופאים, עלינו להתחיל בהשוואה לרופאים שבאמת מתמחים באותה התמחות", היא כתבה. פנתגאני גם הדגישה שהמטרה העיקרית של רופא מיון אינה לנחש את האבחנה הסופית, אלא "לקבוע אם בנקודת זמן המיידית יש לך מצב שיכול להרוג אותך".
משמעות לשוק הישראלי
המחקר מגיע בעת שמערכת הבריאות בישראל מתמודדת עם עומס כבד במיונים ומחסור כרוני בכוח אדם רפואי. חברות ישראליות רבות, כמו Zebra Medical Vision ו-Aidoc, כבר מובילות בתחום הדימות הרפואי באמצעות AI. הממצאים עשויים לאותת על הזדמנות משמעותית לפיתוח כלי עזר קליניים מבוססי LLM שיכולים לתמוך ברופאים בתהליך האבחון, במיוחד בשעות שיא ובמצבי לחץ.
יחד עם זאת, הצורך בפיתוח תשתיות רגולטוריות ומסגרות אחריות מתאימות יהווה אתגר משמעותי גם עבור משרד הבריאות הישראלי, שיצטרך להתאים את הפיקוח על טכנולוגיות אלה למציאות המקומית.
