חזרה למחקרים
שמירת נתונים בידי חברות מגינה על מודלי AI קנייניים מפני מחקר שעשוי להפריך אותם
npj Artificial Intelligence
בינה מלאכותית רפואית ובריאות דיגיטלית

שמירת נתונים בידי חברות מגינה על מודלי AI קנייניים מפני מחקר שעשוי להפריך אותם

מחברים:Anish Karpurapu
תאריך פרסום:16 באפריל 2026
סוג המחקר:מחקר כמותני
מקור:npj Artificial Intelligence

יישומי המאמר

המחקר חשוב במיוחד למנהלים, רגולטורים, גופי בריאות וחברות טכנולוגיה משום שהוא מראה שלא מספיק להציג תוצאות מרשימות של AI רפואי אם הנתונים והמודלים אינם נגישים לבדיקה חיצונית. בעולם המעשי, המשמעות היא שלא כדאי לקבל אוטומטית טענות של ספקים על ביצועי מערכות רפואיות לבישות, ניטור מרחוק או גילוי מוקדם של מחלות. עבור בתי חולים, קופות חולים, מבטחים ורשויות רגולציה, המחקר מדגיש את הצורך בסטנדרטים של אימות עצמאי לפני אימוץ טכנולוגיה בקנה מידה רחב. עבור עסקים, זהו גם מסר אסטרטגי: אמון, שקיפות ויכולת בדיקה יהפכו ליתרון תחרותי. בנוסף, המחקר מציע כיוון יישומי ברור—להקים מאגרי נתונים ציבוריים איכותיים ופלטפורמות בדיקה ניטרליות, בדומה למבחני NIST, כדי לאפשר השוואה אמינה בין מוצרים ולצמצם סיכון לציבור.

TL;DR

המאמר בוחן בעיה רחבה בבינה מלאכותית רפואית: מודלים מסחריים שפותחו על דאטה סגור אינם מאפשרים אימות חיצוני של ביצועיהם. כמקרה מבחן, החוקרים בדקו טענה של Apple שלפיה ניתן לנבא גיל בדיוק גבוה מאוד מאותות PPG משעון חכם, עם שגיאה ממוצעת של כ-2.9–3.2 שנים. באמצעות נתוני UK Biobank, הכוללים כ-170,624 נבדקים עם אותות PPG, הם ניסו לשחזר את התוצאה בעזרת מדד פיזיולוגי מוכר (Arterial Stiffness Index) ושני מודלי למידה עמוקה. בפועל, התוצאות היו חלשות בהרבה: המודלים השיגו דיוק טוב רק במעט מחיזוי גיל ממוצע האוכלוסייה, והחוקרים מצאו חפיפה גבוהה בין אותות של קבוצות גיל שונות ושונות גדולה בתוך אותה קבוצת גיל. מסקנתם היא שהטענות של Apple אינן ניתנות לאימות חיצוני כרגע, וייתכן שאינן כלליות או ביולוגית סבירות ללא משתנים נוספים. המאמר קורא להקמת מאגרי benchmark ציבוריים ופלטפורמות הערכה עצמאיות עבור AI רפואי.

פירוט המאמר

מבוא

המאמר עוסק בבעיה יסודית במחקרי AI רפואי: שימוש במאגרי נתונים קנייניים שאינם זמינים לקהילה המדעית, תופעה שהמחברים מכנים "data hugging". לטענתם, מצב זה חוסם אימות בלתי תלוי של טענות על ביצועי מודלים רפואיים, פוגע בשחזוריות ומייצר תחושת ביטחון מופרזת במערכות שעלולות להיכשל בשטח. המחברים מציבים את הבעיה בהקשר רחב יותר של ספרות רפואית שבה שיתוף נתונים וקוד נדיר מאוד, ומזכירים מקרי כשל קודמים של אלגוריתמים רפואיים מסחריים, כמו מודל ספסיס של Epic ותקלות במערכת טלמטריה של Philips.

מקרה המבחן: טענות Apple לגבי PPG

המאמר מתמקד בטענה של Apple שלפיה ניתן להעריך גיל כרונולוגי או ביולוגי מאותות PPG הנמדדים בשעון חכם בדיוק יוצא דופן. לפי המחברים, Apple דיווחה על תוצאות של MAE סביב 3.2 שנים, ובהמשך אף 2.89 שנים על בסיס PPG בלבד ו-2.46 שנים כאשר משלבים מאפייני התנהגות. הנתונים של Apple נאספו במסגרת Apple Heart and Movement Study, שכללה כ-141,000 משתתפים מגיל 18 ומעלה, עם הקלטות רציפות של PPG ו-ECG משעון Apple לאורך עד 3 שנים. עם זאת, המודל והדאטה אינם ציבוריים, ולכן לא ניתן לבדוק האם התוצאות ניתנות לשחזור.

המחברים מסבירים מדוע הטענה הזו מעוררת ספק: גם מדדים ביולוגיים מבוססים להזדקנות כלי דם אינם חוזים גיל ברמת דיוק כזו, ואפילו שעונים אפיגנטיים מגיעים לדיוק של כ-3.6 שנים בלבד. בנוסף, יתר הספרות בתחום PPG וגיל מדווחת בדרך כלל על שגיאה של כ-7–10 שנים. לכן, אם Apple אכן צודקת, מדובר בפריצת דרך דרמטית; ואם לא, מדובר בדוגמה מסוכנת לקושי לבחון טענות של מערכות קנייניות.

מצב הדאטה הציבורי בתחום PPG

כדי למסגר את בעיית השחזור, המחברים סוקרים את מאגרי ה-PPG הציבוריים הזמינים. המאגר הציבורי הגדול ביותר הוא UK Biobank, עם כ-170,000 נבדקים בגילים בערך 40–70 בביקור הראשון, אך לכל נבדק יש גל PPG קצר מאוד: פולס בודד של 100 נקודות שנמדד מהאצבע לאחר התייצבות של 10–15 שניות. מאגרים אחרים, כמו MIMIC, WESAD, PPG-DaLiA, Stanford Wearables, VitalDB, MESA ו-nuMoM2b, קטנים בהרבה או מגיעים מהקשרים קליניים מאוד ספציפיים.

המאמר מדגיש שגם UK Biobank, למרות גודלו, אינו שקול לנתוני חברה מסחרית המחזיקה רצפי ניטור ארוכים, אך הוא עדיין המאגר הציבורי הרלוונטי והטוב ביותר הזמין. בנוסף, המחברים מתארים חסמים תפעוליים וכלכליים בשימוש ב-Biobank, כולל עלויות גישה, מגבלות פלטפורמה בענן ועלויות חישוביות משמעותיות לאימון מודלים עמוקים.

מטרת המחקר והגישה המתודולוגית

המטרה הייתה לבדוק האם ניתן לשחזר, לפחות בקירוב, את טענות Apple על גיל מתוך PPG באמצעות נתונים ציבוריים. לצורך כך, החוקרים השתמשו בנתוני UK Biobank מהביקור הראשון של 170,624 מטופלים. הם ביצעו שני ניתוחים מרכזיים:

  1. בדיקת Arterial Stiffness Index (ASI) כמאפיין פיזיולוגי ידוע הקשור להזדקנות כלי הדם.
  2. אימון מודלי למידה עמוקה לניבוי גיל ישירות מגל ה-PPG.

הערכת הביצועים נעשתה באמצעות חמש-קיפולי cross-validation. בנוסף, נעשה שימוש ב-PaCMAP כדי להקרין את הייצוגים שנלמדו על ידי המודלים למרחב דו-ממדי ולבחון עד כמה גיל באמת מאורגן בלטנט ספייס.

ניתוח 1: מדד קשיחות עורקים (ASI)

בשלב הראשון נבדק ASI, מדד ידוע להזדקנות וסקולרית, המחושב כגובה חלקי המרחק בין שני פיקים עוקבים בגל. נמצא כי יש מגמה ברורה של עלייה ב-ASI עם הגיל: החציון עלה בערך מ-7.3 מטר/שנייה בגיל 40 לכמעט 9.9 מטר/שנייה בגיל 70. עם זאת, בכל קבוצת גיל נמצאה שונות תוך-קבוצתית גדולה מאוד. למשל, הרבעון השלישי של גיל 40 עמד על 8.8 m/s, גבוה מהחציון של גיל 50 שהיה 8.4 m/s.

כאשר נבנה baseline לניבוי גיל מתוך ASI בלבד, מודל לינארי חד-משתני השיג MAE ממוצע של 6.85 שנים, ומודל GAM מבוסס spline שיפר מעט ל-6.78 שנים. כלומר, אפילו אחד הסמנים הווסקולריים הברורים והאמינים ביותר הנגזרים מ-PPG אינו מתקרב לדיוק של כ-3 שנים.

ניתוח 2: למידה עמוקה לניבוי גיל

בשלב השני המחברים בחנו האם מודלים עמוקים מסוגלים ללמוד מאפיינים סמויים שמעבר ל-ASI. הם השתמשו בשתי ארכיטקטורות: SMoLK, מודל קל ויעיל המותאם לסדרות זמן רפואיות, ומודל מבוסס ResNet, ארכיטקטורה נפוצה במשימות PPG. הרעיון היה לבדוק האם מודל מתקדם יוכל לחלץ מידע עשיר יותר מהאות וכך להתקרב לביצועי Apple.

התוצאה המרכזית הייתה שהמודלים אכן קולטים מעט סיגנל הקשור לגיל, אך הביצועים היו מוגבלים בלבד, ובוודאי לא קרובים לתוצאות של Apple. המחברים מסכמים שהביצועים היו רק מעט טובים יותר מחיזוי גיל ממוצע האוכלוסייה. מבחינת פרשנות פיזיולוגית, זה מתיישב עם ההבנה שהאות מושפע מגורמים רבים נוספים כמו יתר לחץ דם, רמת טריגליצרידים, רקע גנטי, מחלות נלוות ואורח חיים.

בדיקה חזותית של הייצוגים

המאמר מציג שתי תצפיות חזותיות חשובות. ראשית, נמצאו קבוצות של אותות PPG כמעט זהים על פני גילאים שונים, כולל טווחים של 40–70, מה שמרמז שצורת האות לבדה אינה מקודדת גיל בצורה חד-חד-ערכית. שנית, בתוך כל קבוצת גיל יש שונות רבה מאוד. בהקרנת PaCMAP של האמבדינגים שנלמדו על ידי SMoLK ו-ResNet נראה אמנם גרדיאנט מסוים הקשור לגיל לאורך אחד הצירים, אך קיימת חפיפה נרחבת מאוד בין גילאים שונים. המשמעות היא שגיל אינו הגורם הדומיננטי בייצוגים שהמודלים לומדים.

דיון: מה מסבירות התוצאות ביחס ל-Apple

המחברים מודים שיש הבדלים בין המחקר שלהם לבין זה של Apple: ב-UK Biobank האות נמדד מהאצבע במנוחה ולמשך זמן קצר, בעוד Apple השתמשה ב-PPG רציף מהיד; ב-Biobank טווח הגילים הוא בעיקר 40–70, בעוד Apple כוללת גילאים צעירים יותר; וייתכן שגם ארכיטקטורות או tuning אחרים היו משנים חלק מהתוצאות. עם זאת, הם טוענים שהבדלים אלו לבדם אינם מסבירים קפיצה כה גדולה בדיוק.

לכן, המאמר מציג את תוצאותיו כ"בדיקת מציאות" לטענות Apple. בהיעדר גישה למודל, לדאטה או להסבר אילו פיצ'רים הובילו לתוצאה, לא ניתן להכריע אם Apple מצאה סיגנל ביולוגי אמיתי או ניצלה מאפיינים ייחודיים וספציפיים לדאטה שלה. זה בדיוק לב הבעיה: ללא אימות חיצוני, הקהילה והציבור מתבקשים להאמין לטענות ללא דרך לבדוק אותן.

פתרונות מוצעים

המחברים מציעים כמה פתרונות מעשיים. המרכזי שבהם הוא הקמת מספר קטן של מאגרי benchmark ציבוריים, גדולים ואיכותיים, בתחומים רפואיים שבהם ההשפעה האפשרית גבוהה: הפרעות קצב לב, ממוגרפיה לסרטן שד, פתולוגיה דיגיטלית, EHR אורכי, דרמטולוגיה וניטור ביתי. לצד המאגרים הם מציעים להקים פלטפורמות הערכה בלתי תלויות, בדומה למבחני NIST בזיהוי פנים וזיהוי דיבור, שיבדקו מודלים של ספקים חיצוניים לפי פרוטוקולים סטנדרטיים וידווחו גם ביצועים כלליים וגם ביצועים לפי תתי-אוכלוסיות.

בנוסף, המחברים מציעים לאפשר בעתיד גם הערכות אישיות למשתמשים, כך שאדם יוכל לבדוק איזה מוצר בריאות מבוסס-AI מתאים לו יותר. הם גם קוראים לשינוי תפיסתי רחב יותר: לראות בנתונים רפואיים משאב ציבורי משותף ולא נכס פרטי של חוקרים או חברות בלבד, ולעדכן מדיניות IRB, טפסי הסכמה ונהלי שיתוף כך שיקדמו שחזוריות, תוך עמידה ב-HIPAA, GDPR ועקרונות FAIR.

מסקנה

המאמר מסיק כי data hugging הוא חסם מרכזי ל-AI רפואי אמין. מקרה המבחן של ניבוי גיל מ-PPG מדגים כיצד טענה בעלת משמעות ציבורית רחבה עשויה להישאר בלתי ניתנת לאימות, גם כאשר קיימים נתונים ציבוריים גדולים יחסית. ב-UK Biobank, החוקרים לא הצליחו לשחזר ביצועים דומים לאלו שדווחו על ידי Apple, וקיבלו תוצאות המתאימות יותר להבנה הפיזיולוגית הקיימת. מסקנתם היא שהתחום זקוק בדחיפות לתשתיות ציבוריות של דאטה והערכה, אחרת AI רפואי ימשיך להתקדם על בסיס טענות מרשימות אך לא מאומתות.

✨ היילייטס

  • המחקר מראה כי טענת Apple לניבוי גיל מתוך אותות PPG בדיוק של כ-2.9–3.2 שנים אינה ניתנת לשחזור בקלות באמצעות הדאטה הציבורי הגדול ביותר הזמין, UK Biobank, הכולל כ-170,624 נבדקים.
  • מדד פיזיולוגי מוכר להזדקנות כלי דם, ASI, אמנם עלה עם הגיל אך הניב רק ביצועי baseline של MAE 6.85 שנים במודל ליניארי ו-6.78 שנים ב-GAM, רחוק מאוד מהתוצאות שדווחו על ידי Apple.
  • גם שני מודלי למידה עמוקה מתקדמים, SMoLK ו-ResNet, הצליחו ללכוד רק סיגנל גיל חלש יחסית; גיל לא שלט בייצוגים שנלמדו, ונראתה חפיפה גבוהה בין קבוצות גיל שונות.
  • הניתוח החזותי הראה שונות גדולה מאוד בתוך כל קבוצת גיל ודמיון חזק בין חלק מאותות ה-PPG של גילאים שונים, מה שמרמז על תקרת דיוק ביולוגית מוגבלת לניבוי גיל מתוך PPG בלבד.
  • התרומה הרחבה של המאמר היא קריאה להקמת מאגרי benchmark ציבוריים ופלטפורמות הערכה עצמאיות ל-AI רפואי, כדי לאפשר אימות חיצוני של טענות מסחריות ולהגן על הציבור מפני מערכות שלא נבדקו באופן עצמאי.

חוקרים

Anish Karpurapu

מילות מפתח

בינה מלאכותית רפואית ובריאות דיגיטליתאתיקה והוגנות בבינה מלאכותיתאבטחת מידע ופרטיות ב-AIאינטראקציית אדם-AIלמידה עמוקה

שאלות נפוצות