
מודל AI חדש ממפה כיצד גנים פועלים יחד בתאים
חוקרים מבית הספר לרפואה איקאן ב-Mount Sinai פיתחו מודל בינה מלאכותית מסוג GSFM המסוגל ללמוד דפוסי פעילות גנטית בהקשרים ביולוגיים מגוונים. המודל, שאומן על מיליוני קבוצות גנים מתוך מחקרים מפורסמים, עשוי לשפר את היכולת לאתר מטרות תרופתיות חדשות, לזהות ביומרקרים ולהאיץ מחקר גנומי קליני.
כשבינה מלאכותית לומדת את שפת הגנום
חוקרים מבית הספר לרפואה איקאן ב-Mount Sinai פרסמו השבוע מחקר המציג מודל בינה מלאכותית מסוג GSFM - קיצור של Gene Set Foundation Model - המסוגל ללמוד כיצד גנים פועלים יחד בתוך התא האנושי. המחקר פורסם בגיליון המקוון של כתב העת Patterns מבית Cell Press.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
הרעיון המרכזי מאחורי המודל שאוב ישירות מעולם ה-LLM: בדיוק כפי שמודלים כמו ChatGPT לומדים את משמעות המילים מתוך ההקשר שבו הן מופיעות, כך GSFM לומד את תפקידו הביולוגי של כל גן בהתאם ל"הקשר התאי" שבו הוא פעיל. הגן, כמו המילה, יכול לשאת משמעויות שונות בהתאם לסביבה.
"גנים כמעט לעולם אינם פועלים לבד", הסביר פרופסור אבי מעיין, המחבר הבכיר של המחקר ומנהל המרכז לביואינפורמטיקה ב-Mount Sinai. "שאלנו האם AI יכול ללמוד את ה'משמעות' של גנים באותו אופן שמודלי שפה לומדים מילים. ה-GSFM תוכנן לעשות בדיוק זאת."
אימון על מיליוני קבוצות גנים
המודל אומן על מאגר נרחב של קבוצות גנים שנאספו ממאות אלפי מחקרים מדעיים ומסדי נתוני ביטוי גנטי. שיטת האימון דמתה לפתרון פאזל: המודל קיבל חלק מקבוצת גנים והתבקש לחזות את החסרים. בתהליך חוזר זה הוא למד דפוסי עומק המתארים כיצד גנים מתקבצים ומקיימים אינטראקציה.
בשונה ממודלים ביולוגיים קיימים שנשענים בעיקר על נתוני ביטוי גנטי, GSFM מאומן על קבוצות גנים - סוג מידע שונה ופחות מנוצל. גישה זו מאפשרת לשלב נתונים ממחלות שונות, שיטות ניסוי מגוונות ותנאי מחקר רבים, ולייצר ייצוג אחיד של יחסי הגנים בכל הביולוגיה.
לצורך הערכת ביצועיו, המודל אומן על נתונים עד לתאריך חתך מסוים, ולאחר מכן נבחנה יכולתו לחזות תגליות שדווחו במחקרים שפורסמו אחרי אותו תאריך. התוצאות הראו ביצועים גבוהים ביחס לגישות חלופיות.
יישומים: מגילוי מטרות תרופתיות עד ניתוח מולטי-אומיקס
המודל מסוגל לסייע בזיהוי תפקידם של גנים שנחקרו מעט, מבלי להזדקק לניסויי מעבדה מיידיים. בנוסף, הוא יכול לזהות גנים המעורבים בתהליכי מחלה, להציע מטרות תרופתיות פוטנציאליות וביומרקרים, ולשפר את ניתוח ה-gene set enrichment - שיטה נפוצה ביולוגיה מולקולרית.
צוות המחקר מתכנן בשלב הבא לשלב את GSFM עם מודלי AI נוספים: אחד הכיוונים הוא אינטגרציה עם מודלי שפה ליצירת הסברים טקסטואליים של תפקודי גנים, והשני - שילוב עם מודלי AI המתמקדים בתרופות, במטרה לחזות כיצד תרכובות כימיות מקיימות אינטראקציה עם תאים.
כלים מסוג GSFM יכולים להאיץ את שלב גילוי המטרות התרופתיות - שלב יקר וממושך בתהליך הפיתוח. חברות כמו Compugen ו-Pepromene Bio, הפועלות בתחום גילוי מטרות מבוסס נתונים, עוקבות מקרוב אחר התפתחויות מהסוג הזה.
במרכזי הגנומיקה של קופות החולים ובמוסדות אקדמיים כמו האוניברסיטה העברית ובמכון ויצמן, שמושקעים כיום ביצירת תשתיות multi-omics, מודל מהסוג שפיתחו ב-Mount Sinai עשוי לשמש שכבת פרשנות שתהפוך כמויות גדולות של נתונים גנומיים לתובנות קליניות פעילות.
