
אימון מקדים של מודל שפה גנומי עם וריאנטים לשיפור המידול של גנומיקה פונקציונלית
יישומי המאמר
המחקר מציע דרך מעשית לשפר הבנה וחיזוי של השפעת שינויים גנטיים על פעילות גנים. עבור ארגוני בריאות, ביוטק ופארמה, המשמעות היא יכולת טובה יותר לזהות אילו וריאנטים גנטיים באמת משנים ביטוי גנים, באילו מקרים אפשר לחזות תגובות ביולוגיות על בסיס גנום אישי, ואילו גנים צפויים יותר או פחות לחיזוי. זה יכול לסייע במחקר תרופות, בזיהוי מטרות טיפוליות, בתעדוף ניסויים במעבדה, ובפיתוח רפואה מותאמת אישית. במקום להסתמך רק על מודלים סטטיסטיים או על גנום ייחוס כללי, הגישה כאן משלבת שונות גנטית אמיתית מאוכלוסייה גדולה ומייצרת מודל שיכול לעבוד טוב יותר גם בין קבוצות אוכלוסייה שונות. עבור מנהלים, זהו צעד לכיוון פלטפורמות AI ביולוגיות מדויקות יותר, שיכולות לקצר זמני מחקר, להפחית ניסויי מעבדה מיותרים, ולשפר קבלת החלטות במחקר גנומי וקליני.
TL;DR
המאמר מציג את UKBioBERT, מודל שפה גנומי המבוסס על DNABERT2 ואומן מחדש על רצפי DNA הכוללים וריאנטים גנטיים מכ-300 אלף משתתפי UK Biobank, תוך שימוש ביותר מ-13 מיליון וריאנטים. מטרת המחקר היא לשפר ייצוגים של רצפים גנומיים כך שישקפו טוב יותר פונקציות גנים ויאפשרו חיזוי מדויק יותר של ביטוי גנים, במיוחד ברמת הפרט. החוקרים מציעים גם מדד חדש להערכת איכות מודלים גנומיים לפי יכולת ההפרדה של פונקציות גנים במרחב האמבדינג. בהמשך הם משלבים את האמבדינגים של UKBioBERT עם מודלים מתקדמים של sequence-to-function, Enformer ו-Borzoi, ויוצרים את UKBioFormer ו-UKBioZoi. המודלים המשולבים משפרים חיזוי ביטוי גנים בתאי קו, בחיזוי מותאם-אישית, ובהכללה בין קוהורטים ואוכלוסיות. בנוסף, UKBioFormer מצליח לזהות כיוון השפעה של eQTLs, לבצע ניתוחי מוטציות in silico, ולהדגים כיצד וריאנטים משפיעים על רגולציית גנים. המחקר מדגיש את הערך של שילוב מודלי שפה גנומיים עם מודלי חיזוי פונקציונליים לצורך קידום גנומיקה פונקציונלית.
פירוט המאמר
רקע ומטרת המחקר
המאמר עוסק באתגר מרכזי בגנומיקה פונקציונלית: כיצד ללמוד מרצפי DNA באופן שמאפשר לחזות ביטוי גנים ולהבין את השפעתם של וריאנטים גנטיים על רגולציה גנטית. מודלי שפה גנומיים קיימים אומנו לרוב על גנום ייחוס, ולעיתים עם הרחבת נתונים מבוססת SNPs, אך לא הראו בצורה מספקת עד כמה וריאנטים אמיתיים משפרים חיזוי ביטוי גנים ברמת הפרט. החוקרים ביקשו לגשר בין שני עולמות: מודלי שפה גנומיים, שמייצרים ייצוגים כלליים של רצפים, ומודלי sequence-to-function כמו Enformer ו-Borzoi, שממפים רצף לפונקציה ביולוגית.
הם מציעים שני מודלים חדשים: UKBioBERT, מודל שפה גנומי שאומן מחדש על רצפים הכוללים וריאנטים אנושיים, ו-UKBioFormer, מודל משולב שמחבר בין Enformer לאמבדינגים של UKBioBERT לצורך חיזוי ביטוי גנים ברמת הפרט וזיהוי eQTL.
תכנון המודל והנתונים
UKBioBERT נבנה כהמשך אימון של DNABERT2, תוך שימוש ב-masked language modeling. החוקרים אספו וריאנטים מכ-300,000 משתתפי UK Biobank ממוצא אירופי, והשתמשו ביותר מ-13 מיליון וריאנטים לצורך pre-training. הרצפים נבנו על ידי עריכת גנום הייחוס כך שישקף החלפות, הוספות ומחיקות, ולאחר מכן פוצלו לסטים ביחס 0.8/0.1/0.1 עבור אימון, ולידציה ובדיקה.
הטוקניזציה מבוססת byte-pair encoding ולא k-mer קבוע, במטרה ללכוד מוטיבים גנטיים מורכבים ולהתמודד טוב יותר עם שינויים במבנה הרצף. החוקרים השוו גם אסטרטגיות pre-training אחרות, כולל contrastive learning וחיזוי LD score, והסיקו כי MLM מספק את הייצוגים הטובים ביותר.
הערכת איכות הייצוגים של UKBioBERT
אחת התרומות המתודולוגיות המרכזיות במאמר היא הצעת מדד חדש להערכת gLMs: עד כמה האמבדינגים מצליחים להפריד בין גנים בעלי פונקציות שונות. החוקרים השתמשו בתוויות פונקציונליות של גנים והשוו בין אמבדינגים ממודלים רבים, תוך שימוש במדדי NMI, ARI ו-ASW, שהממוצע שלהם שימש ציון כולל.
התוצאות הראו כי UKBioBERT השיג את ציון הממוצע הגבוה ביותר בהפרדת פונקציות גנים, גם ללא שימוש בתוויות אלה בזמן האימון. החוקרים מדווחים כי האופטימום הושג כבר בשלבים מוקדמים של האימון, וכי ירידה בציון הקלאסטרים יכולה לשמש אינדיקציה ל-overfitting. עוד נמצא כי הגדלת שיעור הווריאנטים ששולבו באימון שיפרה את האיכות של הייצוגים, בין השאר משום שנוספו יותר וריאנטים סמוך ל-TSS ובגוף הגן. ויזואליזציות UMAP הראו כי UKBioBERT מפריד היטב בין גנים מקודדי חלבון לבין סוגי גנים אחרים. בנוסף, fine-tuning של LLM כללי כמו Llama 3.1 על רצפי DNA לא הצליח להתחרות במודל הייעודי.
שיפור חיזוי ביטוי גנים ברמת סוג תא
לאחר מכן בדקו החוקרים האם האמבדינגים של UKBioBERT משפרים חיזוי ביטוי גנים בקווי תאים. לשם כך שולבו האמבדינגים בתוך EPInformer, מודל המשתמש בפרומוטורים, אננסרים ונתונים אפיגנומיים. נבדקו קווי התאים K562, GM12878 ו-HepG2, תוך שימוש ב-12-fold cross-validation ובהערכת PCC.
הגרסה המשולבת של EPInformer עם אמבדינגים מ-UKBioBERT ובנוסף אמבדינגים טקסטואליים של תיאורי גנים מ-scELMo הייתה הטובה ביותר. בנתוני CAGE-seq של GM12878 המודל השיג PCC ממוצע מעל 0.9, והראה גם שונות נמוכה יותר לעומת גרסאות בסיס. גם בנתוני RNA-seq של HepG2 התוצאה חזרה על עצמה, מה שמחזק את ההכללה של השיטה. החוקרים מציינים כי שילוב מידע על silencers לא תרם לשיפור נוסף.
חיזוי ביטוי גנים ברמת הפרט והבנת predictability
בשלב הבא נבדקה היכולת של האמבדינגים של UKBioBERT לחזות ביטוי גנים מותאם-אישית. נעשה שימוש ב-670 דגימות GTEx עם RNA-seq ו-WGS מזווגים, וב-41 גנים נבחרים. הושוו ElasticNet, Enformer במצב zero-shot, Performer, ו-UKBioBERT עם ElasticNet כרגרסור. ההערכה בוצעה ב-5-fold cross-validation לפי PCC, R2 ו-MSE.
התוצאות הראו כי ElasticNet, UKBioBERT ו-Performer עקפו את Enformer zero-shot. בין UKBioBERT ל-ElasticNet התקבל מתאם גבוה מאוד בביצועים בין גנים שונים, עם PCC = 0.988 ו-p-value = 2.19e-34; ובין UKBioBERT ל-Performer PCC = 0.991 עם p-value = 1.92e-36. עם זאת, לא כל גן ניתן לחיזוי באותה מידה. החוקרים בדקו האם תורשתיות מסבירה זאת, אך לא מצאו מתאם מובהק עם ביצועים: p-value = 0.19 לפי PCC ו-0.17 לפי Spearman.
במקום זאת, נמצא כי יכולת ההפרדה של פרטים לפי רמות ביטוי במרחב האמבדינגים היא אינדיקטור טוב יותר ל-predictability של גן. בנוסף, נמצא מתאם שלילי מובהק בין ציוני GIFtS, המייצגים מורכבות פונקציונלית של גנים, לבין ביצועי חיזוי. כלומר, גנים עם יותר פונקציות קשים יותר לחיזוי מרצף בלבד. נמצא גם ש-mean pooling ו-max pooling טובים יותר מ-CLS pooling למשימות רגרסיה, וכי שימוש ביותר דגימות ובמידע גנומי מלא משני ההורים משפר תוצאות.
UKBioFormer ו-UKBioZoi לחיזוי מותאם-אישית
כדי לשפר עוד את הביצועים, החוקרים שילבו את האמבדינגים של UKBioBERT עם Enformer ו-Borzoi ויצרו את UKBioFormer ו-UKBioZoi. האמבדינגים המאוחדים מוזנים לראש חיזוי, תוך שימוש ב-PEFT לצמצום עלות חישובית. UKBioFormer מכיל 230.7 מיליון פרמטרים ו-UKBioZoi 170.7 מיליון.
בהשוואה ל-Performer, ElasticNet, Gena_LM, HyenaDNA ו-Basenji2, UKBioFormer השיג את הביצועים הטובים ביותר בממוצע. עבור גנים עם predictability טובה, המוגדרת כ-PCC מעל 0.6, UKBioFormer היה טוב יותר מ-Performer ב-63.3% מהגנים. בנוסף הוא דרש פחות זמן ריצה ופחות זיכרון GPU לעומת Performer ו-ElasticNet. UKBioZoi היה מעט פחות מדויק, אך מהיר וחסכוני יותר. החוקרים ממליצים על UKBioFormer כבחירה ראשונה ועל UKBioZoi כאשר משאבי מחשוב מוגבלים.
הכללה בין אוכלוסיות, אימון רב-גני ואבלציות
החוקרים בחנו גם הכללה בין אוכלוסיות: אימון על אירופאים ובדיקה על אפרו-אמריקאים. מודל האמבדינג בלבד של UKBioBERT התקשה, ולעיתים אף נתן מתאמים שליליים בחלק מהגנים. לעומת זאת, Performer ו-UKBioFormer שיפרו בבירור את הביצועים ללא שינוי בנתוני האימון. המסקנה היא שמודלים רצפיים עם receptive field רחב מכלילים טוב יותר בין אוכלוסיות.
אימון רב-גני נבדק בשלוש קבוצות: גנים החולקים enhancer, גנים מאותו מסלול GO, וקבוצת 300 גנים שבהם Enformer אומן מראש. ברוב המקרים אימון קבוצתי לא שיפר ביצועים ואף לעיתים פגע בהם, מה שמרמז שבשלב זה אימון חד-גני הוא האסטרטגיה המעשית יותר.
באבלציות נמצא כי 100 epochs הם אופטימליים, learning rate נמוך מסייע, גיזום שכבות transformer ב-PEFT טוב יותר מ-LoRA, ו-MSE loss עם Adam הוא הבחירה הטובה ביותר. cross-attention לא שיפר משמעותית לעומת MLP פשוט.
זיהוי eQTL והסבריות
לבסוף נבדקה יכולת UKBioFormer לזהות כיוון השפעה של eQTLs. ההשוואה בוצעה מול Performer ו-AlphaGenome, על בסיס נתוני GTEx בדם. UKBioFormer השיג שיעור גבוה יותר באופן מובהק של כיווני eQTL נכונים בכלל 41 הגנים: p-value = 0.02 מול Performer ו-0.06 מול AlphaGenome.
במחקר מקרה על הגן JUP, מתוך 30 eQTLs מובילים שנבדקו, 71% מהתחזיות של UKBioFormer קיבלו את הסימן הנכון, לעומת 53% ב-Enformer ו-68% ב-Performer. נמצא גם כי eQTLs עם סטיית תקן גבוהה יותר היו מזוהים טוב יותר, בהתאם לתצפיות מ-GTEx. שני וריאנטים, rs9910080 ו-rs9903086, הוצגו כמקרי מבחן שבהם המודל זיהה נכון גם את הכיוון וגם את ההשפעה, באמצעות gradient attribution ו-In Silico Mutagenesis. ניתוח מוטיבים דרך JASPAR זיהה מוטיבים רגולטוריים רלוונטיים, כגון JUN-class motif ו-zinc finger factor motif.
מסקנות
המאמר מראה ששילוב וריאנטים אמיתיים באימון מודל שפה גנומי משפר משמעותית את איכות הייצוגים הביולוגיים, את חיזוי ביטוי הגנים, ואת היכולת לפרש השפעות של וריאנטים. UKBioBERT מספק אמבדינגים טובים יותר מגישות קודמות, ו-UKBioFormer משפר חיזוי פרטני וניתוח eQTL, במיוחד עבור גנים בעלי predictability גבוהה. לצד זאת, המחקר מציין מגבלות: הטיה לכיוון אוכלוסייה אירופית, קושי באימון רב-גני, ושונות גבוהה בין גנים. למרות זאת, מדובר בתרומה חשובה לחיבור בין foundation models גנומיים לבין רפואה מותאמת אישית וגנומיקה פונקציונלית.
✨ היילייטס
- החוקרים פיתחו את UKBioBERT, מודל שפה גנומי שאומן עם יותר מ-13 מיליון וריאנטים מ-UK Biobank, והראו שהוא מייצר ייצוגים טובים יותר של גנים בהשוואה למודלים גנומיים מובילים אחרים.
- האמבדינגים של UKBioBERT שיפרו חיזוי ביטוי גנים ברמת סוג תא, ובשילוב עם scELMo בתוך EPInformer התקבלו תוצאות חזקות במיוחד, כולל PCC ממוצע מעל 0.9 בנתוני GM12878 מסוג CAGE-seq.
- בחיזוי ביטוי גנים מותאם-אישית, UKBioFormer עלה על Performer במרבית הגנים בעלי predictability גבוהה, עם שיפור ב-63.3% מהגנים שבהם PCC היה מעל 0.6, ובמקביל היה יעיל יותר חישובית.
- המחקר מראה שתורשתיות לבדה אינה מסבירה עד כמה גן ניתן לחיזוי; במקום זאת, איכות הקלאסטרינג של האמבדינגים והמורכבות הפונקציונלית של הגן מסבירות טוב יותר את רמת ה-predictability.
- UKBioFormer הצליח לזהות את כיוון ההשפעה של eQTLs בצורה טובה יותר ממודלי בסיס, ובמקרה מבחן על JUP זיהה נכון 71% מה-eQTLs שנבדקו, לצד ניתוחי gradient ו-ISM שהמחישו מנגנונים רגולטוריים ברמת הבסיס הבודד.
