רגרסיה לוגיסטית מול XGBoost: למה מודל פשוט ניצח בחיזוי משחקי כדורגל

קרדיט תמונה: תמונה שנוצרה באמצעות Leonardo AI, קרדיט: ארי ג׳ורי

רגרסיה לוגיסטית מול XGBoost: למה מודל פשוט ניצח בחיזוי משחקי כדורגל

30 ביוני 2026
מערכת זירת AI
מקור:זירת AI

ניסוי על 358 משחקים בינלאומיים מציב שיעור חד למנהלי דאטה ולמפתחי AI: המודל החזק ביותר אינו תמיד המודל הנכון. כאשר הדאטה קטן, התכונות מעטות והיעד רועש, פשטות, כיול הסתברויות והטיית מודל נכונה עשויים לנצח אלגוריתמים מתוחכמים בהרבה.

כשהמודל המשעמם מנצח את אלוף התחרויות

בעידן שבו XGBoost, רנדום פורסט ורשתות נוירונים הפכו לברירת המחדל של צוותי דאטה, קל לשכוח עיקרון בסיסי בלמידת מכונה: המודל הטוב ביותר הוא לא זה שמסוגל ללמוד הכי הרבה, אלא זה שמתאים לכמות ולאופי המידע שבידינו. בניסוי שפורסם ב-Towards Data Science על ידי ד״ר ארי ג׳ורי, חמישה מסווגים נבחנו על אותה משימה: חיזוי תוצאת משחק בינלאומי, ניצחון ביתי, תיקו או ניצחון חוץ.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

הנתונים כללו 358 משחקים בלבד מטורנירים בינלאומיים, עם שלוש תכונות מרכזיות: פערי חוזק בין קבוצות, חוזק משותף ודגל המציין שלב נוקאאוט. על פניו, זו משימה שמתאימה למודלים מודרניים. בפועל, הרגרסיה הלוגיסטית הפשוטה סיפקה את ציון ה-log-loss הטוב ביותר, בעוד XGBoost סיים אחרון ואף היה גרוע יותר מבסיס ניחוש אחיד של שליש לכל תוצאה.

הבעיה אינה דיוק, אלא ביטחון שגוי

הלקח המרכזי כאן אינו שכדאי לוותר על XGBoost. הלקח הוא שמדד הביצועים חייב להתאים לשאלה העסקית או האנליטית. בחיזוי תוצאות ספורט, כמו גם בחיזוי נטישה, סיכון אשראי או ביקוש, לא מספיק לדעת מה המודל שם במקום הראשון. חשוב לדעת האם ההסתברויות שהוא מפיק מכוילות היטב.

דיוק יכול להטעות. מודל שמנחש נכון מעט יותר ממחצית הזמן עשוי להיראות סביר, אבל אם הוא מעניק הסתברות של 70% לתוצאה הלא נכונה, הוא הופך למסוכן. log-loss מעניש בדיוק את ההתנהגות הזו: טעות בטוחה עולה הרבה יותר מטעות זהירה. לכן XGBoost, שנוטה לייצר גבולות החלטה מורכבים ולהיות בטוח מדי כאשר הדאטה קטן, שילם מחיר כבד על כיול הסתברויות חלש.

שיעור קלאסי בהטיה ושונות

הסיפור כולו הוא דוגמה כמעט מושלמת למתח בין הטיה לשונות. רגרסיה לוגיסטית מניחה קשר פשוט יחסית בין התכונות לבין הלוג-סיכויים של כל תוצאה. זו הנחה מגבילה, ולכן יש לה הטיה גבוהה יותר. אבל כאשר העולם עצמו מתנהג באופן חלק ומונוטוני, למשל ככל שפער החוזק גדל כך עולה סיכוי הניצחון, ההנחה הזו אינה חולשה אלא יתרון.

לעומת זאת, XGBoost ורשתות נוירונים יכולים ללמוד דפוסים מורכבים ואינטראקציות עדינות. זה כוח עצום במערכות עם הרבה תכונות, מיליוני דוגמאות ורעש שניתן לבודד. אבל עם 358 דוגמאות, שלוש תכונות ותוצאה שמושפעת ממקריות גבוהה, הכוח הזה הופך לרגישות יתר. המודל לומד לא רק את האות, אלא גם את הרעש הספציפי של מערך האימון.

המשמעות העסקית לצוותי AI

עבור ארגונים, המקרה הזה חשוב הרבה מעבר לכדורגל. חברות רבות מאמצות מודלים מורכבים כי הם נחשבים מתקדמים יותר, ולעיתים גם כי קל יותר להצדיק השקעה בפתרון נוצץ מאשר בבייסליין פשוט. אבל בפרויקטים עם דאטה מוגבל, תכונות מעטות או צורך בהסתברויות אמינות, מודל ליניארי מכויל עשוי להיות הבחירה הבוגרת והזולה יותר.

האסטרטגיה הנכונה היא להתחיל ממודל פשוט, למדוד אותו במדד הסתברותי ראוי, לבדוק כיול, ורק אז להוסיף מורכבות. אם עקומת למידה מראה שמודל מורכב ממשיך להשתפר ככל שמוסיפים נתונים, ייתכן שהוא יצדיק את עצמו. אם לא, המורכבות היא לא נכס אלא חוב טכני.

השורה התחתונה

רגרסיה לוגיסטית לא ניצחה משום שהיא אלגוריתם טוב יותר באופן אוניברסלי. היא ניצחה משום שבמערכת קטנה, רועשת ודלת תכונות, ההנחות שלה התאימו למציאות טוב יותר מהגמישות של מודלים כבדים. בעולם הבינה המלאכותית העסקית, זהו שיעור קריטי: אל תבחרו מודל לפי המוניטין שלו. בחרו אותו לפי הדאטה, המדד והסיכון של טעות בטוחה מדי.

שאלות נפוצות