
קרדיט תמונה: פצה פיילמן
איך לבחור מספר תיבות אופטימלי להיסטוגרמה: גישה בייסיאנית למדעי הנתונים ול-AI
בחירת מספר התיבות בהיסטוגרמה נראית לעיתים כמו החלטה גרפית פשוטה, אך בפועל היא משפיעה על איכות הניתוח, על זיהוי דפוסים ועל מערכות AI הנשענות על התפלגויות. גישה בייסיאנית מציעה דרך עקרונית יותר לאזן בין פירוט יתר לבין החלקה מוגזמת.
היסטוגרמה היא לא רק גרף, אלא החלטת מודל
מעט כלים במדעי הנתונים נראים פשוטים כמו היסטוגרמה, ומעטים מהם מסתירים מאחוריהם כל כך הרבה הנחות. כאשר אנליסט בוחר עשר תיבות במקום מאה, הוא לא רק משנה את מראה התרשים. הוא קובע בפועל מהי הרזולוציה שבה המערכת תראה את המציאות. בתרחישים עסקיים, רפואיים או תעשייתיים, ההחלטה הזו יכולה להשפיע על זיהוי חריגות, ניטור סחף נתונים, הערכת סיכונים ואפילו החלטות של מודלי למידת מכונה.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
מאמר טכני שפורסם ב-Towards Data Science על ידי פצה פיילמן מציע להתייחס לבעיה הזו לא כאל עניין אסתטי, אלא כאל בעיית הסקת צפיפות. במקום לשאול איזה גרף נראה טוב יותר, השאלה הנכונה היא איזה מודל הסתברותי מסביר את הנתונים בצורה אמינה בלי להכניס רעש מיותר.
האיזון הקלאסי: יותר נתונים, יותר רזולוציה
האינטואיציה ברורה: ככל שיש יותר דגימות, ניתן להרשות לעצמנו יותר תיבות ויותר פירוט. במדגם של עשרות תצפיות, חלוקה גסה עשויה להיות הבחירה הסבירה היחידה. לעומת זאת, במיליוני נקודות נתונים, אותה חלוקה תיראה כמו תמונה מפוקסלת שמסתירה מבנים עדינים. הבעיה היא שאין נקודת מעבר אוניברסלית. כללים קלאסיים לבחירת רוחב תיבה שימושיים כקירוב, אך הם אינם תמיד מספקים כאשר ההיסטוגרמה הופכת לשכבת קלט בתהליך אנליטי עמוק יותר.
כאן נכנסת החשיבה הבייסיאנית. אם מתייחסים לכל חלוקה של תחום הנתונים למספר תיבות כאל מודל, אפשר להשוות בין מודלים ברזולוציות שונות. מודל עם מעט תיבות פשוט ויציב, אך עלול לפספס פרטים. מודל עם הרבה תיבות מדויק לכאורה, אך עלול ללמוד תנודות מקריות במדגם. השאלה הופכת למאזן בין דיוק למורכבות, עיקרון שמוכר היטב גם בבחירת מודלים ב-AI.
למה התפלגות דיריכלה מתאימה להיסטוגרמות
בגישה זו, כל תיבה מקבלת משקל המייצג את ההסתברות שנקודת נתון תיפול בתוכה. משום שסך ההסתברויות חייב להיות אחד, מתקבלת בעיה טבעית של פרופורציות. התפלגות דיריכלה (Dirichlet) היא בחירה מתמטית נוחה לפריור, כלומר לאמונה ההתחלתית שלנו לפני שראינו את הנתונים. אם בוחרים פריור אחיד, המודל אינו מתחיל מהנחה שכל המסה מרוכזת במקום מסוים, אלא מאפשר לנתונים לעצב בהדרגה את ההערכה.
המשמעות המעשית חשובה: גם תיבה ריקה לחלוטין לא חייבת לקבל הסתברות אפס. בעולם עסקי, זהו יתרון ולא חיסרון. אפס מוחלט עלול להיות ביטוי לבורות מדגמית ולא לעובדה אמיתית. למשל, אם לא נצפתה עסקה בטווח מחיר מסוים במדגם קטן, אין פירוש הדבר שהסתברותה בעולם האמיתי היא אפס.
לא לבחור מנצח אחד, אלא לשקלל אי-ודאות
אחת התובנות המעניינות היא שאין חובה לבחור מספר תיבות יחיד. אפשר להעריך את ההסתברות של כמה מודלים, למשל 8, 16, 32 או 128 תיבות, ואז לשקלל ביניהם. כך מתקבלת צפיפות שמכירה באי-הוודאות של תהליך המידול עצמו. זהו רעיון חשוב במיוחד בעידן שבו דוחות נתונים מזינים מערכות אוטומטיות: ייצוג קשיח מדי של המציאות עלול להקרין ביטחון מזויף למודלים במורד השרשרת.
הרחבה נוספת היא שימוש בתיבות שאינן שוות בגודלן. במקומות שבהם הנתונים צפופים ניתן לקבל רזולוציה גבוהה יותר, ובאזורים דלילים חלוקה רחבה יותר. התוצאה דומה יותר להערכת צפיפות אדפטיבית ופחות להיסטוגרמה מסורתית. כאשר מוסיפים לכך פסי אי-ודאות, מתקבל כלי ויזואלי שמספר לא רק מה המודל חושב, אלא גם עד כמה הוא בטוח.
ההשלכה לתעשיית ה-AI
הדיון על היסטוגרמות נראה לכאורה אקדמי, אך הוא נוגע ישירות למערכות AI תפעוליות. ניטור נתונים, בדיקות הטיה, זיהוי שינויי התפלגות והערכת איכות דאטה נשענים לעיתים קרובות על חלוקות בדידות. גישה בייסיאנית לבחירת רזולוציה יכולה להפוך את הכלים הללו לפחות שרירותיים ויותר אמינים.
המסר הרחב הוא שהוויזואליזציה הפשוטה ביותר במדעי הנתונים צריכה להיבחן כמודל הסתברותי לכל דבר. לא מספיק להציג את הנתונים יפה. צריך להציג אותם באופן שמכבד את אי-הוודאות, את גודל המדגם ואת המחיר של מורכבות יתר.
