בטחון של המודל זה מועלה אך לא תמיד עובד

בטחון של המודל זה מועלה אך לא תמיד עובד

27 במאי 2026
מערכת זירת AI
מקור:זירת AI

ציוני ביטחון במודלי AI נראים כמו הסתברות, אך לעיתים קרובות הם משקפים רק את הבחירה היחסית הטובה ביותר של המודל. בעידן שבו מערכות בינה מלאכותית נכנסות לרפואה, פיננסים ותהליכי החלטה עסקיים, כיול אמון הופך מתכונה טכנית לשאלה אסטרטגית של סיכון, ממשל ואחריות.

הבעיה אינה רק שהמודל טועה, אלא שהוא נשמע בטוח מדי

אחת האשליות המסוכנות ביותר סביב בינה מלאכותית היא ההנחה שביטחון גבוה שווה נכונות גבוהה. כאשר מודל שפה או מערכת למידת מכונה מציגה תשובה עם 88% או 98% ביטחון, משתמשים רבים מפרשים זאת כהצהרה הסתברותית פשוטה: כמעט בטוח שזה נכון. בפועל, זה לא תמיד המצב. לעיתים מדובר במספר שנראה כמו הסתברות, אך נולד ממנגנון מתמטי שמדרג אפשרויות זו מול זו, ולא בהכרח מודד ידע אמיתי על העולם.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

מודלים מודרניים מסוגלים להפיק תשובה שגויה לחלוטין בטון החלטי ומשכנע. זו אינה רק בעיית הזיות במודלי שפה, אלא כשל רחב יותר באופן שבו מערכות AI מבטאות אי ודאות.

למה Softmax יוצר אשליית ודאות

במודלים רבים, שכבת הפלט משתמשת בפונקציה בשם Softmax. היא הופכת ציונים גולמיים, המכונים logits, לערכים שנראים כמו הסתברויות ומסתכמים ל-1. הבעיה היא שהאקספוננט שבפונקציה עלול להגדיל פערים קטנים בין אפשרויות. כך מצב שבו האפשרות "מטוס" קיבלה יתרון קל על "ציפור" יכול להפוך להצגה של 96% ביטחון, אף שהמודל לא באמת "ראה" ראיות חזקות לכך שזה מטוס.

זה משמעותי במיוחד כאשר המודל פוגש קלט מחוץ לעולם שעליו אומן. אם מסווג תמונות למד רק כלי רכב ובעלי חיים, ולאחר מכן יקבל תמונה של רהיט, הוא עדיין ייאלץ לבחור בין האפשרויות המוכרות לו. בהיעדר מנגנון דחייה מובנה או אפשרות "לא ידוע", המערכת תבחר את התשובה הקרובה ביותר מבחינתה, ולעיתים תעשה זאת בביטחון מופרז ועיוורון מוחלט לקיומו של אובייקט חדש.

כיול מודלים: בין דיוק לאמינות

כאן נכנס מושג הכיול. כיול אינו בהכרח משפר את התשובה עצמה, אלא את היושר הסטטיסטי של המודל. מודל מכויל היטב שאומר "85%" אמור להיות צודק בערך ב-85% מהמקרים שבהם הוא נותן רמת ביטחון כזו. בפועל, ארגונים רבים מודדים דיוק ממוצע, אך לא בודקים האם ציוני הביטחון אכן תואמים לביצועים היסטוריים.

שיטות כמו Platt Scaling, Temperature Scaling ו-Isotonic Regression מנסות לצמצם את הפער הזה. בעולם המחקר אלו כלים מוכרים, אך בעולם העסקי הם עדיין לא מוטמעים מספיק בתהליכי פיתוח, ניטור והטמעה של מערכות AI. תוצאה של חוסר כיול זה היא מודלים "יהירים" מדי (Overconfident) שנוטים להקצין את ציוני הפלט שלהם לקצוות הטווח הסטטיסטי.

ההשלכות העסקיות: אמון הוא שכבת תשתית

במערכות המלצה, טעות בטוחה מדי עלולה להוביל לחוויית משתמש גרועה. ברפואה, ביטוח, אשראי, גילוי הונאות או רכב אוטונומי, אותה בעיה עלולה לייצר נזק ממשי. כאשר מערכת מציגה "סיכון לקריסת מערכות: 93%" או "סיכוי לעסקת מרמה: 91%", המספר משפיע על החלטות אנושיות, תעדוף משאבים ולעיתים גם על חיים של אנשים.

לכן השאלה החשובה למנהלים אינה רק "כמה המודל מדויק?", אלא גם "מה המשמעות של רמת הביטחון שהוא מציג?". ארגונים שמטמיעים AI בלי מדיניות כיול, בדיקות מחוץ להתפלגות (OOD), ניטור הטיות והגדרת ספי פעולה, למעשה בונים תהליכי החלטה על מד ביטחון שאולי אינו מכויל. חוסר ניהול של רכיב זה חושף את החברה לסיכונים משפטיים וכלכליים כבדים עקב הסתמכות יתר (Over-reliance) של עובדים על פלטי המערכת.

המבחן הבא של AI: לדעת מתי לא לדעת

הדור הבא של מערכות AI יצטרך להישפט לא רק לפי יכולת לכתוב קוד, לנסח מסמך או לפתור מבחן, אלא לפי היכולת להודות באי ודאות. מודל חכם הוא מודל שנותן תשובות טובות. מודל אמין הוא מודל שגם יודע מתי לעצור, לבקש מידע נוסף או לומר שאין לו בסיס מספיק להכרעה.

בעולם שבו בינה מלאכותית הופכת לשכבת עבודה יומיומית בארגונים, ביטחון אינו יכול להישאר מופע רטורי. הוא חייב להפוך למדד הנדסי מבוקר, נמדד ומוסבר. אחרת, נמשיך לקבל מערכות שנשמעות כמו מומחים, אך מתנהגות לעיתים כמו מנחשים משכנעים במיוחד.

שאלות נפוצות