איפה אפשר לקרוא חדשות AI בעברית?

זירת AI הוא אתר חדשות AI מוביל בישראל, המתעדכן מדי יום עם חדשות בינה מלאכותית בעברית. האתר מכסה עדכוני AI מרחבי העולם, כולל חדשות על ChatGPT, Claude, Gemini, סטארטאפי AI ומחקרים פורצי דרך. כל התכנים מותאמים לקהילה העסקית והמדעית בישראל.

מה זה זירת AI?

זירת AI הוא אתר חדשות בינה מלאכותית מוביל בישראל. האתר מספק חדשות AI עדכניות בעברית, דירוג והשוואת מודלי AI, סקירות כלי AI, מחקרים אקדמיים ואירועי AI. זירת AI מתעדכן מדי יום ומכסה את כל ההתפתחויות החשובות בעולם הבינה המלאכותית.

איך אני יכול להישאר מעודכן עם חדשות AI?

תוכלו להירשם לניוזלטר השבועי של זירת AI, לעקוב אחרי העמוד שלנו ברשתות החברתיות, או לבקר באתר חדשות AI שלנו באופן קבוע. אנו מפרסמים חדשות AI חדשות מדי יום, כולל עדכונים על מודלים חדשים, כלי AI וחדשות טכנולוגיה.

איך אני יכול למצוא כלי AI מתאים לעסק שלי?

במאגר הכלים שלנו תוכלו לסנן לפי קטגוריות שונות כמו כתיבה, תמונה, קוד, ניתוח נתונים ועוד. כל כלי כולל ביקורת מפורטת, דירוג, מידע על מחיר ויתרונות וחסרונות.

איך אני יכול למצוא אירועי AI בישראל?

בעמוד האירועים שלנו תמצאו רשימה מעודכנת של כנסים, Meetups, Webinars וסדנאות בתחום הבינה המלאכותית בישראל. כל אירוע כולל פרטי הרשמה, מיקום ותאריכים.

מה מצא מחקר MIT לגבי הסתמכות על דיוק ממוצע בהערכת מודלי בינה מלאכותית?

המחקר מראה שביצוע ממוצע גבוה יכול להסתיר כשלים חמורים בתתי-אוכלוסיות: מודל שנראה “הטוב ביותר” בסביבה אחת עשוי להפוך לגרוע ביותר עבור 6%-75% מהמשתמשים/מטופלים בסביבה חדשה. המשמעות: מדד מאוחד כמו דיוק ממוצע אינו מספיק, במיוחד בעת העברה בין סביבות (domain shift).

מה זה “מתאמים שגויים” ולמה הם מסוכנים במודלי למידת מכונה?

“מתאמים שגויים” הם קשרים סטטיסטיים לא-מהותיים שהמודל לומד בטעות ומשתמש בהם לחיזוי. לדוגמה, מודל ראייה שמקשר רקע של ים עם אורקות יסווג בטעות פרה על החוף כלווייתן; ברפואה, מודל עשוי להסתמך על סימן טכני מקומי בצילום רנטגן במקום על מאפייני המחלה, וכשמעבירים אותו לבית חולים אחר—הוא נכשל.

האם מודל מצטיין בבית חולים אחד יישאר הטוב ביותר בבית חולים אחר?

לא בהכרח. המחקר מצא שמודל שנבחר כ”הכי טוב” על פי דיוק במוסד אחד יכול להיות הגרוע ביותר עבור 6%-75% מהמטופלים במוסד אחר, אף שהדיוק הממוצע שלו עדיין נראה גבוה. לעיתים מודלים “בינוניים” דווקא מציגים יציבות טובה יותר בין סביבות.

מה זה OODSelect וכיצד הוא מאתר תתי-אוכלוסיות שבהן המודלים נכשלים?

OODSelect הוא אלגוריתם שאומן על נתוני מקור (in-distribution) ומדרג אלפי מודלים לפי הדיוק שלהם, ואז בוחן אותם בסביבה חדשה (out-of-distribution). כאשר המודלים המדויקים במקור טועים בעקביות על חלק משמעותי מהדוגמאות ביעד, האלגוריתם מסמן את אותן דוגמאות כתתי-אוכלוסיות בעייתיות. בנוסף, הוא מסנן מראש דוגמאות “קשות באופן כללי” כדי לבודד כשלים שמקורם במתאמים שגויים.

מה פירוש In-Distribution (ID), Out-of-Distribution (OOD) ומהי הנחת “Accuracy-on-the-Line”?

- In-Distribution (ID): נתונים הדומים לנתוני האימון. - Out-of-Distribution (OOD): נתונים מסביבה/מכשיר/אוכלוסייה שונה מהאימון. - “Accuracy-on-the-line”: ההנחה שסדר הדירוג של המודלים לפי דיוק נשמר בין מערכי נתונים שונים. המחקר מפריך הנחה זו ומראה שמודלים מצטיינים ב-ID עלולים להתרסק ב-OOD.

באילו תחומים נבדקו הכשלים שהממוצעים מסתירים?

המחקר הדגים כשלים בתתי-אוכלוסיות במודלים לשחזור מחלות מצילומי חזה, בניתוח שקופיות פתולוגיה של סרטן, ובזיהוי שיח שנאה ברשת. בכל המקרים, ביצועים “טובים” בממוצע הסתירו טעויות עקביות בקבוצות ספציפיות.

אילו המלצות מעשיות המחקר מציע לארגוני בריאות ולחברות טכנולוגיה?

לעבור מהתבססות על דיוק ממוצע למדידה שיטתית לפי תתי-אוכלוסייה, סוגי מחלות, מכשירים ומאפייני קלט. לאמץ כלי זיהוי כשלים כמו OODSelect, לבחון יציבות בין סביבות, ולהגדיר סטנדרטים להערכה הוגנת ובטוחה לפני פריסה קלינית או ציבורית.

מה המשמעות לבטיחות, הוגנות ורגולציה של מודלי AI?

ממוצעים מסתירים פגיעה אפשרית בקבוצות אוכלוסייה שלמות, ולכן בדיקות הוגנות ובטיחות חייבות להתבצע ברזולוציה של תתי-אוכלוסיות ובין סביבות שונות. אימוץ סטנדרטים כאלה מצמצם סיכוני נזק, מפחית הטיות, ותומך ברגולציה אחראית של מודלי בינה מלאכותית.

היכן פורסם המחקר והאם יש גישה לקוד ולתת-הקבוצות שזוהו?

העבודה הוצגה ב-NeurIPS 2025 ונסקרה ב-MIT News. לפי הכתבה, קוד OODSelect ותתי-הקבוצות שזוהו זמינים לקהילה החוקרת; לקריאה נוספת: https://news.mit.edu.

מחקר MIT: ממוצעים מטעים מסתירים כשלי בינה מלאכותית בעולם האמיתי - חדשות AI

לפי דיווח ב‑MIT News, מחקר חדש של חוקרי MIT מדגים עד כמה מסוכן להסתמך על מדד ביצוע ממוצע אחד כשמעריכים מודלי בינה מלאכותית, במיוחד כאשר מעבירים אותם מסביבה אחת לאחרת.

המחקר, בהובלת ד"ר מרזייה אלע'סמי (Marzyeh Ghassemi) והפוסטדוקטור אולאוולה סלאודין (Olawale Salaudeen), הראה שמודל שנבחר כ"המודל הטוב ביותר" בבית חולים אחד על סמך ביצועיו על כמויות נתונים גדולות, יכול להתגלות דווקא כמודל הגרוע ביותר עבור בין 6% ל‑75% מהמטופלים בבית חולים אחר. בממוצע הכללי המודל עדיין נראה מוצלח, אבל הביצועים הירודים בתתי‑אוכלוסיות ספציפיות נעלמים בתוך המספר האחד של "דיוק כולל".

החוקרים מתמקדים בתופעת המתאמים השגויים, שבה מודל לומד לקשר בין מאפיין לא רלוונטי לבין אבחנה או החלטה. דוגמה פשוטה היא מודל ראייה ממוחשבת שלומד לקשר רקע של ים עם אורקות, וכך מסווג בטעות פרה על החוף כלווייתן קטלני. ברפואה זה עלול להיות הרבה יותר עדין ומסוכן: למשל, מודל אבחון מצילומי רנטגן של בית חולים אחד עלול ללמוד לקשר סימן טכני מקומי על התמונה עם מחלה מסוימת. כשהמודל מועבר לבית חולים אחר שבו הסימן אינו קיים, הוא עלול לפספס את האבחנה.

במאמרם, שהוצג בכנס NeurIPS 2025 תחת הכותרת "Aggregation Hides Out-of-Distribution Generalization Failures from Spurious Correlations", החוקרים מראים שמודלים לשחזור מחלות בצילומי חזה, מודלים לניתוח שקופיות פתולוגיה של סרטן, ואפילו מודלים לזיהוי שיח שנאה ברשת – כולם יכולים להיראות טוב סטטיסטית אבל להיכשל באופן עקבי על קבוצות ספציפיות.

חלק מהעבודות הקודמות בתחום הניחו עקרון הקרוי "accuracy-on-the-line": אם מדורגים מודלים לפי ביצועיהם על מערך נתונים אחד, הסדר הזה פחות או יותר נשמר גם על מערך נתונים אחר. הצוות של MIT מפריך הנחה זו בפועל: הם מציגים מצבים שבהם המודל המצטיין בסביבה אחת הופך לגרוע ביותר בסביבה אחרת, בעוד שמודלים "בינוניים" דווקא מראים יציבות טובה יותר.

כדי לחשוף את הכשלים האלה, סלאודין פיתח אלגוריתם בשם OODSelect. הוא אימן אלפי מודלים על נתוני מקור (in-distribution), דירג אותם לפי דיוק, ואז בחן את ביצועיהם על נתוני יעד מסביבה חדשה (out-of-distribution). כאשר המודלים בעלי הדיוק הגבוה בסביבת המקור טעו באופן עקבי על אחוז גדול מהדוגמאות בסביבת היעד, האלגוריתם סימן את אותן דוגמאות כתתי‑אוכלוסיות בעייתיות. החוקרים גם סיננו מראש דוגמאות שקשות לסיווג באופן כללי, כדי לבדל במיוחד את המקרים שנובעים ממתאמים שגויים.

ממצאי המחקר מסקרנים ומרחיבים את מה שידענו עד כה על כשלים חבויים בבינה מלאכותית. הם משתלבים במגמה רחבה יותר במחקר העולמי, המזהה כיצד מודלי AI גדולים עלולים ללמוד לקצרי‑דרך סטטיסטיים במקום להבין תבניות מהותיות. עבודות אחרות כבר הראו שמודלי שפה גדולים עשויים להעדיף פרטים לא רלוונטיים בהחלטות קליניות, או להיכשל בהבנת שלילה בשאלות רפואיות. מחקר זה מוסיף נדבך חשוב: גם כאשר מודל נראה "מצוין" במספר אחד, הוא עלול להיות מסוכן לחלק גדול מהאנשים עבורם הוא מיועד לעבוד.

החוקרים מאיצים במוסדות בריאות, חברות טכנולוגיה וגופים ציבוריים להפסיק להסתפק בדוחות ביצוע מאוחדים, ולעבור למדידה שיטתית לפי תתי‑אוכלוסייה, סוגי מחלות, מכשירים, או מאפייני הקלט. קוד OODSelect ותתי‑הקבוצות שזוהו זמינים לקהילה החוקרת, והצוות – הכולל גם את הדוקטורנטים האוראן ג'אנג (Haoran Zhang) וקמאיל אלחאמוד (Kumail Alhamoud) ואת פרופ' שרה בירי (Sara Beery) – מקווה שיאומצו כבסיס לסטנדרטים חדשים להערכה בטוחה והוגנת של מודלי למידת מכונה.

מחקר MIT: ממוצעים מטעים מסתירים כשלי בינה מלאכותית בעולם האמיתי

רוצה להישאר מעודכן ב-AI?

שאלות נפוצות