איפה אפשר לקרוא חדשות AI בעברית?

זירת AI הוא אתר חדשות AI מוביל בישראל, המתעדכן מדי יום עם חדשות בינה מלאכותית בעברית. האתר מכסה עדכוני AI מרחבי העולם, כולל חדשות על ChatGPT, Claude, Gemini, סטארטאפי AI ומחקרים פורצי דרך. כל התכנים מותאמים לקהילה העסקית והמדעית בישראל.

מה זה זירת AI?

זירת AI הוא אתר חדשות בינה מלאכותית מוביל בישראל. האתר מספק חדשות AI עדכניות בעברית, דירוג והשוואת מודלי AI, סקירות כלי AI, מחקרים אקדמיים ואירועי AI. זירת AI מתעדכן מדי יום ומכסה את כל ההתפתחויות החשובות בעולם הבינה המלאכותית.

איך אני יכול להישאר מעודכן עם חדשות AI?

תוכלו להירשם לניוזלטר השבועי של זירת AI, לעקוב אחרי העמוד שלנו ברשתות החברתיות, או לבקר באתר חדשות AI שלנו באופן קבוע. אנו מפרסמים חדשות AI חדשות מדי יום, כולל עדכונים על מודלים חדשים, כלי AI וחדשות טכנולוגיה.

איך אני יכול למצוא כלי AI מתאים לעסק שלי?

במאגר הכלים שלנו תוכלו לסנן לפי קטגוריות שונות כמו כתיבה, תמונה, קוד, ניתוח נתונים ועוד. כל כלי כולל ביקורת מפורטת, דירוג, מידע על מחיר ויתרונות וחסרונות.

איך אני יכול למצוא אירועי AI בישראל?

בעמוד האירועים שלנו תמצאו רשימה מעודכנת של כנסים, Meetups, Webinars וסדנאות בתחום הבינה המלאכותית בישראל. כל אירוע כולל פרטי הרשמה, מיקום ותאריכים.

למה “להריץ את אותו פרומפט כמה פעמים” לא מספיק כדי לבדוק אמינות של מודל שפה?

בדיקת עקביות עצמית (אותה שאלה כמה פעמים) מודדת בעיקר עד כמה המודל עקבי עם עצמו, לא עד כמה הוא צודק. מודל יכול להחזיר שוב ושוב אותה תשובה שגויה ולהישמע בטוח מאוד. לכן עקביות אינה ערובה לנכונות, במיוחד כשיש “תשובות בטוחות אך שגויות”.

מה ההבדל בין אי ודאות אליאטורית (Aleatoric) לאי ודאות אפיסטמית (Epistemic) במודלי שפה?

אי ודאות אליאטורית קשורה לרעש/עמימות בקלט עצמו ולשונות בתשובות שהמודל נותן לאותה שאלה (למשל עקביות עצמית). אי ודאות אפיסטמית משקפת ספק עמוק יותר: האם המודל המתאים “נבחר” למשימה והאם הוא קרוב מספיק למודל אידיאלי לפתרון הבעיה.

איך המדד החדש מזהה מתי מודל שפה בטוח בעצמו אבל טועה?

הגישה מודדת אי ודאות אפיסטמית באמצעות אי הסכמה בין כמה מודלים דומים: אם אותו פרומפט מקבל תשובות שונות ממודלים מובילים שונים, הפער מרמז שהתשובה לא יציבה—even אם מודל אחד נשמע בטוח. ההשוואה נעשית לפי דמיון סמנטי (משמעות), לא רק התאמת מילים.

מה זה Total Uncertainty (TU) ולמה הוא עדיף על מדדים בודדים?

Total Uncertainty (TU) הוא מדד שמחבר יחד אי ודאות אפיסטמית (אי הסכמה בין מודלים) עם אי ודאות אליאטורית (למשל עקביות עצמית). בניסויים על משימות כמו שאלות-תשובות, סיכום, תרגום ומתמטיקה, TU זיהה תחזיות לא אמינות טוב יותר מכל מדד בנפרד, ולעיתים גם עם פחות שאילתות ועלות חישוב.

באילו שימושים זה הכי חשוב, ומתי זה עשוי לעבוד פחות טוב?

היתרון בולט במשימות עם תשובה נכונה יחידה—עובדות, חישוב, ותמיכה בהחלטות (למשל רפואיות)—כי ניתן לסמן מראש תשובות “בטוחות אך שגויות”. לעומת זאת, במשימות פתוחות ויצירתיות עם הרבה תשובות סבירות, אי ההסכמה בין מודלים עשויה להיות פחות חדה ויידרשו התאמות.

אתה בטוח? מדד חדש מזהה מתי מודלי שפה גדולים בטוחים בעצמם אבל טועים - חדשות AI

According to an MIT News report, חוקרים מ־MIT מציעים דרך מדויקת יותר לזהות מתי מודלי שפה גדולים (LLMs) מפיקים תשובה שנשמעת משכנעת אך בפועל שגויה, ובעיקר מתי הם עושים זאת בביטחון גבוה. בעולם שבו מודלים כאלה משתלבים בתהליכי קבלת החלטות ברפואה, פיננסים, שירות לקוחות ופיתוח תוכנה, הבעיה אינה רק “הזיות” (hallucinations) אלא האופן שבו הן מוצגות: תשובה בטוחה מדי יכולה להטעות משתמשים וליצור תחושת אמינות כוזבת.

למה “להריץ את אותו פרומפט כמה פעמים” לא מספיק

אחת השיטות הנפוצות להערכת אמינות של מודל היא לבחון עקביות עצמית: שולחים את אותה שאלה מספר פעמים ובודקים אם מתקבלת אותה תשובה. הבעיה, כפי שמדגישה קימיה חמידייה (Kimia Hamidieh), דוקטורנטית ב־EECS ומחברת ראשית של המחקר, היא שמדד כזה מודד בעיקר סוג אחד של אי ודאות: עד כמה המודל “משוכנע בעצמו” על סמך הדפוסים הפנימיים שלו. אלא שמודלים יכולים להיות עקביים גם כשהם טועים, ולכן עקביות אינה ערובה לנכונות.

כאן נכנסת הבחנה מרכזית בין שני סוגי אי ודאות: אי ודאות אליאטורית (aleatoric), שמתארת את חוסר הוודאות של המודל ביחס לקלט עצמו, לעומת אי ודאות אפיסטמית (epistemic), שמתארת ספק עמוק יותר: האם בכלל המודל הנכון “נבחר” למשימה, או שהמודל רחוק מהמודל האידיאלי שיכול לפתור אותה.

המדד החדש: אי הסכמה בין מודלים כ״מד חום״ לאמינות

במקום להסתמך רק על מודל אחד, החוקרים מציעים למדוד אי ודאות אפיסטמית באמצעות אי הסכמה בין מודלים דומים. הרעיון אינטואיטיבי: אם אותו פרומפט מקבל תשובות שונות ממודלים מובילים שונים, עצם הפער מסמן שהמשימה או התשובה אינן יציבות, גם אם מודל מסוים נשמע בטוח.

הצוות, הכולל גם את ורוניקה תוסט (Veronika Thost), וולטר גריך (Walter Gerych), מיכאיל יורוצ’קין (Mikhail Yurochkin) והחוקרת הבכירה מרזיה גסמי (Marzyeh Ghassemi), מדד את מידת הסטייה בין תשובת “מודל היעד” לבין אנסמבל קטן של מודלים דומים בגודל ובארכיטקטורה. במקום להשוות מחרוזות מילים בלבד, הם בחנו דמיון סמנטי, כלומר עד כמה משמעות התשובות מתכנסת או מתפזרת.

ממצא פרקטי מעניין: כדי לקבל מגוון תגובות לא “צמוד” מדי למודל היעד, אחת הדרכים הפשוטות והיעילות הייתה לבחור מודלים שאומנו על ידי חברות שונות. הפתרון הפשוט, לפי חמידייה, עבד טוב יותר גם ביחס לגישות מורכבות שנבדקו.

“אי ודאות כוללת”: חיבור בין שני העולמות

החוקרים שילבו את אי הוודאות האפיסטמית (אי ההסכמה בין מודלים) עם מדד אליאטורי סטנדרטי (כמו עקביות עצמית) לכדי מדד חדש שנקרא Total Uncertainty (TU). המדד נבדק על פני 10 משימות ריאליסטיות, כולל שאלות ותשובות, סיכום, תרגום והסקה מתמטית, והראה ביצועים טובים יותר בזיהוי תחזיות לא אמינות לעומת כל מדד בנפרד.

מעבר לאיכות, יש כאן גם היבט תפעולי: בחלק מהמצבים TU דרש פחות שאילתות מאשר חישובי אי ודאות אליאטורית בלבד, מה שעשוי להפחית עלויות חישוב ואנרגיה, סוגיה בוערת בעידן שבו מודלים גדולים צורכים משאבים משמעותיים.

מה זה אומר לתעשייה, ולמה זה חשוב עכשיו

השלכה מרכזית היא יכולת טובה יותר לסמן מראש תשובות “בטוחות אך שגויות”, ובעיקר במשימות עם תשובה נכונה יחידה כמו עובדות, חישוב, או כלי תמיכה בהחלטה קלינית. מנגד, החוקרים מציינים שאי ודאות אפיסטמית עשויה להיות פחות חדה במשימות פתוחות, שבהן קיימות הרבה תשובות סבירות, ולכן יידרשו התאמות כדי להתמודד עם יצירתיות וסגנון.

אם הטכניקה הזו תוטמע בכלי AI מסחריים, היא יכולה לשנות את האינטראקציה עם מערכות גנרטיביות: פחות “סמוך עליי”, ויותר סימון שקוף של מתי כדאי לאמת מידע, לבקש מקור, או להעביר את ההחלטה לאדם. המחקר נתמך, בין השאר, על ידי MIT-IBM Watson AI Lab.

אתה בטוח? מדד חדש מזהה מתי מודלי שפה גדולים בטוחים בעצמם אבל טועים

למה “להריץ את אותו פרומפט כמה פעמים” לא מספיק

רוצה להישאר מעודכן ב-AI?

המדד החדש: אי הסכמה בין מודלים כ״מד חום״ לאמינות

“אי ודאות כוללת”: חיבור בין שני העולמות

מה זה אומר לתעשייה, ולמה זה חשוב עכשיו

שאלות נפוצות