
מי קובע מה ה-AI אומר לך?
קמפבל בראון, כתבת הטלוויזיה לשעבר וראשת הניוז של Meta, הקימה את Forum AI - חברה שמעריכה את דיוק מודלי השפה בנושאים רגישים. המסקנה שלה חדה: רוב המודלים המובילים מוטים, שטחיים ומסוכנים לשימוש בתחומים קריטיים, ועסקים שמשתמשים ב-AI לקבלת החלטות צריכים להתעורר.
כשמי שבנה את מערך הניוז של Meta אומר שה-AI שובר את האמת
קמפבל בראון בילתה עשורים בציד אחר מידע מדויק - תחילה כעיתונאית טלוויזיה בולטת, לאחר מכן כאדריכלית מדיניות התוכן הראשונה של Facebook. כעת, כשהיא צופה כיצד בינה מלאכותית משנה את האופן שבו אנשים צורכים מידע, היא מזהה תבנית מוכרת ומדאיגה. הפעם, היא החליטה לא להמתין שמישהו אחר יטפל בבעיה.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
החברה שהקימה, Forum AI, פועלת מניו יורק מזה כ-17 חודשים ומתמחה בהערכת ביצועי מודלי שפה בסיסיים (foundation models) במה שהיא מגדירה כ"נושאים בעלי סיכון גבוה" - גיאופוליטיקה, בריאות נפשית, פיננסים, ומיון עובדים. אלה תחומים שבהם, כפי שמסבירה בראון, "אין תשובות של כן או לא, שבהם הדברים עמומים, מורכבים ורבי-גוון."
מומחי עולם מול אלגוריתמים
המתודולוגיה של Forum AI שאפתנית: גיוס מומחים בכירים מכל עולמות הדעת, בניית benchmark מדויק בשיתופם, ולאחר מכן אימון שופטי AI שיוכלו להעריך מודלים בקנה מידה. לצורך עבודת הגיאופוליטיקה, בראון גייסה שמות כמו ניאל פרגוסון, פריד זכריה, מזכיר המדינה לשעבר טוני בלינקן, יו"ר הבית לשעבר קווין מקארתי, ואן נויברגר, שהובילה את מדיניות הסייבר בממשל אובמה. המטרה: להגיע לרמת הסכמה של 90% בין שופטי ה-AI לבין המומחים האנושיים - סף שלדבריה החברה כבר הצליחה לעמוד בו.
נקודת המוצא של הפרויקט היתה אישית. "הייתי ב-Meta כשChatGPT שוחרר לציבור לראשונה," סיפרה בראון בשיחה עם TechCrunch ב-StrictlyVC בסן פרנסיסקו. "ממש זמן קצר אחרי הבנתי - זה הולך להיות הצינור שדרכו כל המידע יזרום. וזה לא טוב במיוחד." (כפי שפורסם על ידי קוני לויזוס ב-TechCrunch.)
ממצאים מטרידים: הטיות, פערים, ומקורות מפוקפקים
כשForum AI החלה לבחון את המודלים המובילים, הממצאים לא היו מעודדים. בראון ציינה, בין היתר, כי Gemini מושך תוכן מאתרים של המפלגה הקומוניסטית הסינית "לסיפורים שאין להם שום קשר לסין." בנוסף, היא זיהתה הטיה פוליטית שמאלנית ברוב המודלים הנבחנים. אבל הכשלים העדינים לא פחות מדאיגים: הקשר חסר, נקודות מבט שנעדרות, וטיעוני קש המוצגים ללא כל הסתייגות.
"יש עוד דרך ארוכה לעבור," היא אמרה. "אבל אני גם חושבת שיש תיקונים פשוטים מאוד שישפרו את התוצאות משמעותית."
חברות foundation model, לדבריה, "ממוקדות מאוד בקידוד ומתמטיקה," בעוד שחדשות ומידע קשים יותר לכימות. אבל קשה יותר, היא טוענת, לא אומר אופציונלי.
הלקח מ-Meta: אופטימיזציה לאינגייג'מנט שברה את השיח
שנות עבודתה ב-Facebook הותירו בבראון צלקות מקצועיות. "נכשלנו בהרבה מהדברים שניסינו," היא הודתה. תוכנית הבדיקת עובדות שבנתה כבר אינה קיימת. הלקח שלמדה - אפילו אם הרשתות החברתיות עדיין מתעלמות ממנו - הוא שאופטימיזציה לאינגייג'מנט הזיקה לחברה ועזבה אנשים רבים עם פחות ידע.
תקוותה היא שה-AI יכול לשבור את המעגל הזה. "כרגע זה יכול ללכת לכל כיוון," היא אמרה. חברות יכולות לתת למשתמשים מה שהם רוצים, או לתת להם "מה שאמיתי ומה שכנה ומה שאמת." היא הודתה שהגרסה האידיאלית של כך - AI שמבצע אופטימיזציה לאמת - עלולה להישמע נאיבית. אבל היא מזהה בשוק הארגוני בעל פה בלתי צפוי: עסקים המשתמשים ב-AI להחלטות אשראי, הלוואות, ביטוח ומיון עובדים נחשפים לסיכוני אחריות משפטית, ו"הם ירצו שתבצע אופטימיזציה לקבלת תוצאות נכונות."
שוק הציות - "בדיחה" עם השלכות רציניות
נוף הציות הנוכחי, לדברי בראון, הוא "בדיחה." כשניו יורק חוקקה את חוק ביקורת ה-AI הראשון בנושא הטיה בגיוס עובדים, מבקר המדינה גילה שיותר ממחצית החברות שנבדקו עברו על החוק מבלי שזה התגלה. בדיקה אמיתית, היא אומרת, דורשת מומחיות דומיין אמיתית כדי לעבוד לא רק עם תרחישים ידועים, אלא עם edge cases. "מי שמחפש גנרליסטים חכמים - זה לא יספיק."
Forum AI גייסה עד כה 3 מיליון דולר בסבב שהוביל Lerer Hippeau. עבור חברות ישראליות הפועלות בתחומים מוסדרים - ביטוח, פיננסים, בריאות, או גיוס עובדים - הדינמיקה שבראון מתארת רלוונטית ישירות. ככל שהרגולציה סביב שימוש ב-AI בהחלטות קריטיות מתפתחת גם באירופה וגם בישראל, הביקוש לכלי הערכה אמינים צפוי לגדול. המשמעות עבור חברות מקומיות היא שהשאלה "האם ה-AI שלנו מדויק?" הופכת משאלה אקדמית לשאלה של ניהול סיכונים.
"אתה שומע מהמנהיגים של חברות הטכנולוגיה הגדולות: 'הטכנולוגיה הזו תשנה את העולם', 'היא תגרום לאובדן מקומות עבודה', 'היא תרפא סרטן'," אמרה בראון. "אבל אז למשתמש הרגיל שמשתמש בצ'טבוט לשאלות בסיסיות - הוא עדיין מקבל הרבה תשובות שגויות ורעש."
