קרדיט תמונה: Zirat AI / AI
OpenAI מודה: דפדפני AI יישארו תמיד פגיעים למתקפות Prompt Injection
חברת OpenAI מודה כי דפדפן ה-AI שלה, Atlas, לא יוכל להיות מוגן לחלוטין מפני מתקפות Prompt Injection - סוג תקיפה שמטעה סוכני AI לבצע פעולות זדוניות. החברה פיתחה כלי מבוסס למידת חיזוק שמדמה האקרים כדי למצוא פרצות אבל מודה שהסיכון לא ייעלם. מומחי אבטחה מזהירים כי הסיכון הגבוה אינו מצדיק את התועלת הנוכחית של דפדפני AI.
כפי שדווח ב-TechCrunch על ידי רבקה בלן אתמול, OpenAI הודתה באופן רשמי כי דפדפן ה-AI שלה, ChatGPT Atlas, לעולם לא יהיה מוגן לחלוטין מפני מתקפות Prompt Injection - הודאה נדירה ומשמעותית מצד אחת מחברות ה-AI המובילות בעולם.
מתקפות Prompt Injection הן סוג של תקיפת סייבר שבה תוכן זדוני, המוסתר בדפי אינטרנט או במיילים, מטעה את סוכני ה-AI לבצע פעולות שלא היו בכוונת המשתמש. "Prompt Injection, בדומה לתרמיות והנדסה חברתית ברשת, סביר להניח שלעולם לא ייפתר באופן מלא", כתבה OpenAI בפוסט שפורסם השבוע.
החברה השיקה את דפדפן ChatGPT Atlas באוקטובר 2024, וכבר באותו יום חוקרי אבטחה הדגימו כיצד ניתן לכתוב כמה מילים במסמך Google Docs שמסוגלות לשנות את התנהגות הדפדפן. גם חברת Brave פרסמה באותו יום פוסט בבלוג שהסביר כי Prompt Injection עקיף הוא אתגר שיטתי לכל דפדפני AI, כולל Comet של Perplexity.
פתרון OpenAI: בוט האקר מבוסס AI
הפתרון שפיתחה OpenAI הוא "תוקף אוטומטי מבוסס LLM" - בוט שאומן באמצעות למידת חיזוק (Reinforcement Learning) לשחק את התפקיד של האקר. הבוט מחפש דרכים להחדיר הוראות זדוניות לסוכן ה-AI, בוחן את ההתקפה בסימולציה, רואה כיצד ה-AI המטרה חושב ואילו פעולות הוא יבצע, ולאחר מכן משפר את ההתקפה ומנסה שוב ושוב.
לבוט של OpenAI יש יתרון משמעותי על פני תוקפים חיצוניים: הוא יכול לראות את התהליך הפנימי של חשיבת ה-AI המותקף - מידע שאינו זמין לגורמים חיצוניים. "התוקף המאומן שלנו מסוגל להוביל סוכן לביצוע תהליכי עבודה מזיקים מתוחכמים שמתפרשים על פני עשרות או אפילו מאות שלבים", כתבה החברה. "ראינו גם אסטרטגיות תקיפה חדשניות שלא הופיעו במבצע Red Teaming האנושי שלנו או בדיווחים חיצוניים."
בהדגמה שפרסמה החברה, הבוט הצליח להחדיר מייל זדוני לתיבת הדואר הנכנס של משתמש. כאשר סוכן ה-AI סרק את תיבת הדואר, הוא פעל לפי ההוראות הנסתרות במייל ושלח הודעת התפטרות במקום לנסח מענה אוטומטי על העדרות. לאחר עדכון האבטחה, המערכת הצליחה לזהות את ניסיון ה-Prompt Injection ולהתריע למשתמש.
גם בריטניה מזהירה
OpenAI אינה לבד בהודאה. המרכז הלאומי לאבטחת סייבר של בריטניה (NCSC) הזהיר מוקדם יותר החודש כי מתקפות Prompt Injection נגד יישומי AI גנרטיבי "אולי לעולם לא יוסרו לחלוטין", מה שמעמיד אתרים בסיכון לפריצות מידע בקנה מידה גדול. הסוכנות הממשלתית הבריטית המליצה לאנשי מקצוע בתחום הסייבר להפחית את הסיכון וההשפעה של Prompt Injection, במקום לחשוב שניתן "לעצור" את ההתקפות.
המחיר של חדשנות
רמי מקארתי, חוקר אבטחה ראשי בחברת אבטחת הסייבר Wiz, מציע דרך שימושית לחשוב על הסיכון במערכות AI: "אוטונומיה כפול גישה". דפדפני AI נמצאים בנקודה מאתגרת: אוטונומיה בינונית בשילוב עם גישה גבוהה מאוד למידע רגיש כמו דואר אלקטרוני ומידע תשלום.
"עבור רוב מקרי השימוש היומיומיים, דפדפני AI עדיין לא מספקים מספיק ערך כדי להצדיק את פרופיל הסיכון הנוכחי שלהם", אמר מקארתי ל-TechCrunch. "הסיכון גבוה בהתחשב בגישה שלהם למידע רגיש, גם אם גישה זו היא גם מה שהופך אותם לעוצמתיים. האיזון הזה יתפתח, אך היום הפשרות הן מאוד ריאליות."
למרות האתגרים, OpenAI טוענת שהגנה על משתמשי Atlas מפני Prompt Injection היא בראש סדר העדיפויות. החברה ממליצה למשתמשים להפחית את הסיכון באמצעות הגבלת גישת הסוכנים למידע רגיש, דרישת אישור משתמש לפני ביצוע פעולות קריטיות, ומתן הוראות ספציפיות במקום הרשאות רחבות.
השלכות על השוק הישראלי
עבור חברות ישראליות שמתכננות לאמץ דפדפני AI או סוכנים אוטונומיים, ההודאה של OpenAI מהווה אזהרה משמעותית. ארגונים ישראליים, במיוחד בסקטורים הרגישים כמו פיננסים, הייטק וביטחון סייבר, צריכים לשקול בזהירות את יחס התועלת-סיכון לפני אימוץ טכנולוגיות אלו. עדיין לא ברור מתי Atlas יהיה זמין רשמית בישראל ועם תמיכה בעברית, אך עד אז על ארגונים מקומיים להיות מודעים לסיכונים הטמונים בטכנולוגיה זו.
