חזרה למחקרים
הסברים מינימליים, מקומיים וסיבתיים להצלחת מתקפות Jailbreak במודלי שפה גדולים
arXiv
בינה מלאכותית מסבירה

הסברים מינימליים, מקומיים וסיבתיים להצלחת מתקפות Jailbreak במודלי שפה גדולים

מחברים:Shubham Kumar, Narendra Ahuja
תאריך פרסום:29 באפריל 2026
סוג המחקר:ניסוי אמפירי
מקור:arXiv

יישומי המאמר

המחקר שימושי במיוחד למי שבונה, מטמיע או מנהל מערכות מבוססות מודלי שפה ורוצה להבין לא רק אם המודל נפרץ, אלא למה בדיוק זה קרה. במקום לראות jailbreak כקופסה שחורה, LOCA מאפשרת לזהות אילו שינויים פנימיים בייצוגי המודל הובילו לכך שהמודל הפסיק לסרב והתחיל לענות לבקשות מזיקות. עבור חברות AI, צוותי אבטחה, רגולציה ומנהלי מוצר, המשמעות היא כלי טוב יותר לאבחון חולשות, תעדוף תיקונים והקשחת מודלים בצורה ממוקדת. זה יכול לסייע בפיתוח guardrails יעילים יותר, בבדיקות red teaming, בהסברת כשלי בטיחות להנהלה או לרגולטור, ובהשוואה בין סוגי מתקפות שונים. בפועל, מדובר בצעד לעבר ניטור והקשחת מודלים על בסיס סיבות אמיתיות להצלחה של מתקפות, ולא רק על בסיס מדדי הצלחה/כישלון גולמיים.

TL;DR

המאמר מציג את LOCA, שיטה חדשה ליצירת הסברים סיבתיים, מקומיים ומינימליים להצלחת מתקפות jailbreak על מודלי שפה גדולים. במקום להסתפק בהסברים גלובליים כמו "המודל הפחית תפיסת מזיקות" או "הגביר נטיית סירוב", המחקר שואל שאלה ממוקדת יותר: מדוע jailbreak מסוים הצליח על בקשה מזיקה מסוימת. LOCA פועלת על ייצוגי ביניים במודל ומזהה קבוצה קטנה של שינויים אינטרפרטביליים, שכאשר מתקנים אותם, המודל חוזר לסרב לבקשה המזיקה. הניסוי נערך על זוגות של בקשות מקוריות ובקשות jailbreak מתוך benchmark רחב, על מודלי Gemma ו-Llama לשיחה, ובהשוואה לשיטות קודמות שהותאמו למשימה. התוצאות מראות כי LOCA מצליחה, בממוצע, לגרום מחדש לסירוב באמצעות כשישה שינויים אינטרפרטביליים בלבד, בעוד ששיטות קודמות לרוב אינן משיגות סירוב גם לאחר 20 שינויים. המחקר תורם להבנה מכניסטית ומעשית יותר של כשלים בטיחותיים ב-LLMs.

פירוט המאמר

רקע ומוטיבציה

המאמר עוסק בבעיה מרכזית בבטיחות של מודלי שפה גדולים: היכולת של תוקפים לגרום גם למודלים שאומנו לבטיחות לענות לבקשות מזיקות באמצעות jailbreak prompts. המחברים טוענים כי אף שקיימות עבודות קודמות שבוחנות הצלחת jailbreak דרך ייצוגי ביניים במודל, רוב ההסברים המוצעים כיום הם גלובליים מדי. כלומר, הם מנסים להסביר את כלל מתקפות ה-jailbreak דרך מספר כיוונים כלליים במרחב הייצוגים, כמו ירידה ב"מזיקות נתפסת" או היחלשות מנגנון הסירוב. לפי המחברים, הסבר כזה אינו מספק, משום שמתקפות שונות עשויות להצליח דרך מנגנונים שונים, ואותה אסטרטגיית jailbreak עשויה לעבוד מסיבות שונות בקטגוריות שונות של בקשות מזיקות.

שאלת המחקר

העבודה שואלת שאלה מקומית יותר: מדוע jailbreak מסוים הצליח עבור בקשה מזיקה מסוימת. במקום לחפש משתנים כלליים שמאפיינים את כל המקרים, המחברים מבקשים לזהות עבור כל זוג של בקשה מקורית ובקשת jailbreak את קבוצת השינויים המינימלית בייצוגי הביניים של המודל, אשר מספיקה כדי להחזיר את התנהגות הסירוב. במילים אחרות, אם מודל ענה לבקשה מזיקה בעקבות jailbreak, האם אפשר לאתר מספר קטן של שינויים אינטרפרטביליים בייצוג הפנימי שלו, שכאשר מתקנים אותם, המודל שוב יסרב.

התרומה המרכזית: LOCA

לצורך כך מוצגת השיטה LOCA, קיצור של Local, Causal explanations. LOCA נועדה לספק הסברים שהם בו-זמנית:

  • מקומיים: הסבר ספציפי למקרה מסוים ולא לכלל המקרים.
  • סיבתיים: לא רק תיאור קורלטיבי, אלא זיהוי שינויים שכאשר מתערבים בהם בפועל, משנים את תוצאת המודל.
  • מינימליים: מספר קטן ככל האפשר של שינויים אינטרפרטביליים שמספיקים כדי לגרום לחזרה לסירוב.

המסגרת מתבססת על בחינת ייצוגי ביניים במודל ועל זיהוי שינויים שניתנים לפרשנות. לאחר מכן מבוצעת התערבות שמטרתה לבדוק אם שינוי אותם רכיבים אכן מחזיר את המודל ממצב של היענות לבקשה מזיקה למצב של סירוב. בכך השיטה מבדילה בין תכונות שרק מלוות את הצלחת ה-jailbreak לבין תכונות שבאמת משפיעות עליה סיבתית.

שיטת המחקר

ההערכה של LOCA בוצעה על זוגות של בקשות מזיקות מקוריות ובקשות jailbreak תואמות מתוך benchmark רחב למתקפות jailbreak. המחקר נבחן על פני מודלי chat ממשפחות Gemma ו-Llama. השוואת הביצועים נעשתה מול שיטות קודמות שהותאמו לתרחיש זה, כלומר שיטות שניסו להסביר jailbreak דרך מניפולציה או זיהוי של רכיבים ייצוגיים כלליים.

לפי תיאור המאמר, יחידת ההערכה המרכזית היא היכולת של השיטה לזהות קבוצת שינויים אינטרפרטביליים שאכן מחזירה refusal במודל. זהו מדד מחמיר יחסית, משום שהסבר טוב לא אמור רק "להישמע סביר", אלא לאפשר התערבות אפקטיבית בתהליך החישובי של המודל.

תוצאות עיקריות

הממצא הכמותי הבולט ביותר במאמר הוא ש-LOCA מצליחה, בממוצע, לגרום למודל לחזור לסרב לאחר כ-6 שינויים אינטרפרטביליים בלבד. זהו הישג משמעותי ביחס לעבודות קודמות, שלדברי המחברים נכשלות באופן שגרתי בהשגת refusal גם לאחר 20 שינויים. הפער הזה חשוב לא רק מבחינת ביצועים, אלא גם מבחינת איכות ההסבר: אם יש צורך במספר רב מאוד של שינויים, קשה לטעון שההסבר מינימלי, מקומי או באמת חושף את מנגנון הכשל.

המשמעות היא ש-LOCA מספקת הסבר דחוס ומדויק יותר להצלחת jailbreak. במקום לתאר את ההתקפה ככזו שמשנה אוסף גדול של תכונות לא מובחנות, השיטה מצליחה לבודד מספר קטן של שינויים רלוונטיים במיוחד. זה תומך בטענה של המחברים שהצלחת jailbreak במקרים רבים נשענת על מספר מנגנונים מצומצם יחסית, ושאפשר ללכוד אותם דרך ניתוח מקומי.

פרשנות הממצאים

המחקר מדגיש שמתקפות jailbreak אינן בהכרח פועלות דרך אותו מסלול פנימי בכל פעם. ייתכן שבקשות אלימות, סייבר או הונאה יפעילו דפוסים שונים, ושאותה טכניקת prompt תגרום לשינויים שונים במודל בהתאם להקשר. לכן, הסברים גלובליים בלבד עלולים לטשטש מנגנונים חשובים. LOCA מציעה חלופה שמותאמת לרמת המקרה הבודד, וזו עשויה להיות מועילה במיוחד לאבחון ולתיקון כשלים בטיחותיים ממוקדים.

ממצא נוסף המשתמע מהעבודה הוא שהסברים אינטרפרטביליים יכולים להיות גם שימושיים תפעולית: אם ניתן לזהות כמה רכיבים קריטיים שגרמו לכשל, אפשר עקרונית להשתמש בכך לתיקון ממוקד, לניתוח של מתקפות חדשות, או לבניית מערכות ניטור שמזהות תבניות מסוכנות בזמן אמת.

מגבלות והיקף התרומה

כמו מחקרי mechanistic interpretability רבים, גם כאן ההישגים מוצגים בעיקר על מודלים ומשימות שנבדקו בניסוי, ולכן יש להיזהר מהכללה אוטומטית לכל מודל שפה או לכל סוג מתקפה. בנוסף, העובדה שהמאמר מתמקד בזוגות מקור-jailbreak שנדגמו מ-benchmark מסוים אומרת שהביצועים תלויים גם באיכות המדגם ובאופן הגדרת refusal. עם זאת, עצם המעבר מהסברים גלובליים להסברים מקומיים וסיבתיים הוא תרומה מתודולוגית חשובה בפני עצמה.

מסקנות

המאמר מציג צעד משמעותי בהבנת הסיבות להצלחת jailbreaks במודלי שפה גדולים. במקום להסתפק בתיאורים רחבים של כיוונים סמנטיים במרחב הייצוגים, LOCA מציעה מסגרת שמזהה עבור כל מקרה את קבוצת השינויים האינטרפרטביליים המינימלית שגרמה להצלחה של ההתקפה. הניסויים על Gemma ו-Llama מראים יתרון ברור על פני שיטות קודמות: בממוצע נדרשים רק 6 שינויים כדי להחזיר refusal, לעומת כישלון שכיח של שיטות קודמות גם לאחר 20 שינויים. לפי המחברים, זהו צעד לעבר הסברים מכניסטיים, מקומיים ומעשיים יותר של כשלים בטיחותיים ב-LLMs, עם פוטנציאל ישיר ליישומי אבטחה, red teaming והקשחת מודלים.

✨ היילייטס

  • LOCA מציעה הסבר מקומי וסיבתי להצלחת jailbreak: במקום להסביר מתקפות jailbreak דרך עקרונות כלליים בלבד, השיטה בודקת למה מתקפה מסוימת הצליחה במקרה מסוים, ומהם השינויים הפנימיים המדויקים שהובילו לכך.
  • הדגש הוא על מינימליות ואינטרפרטביליות: LOCA מחפשת את קבוצת השינויים הקטנה ביותר בייצוגי הביניים של המודל, כך שההסבר אינו רק נכון אמפירית אלא גם קריא ושימושי לניתוח בטיחותי.
  • ביצועים עדיפים משמעותית על שיטות קודמות: בניסויים על מודלי Gemma ו-Llama, LOCA הצליחה להחזיר את המודל למצב של סירוב באמצעות כ-6 שינויים אינטרפרטביליים בממוצע, בעוד ששיטות קודמות לרוב לא הצליחו גם לאחר 20 שינויים.
  • המחקר מאתגר הסברים גלובליים אחידים ל-jailbreaks: המחברים מראים בעקיפין שמתקפות שונות ובקשות מזיקות שונות עשויות לעבוד דרך מנגנונים פנימיים שונים, ולכן נדרשת רמת ניתוח מקומית יותר.
  • התרומה היא גם מדעית וגם יישומית: השיטה יכולה לשמש להבנה מכניסטית של כשלים בטיחותיים, אך גם לתמוך בפיתוח guardrails, red teaming, תעדוף תיקונים והקשחת מודלים בצורה ממוקדת יותר.

חוקרים

Shubham KumarNarendra Ahuja

מילות מפתח

בינה מלאכותית מסבירהמודלים גדוליםאבטחת מידע ופרטיות ב-AIעיבוד שפה טבעיתבינה מלאכותית

שאלות נפוצות