חזרה לחדשות
OpenAI משיקה את IH-Challenge: אימון חדש ל-LLM שמחזק אבטחה נגד Prompt Injection והיררכיית הוראות

קרדיט תמונה: OpenAI

OpenAI משיקה את IH-Challenge: אימון חדש ל-LLM שמחזק אבטחה נגד Prompt Injection והיררכיית הוראות

11 במרץ 2026
מערכת זירת AI

OpenAI פרסמה במרץ 2026 מחקר חדש שמציג את IH-Challenge, מכלול נתונים לאימון בחיזוק שמלמד מודלים גדולים לתעדף נכון הוראות לפי רמת אמון: מערכת מעל מפתח, משתמש וכלי. לפי החברה, האימון משפר עמידות מול מתקפות Prompt Injection והיענות למדיניות בטיחות, מבלי לפגוע משמעותית ביכולות.

OpenAI: שיפור בהיררכיית הוראות במודלי שפה מתקדמים הוא אחד התנאים הבסיסיים לפריסה בטוחה של בינה מלאכותית, במיוחד בעידן שבו מודלים פועלים כסוכנים, קוראים מידע מהרשת ומשתמשים בכלים חיצוניים. כך עולה מפרסום של OpenAI ממרץ 2026, המציג את IH-Challenge, מערך אימון חדש שנועד לחזק את היכולת של מודלים גדולים להעדיף הוראות אמינות על פני הוראות לא אמינות.

למה “היררכיית הוראות” הפכה לנושא אבטחה

מערכות AI מקבלות הוראות ממקורות שונים בו זמנית: מדיניות בטיחות ברמת הודעת מערכת, הנחיות מוצר של המפתח, בקשות המשתמש ולעיתים גם טקסט שמגיע מכלים חיצוניים או ממסמכים שנקראים בזמן ריצה. כאשר הוראות מתנגשות, מודל חייב לבחור מה גובר. OpenAI מגדירה היררכיה ברורה: System > Developer > User > Tool. כלומר, ההוראות בעלות רמת האמון הגבוהה ביותר מגיעות מהמערכת, אחריהן מהמפתח, לאחר מכן מהמשתמש, ולבסוף מהכלים.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

כאשר מודל “מתבלבל” ומייחס סמכות להוראה נמוכה יותר, התוצאה יכולה להיות כשל בטיחותי או אבטחתי. דבר זה מתבטא למשל בבקשות לתוכן אסור, ניסיונות להוציא מידע פרטי, או במתקפות Prompt Injection שבהן הוראות זדוניות מוחבאות בתוך פלט של כלי, מסמך או דף אינטרנט. במילים פשוטות, רבים מהכשלים הללו הם וריאציות של אותה בעיה: המודל מציית להוראה הלא נכונה.

האתגר: לאמן היררכיה בלי לקלקל שימושיות

OpenAI מסבירה שאימון באמצעות Reinforcement Learning מתאים עקרונית למשימה: מייצרים שיחות עם הוראות מתנגשות ומתגמלים את המודל על בחירה נכונה. אבל באימון בהיקף גדול יש מלכודות מוכרות. ראשית, משימות מסובכות מדי עלולות להיראות כמו כשל היררכיה, כשבפועל מדובר בכשל הבנת הוראות. שנית, שיפוט באמצעות מודל אחר (LLM-as-a-Judge) עלול להיות שגוי כשמדובר בקונפליקטים עדינים. זאת ועוד, מודלים נוטים ללמוד “קיצורי דרך” כמו סירוב יתר, שמעלה מדדי בטיחות אך פוגע בערך המוצר.

IH-Challenge: משימות פשוטות, בדיקה אובייקטיבית, בלי קיצורי דרך

כדי להתמודד עם הבעיות הללו OpenAI בנתה את IH-Challenge, סט נתונים לאימון בחיזוק שבו כל משימה היא שיחה קצרה עם שתי שכבות הוראה: הודעה בעלת הרשאות גבוהות שמציבה מגבלה ברורה, ולאחריה הודעה ברמת הרשאות נמוכה שמנסה לגרום למודל להפר את המגבלה. את הצלחת המודל אפשר לבדוק באופן אובייקטיבי באמצעות סקריפט Python, כך שהתגמול אינו תלוי בשיפוט סובייקטיבי של מודל נוסף.

OpenAI מדגישה שהמשימות “קלות בהבנת הוראות” אך עדיין מאלצות את המודל לבחור נכון בין מקורות סמכות. כך נוצרת למידה ממוקדת של ההיגיון שמאחורי שרשרת הפיקוד, ולא רק של ניסוחי מדיניות.

התוצאות: יותר עמידות, פחות פריצות דרך ושמירה על יכולות

במסגרת הניסוי החברה אימנה מודל פנימי בשם GPT-5 Mini-R על IH-Challenge והשוותה אותו ל-GPT-5 Mini. לפי הטבלאות בדוח, נרשמו שיפורים במדדי היררכיית הוראות והכללה טובה יותר למבחנים שלא נראו באימון, כולל תרחישי עימות. במקביל, OpenAI מציינת שלא נצפתה “קריסה לסירוב יתר” ואף דווח על שיפור במדד Overrefusal ב-IH-Challenge.

החלק המעניין מבחינה תפעולית הוא ההשלכה לשני תחומים מרכזיים: Safety Steerability, כלומר היכולת “להיגוי” התנהגות בטיחותית דרך הוראות מערכת (למשל כללי סירוב ונתיבים לביצוע בטוח), ועמידות מול Prompt Injection כאשר התוקף מנסה להחדיר הוראות דרך פלט כלי. בדוח נטען שהאימון שיפר ביצועים גם בבנצ’מרקים (אמות מידה) אקדמיים כמו CyberSecEval 2 וגם בבחינות פנימיות של OpenAI המדמות התקפות מהעולם האמיתי.

מה זה אומר על סוכני AI וכלים חיצוניים

ככל שמודלים הופכים 'סוכניים' יותר, קוראים מסמכים לא אמינים ומבצעים פעולות, היררכיית הוראות היא לא עניין תיאורטי אלא שכבת אבטחה. מנגנונים כמו תיעדוף מערכת, הפרדת תפקידים, ובדיקת ציות לתנאי בטיחות הם חלק מהארכיטקטורה שמצמצמת סיכוני דלף מידע, פעולות לא מורשות וציות להוראות זדוניות.

OpenAI מסכמת שהגישה שלה מראה כיצד עיצוב סביבת אימון נכון יכול לעקוף מלכודות מוכרות באימון ל-IH, ולספק שיפור שמכליל גם למבחנים “פחות ניתנים לדירוג אובייקטיבי”. לשם עידוד מחקר, החברה מפרסמת את מכלול הנתונים IH-Challenge לציבור דרך Hugging Face.

שאלות נפוצות