
קרדיט תמונה: OpenAI
בטיחות משודרגת ב ChatGPT: זיהוי טוב יותר של מצוקה, אובדנות וסיכון לאורך שיחה
OpenAI הודיעה על עדכוני בטיחות חדשים ל-ChatGPT, שנועדו לזהות סימני סיכון המתפתחים לאורך זמן בשיחות רגישות. החברה מדווחת על שיפור משמעותי בתגובות בטוחות במקרי אובדנות, פגיעה עצמית ופגיעה באחרים, תוך שימוש בהקשר שיחתי ובתקצירי בטיחות מוגבלים.
OpenAI: החברה חושפת עדכוני בטיחות חדשים ל-ChatGPT שנועדו לסייע למודל לזהות טוב יותר מצבי סיכון בשיחות רגישות, כפי שפורסם בפרסום רשמי של OpenAI ממאי 2026. לפי החברה, המטרה היא לאפשר ל-ChatGPT להבין לא רק הודעה בודדת, אלא גם רצף של רמזים עדינים או מתפתחים שיכולים להצביע על מצוקה, אובדנות, פגיעה עצמית או כוונה לפגוע באחרים.
למה ההקשר הופך קריטי בשיחות עם בינה מלאכותית
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
ב-OpenAI מדגישים כי משתמשים פונים מדי יום ל-ChatGPT בנושאים יומיומיים, מקצועיים ואישיים, ובתוך מאות מיליוני אינטראקציות יש גם מקרים שבהם אנשים מתמודדים עם מצוקה ממשית. האתגר הטכנולוגי והאתי הוא להבדיל בין שיחה תמימה לבין מצב נדיר אך מסוכן, שבו בקשה שנראית רגילה בפני עצמה מקבלת משמעות אחרת כאשר מחברים אותה לאמירות קודמות.
לדוגמה, שאלה טכנית או ניסוח מעורפל עשויים להיות בלתי מזיקים בהקשר רגיל, אך להפוך למדאיגים אם הופיעו קודם לכן ביטויים של ייאוש, מחשבות אובדניות או כוונה לפגיעה. לפי OpenAI, העדכונים החדשים מאמנים את ChatGPT לזהות טוב יותר את הכוונה האפשרית מתוך ההקשר, ובמקרים מתאימים להסלים זהירות, לסרב למסור פרטים מסוכנים, להרגיע את השיחה או להפנות את המשתמש לחלופות בטוחות ולמקורות תמיכה.
תקצירי בטיחות בין שיחות
אחד החידושים המרכזיים הוא שימוש במה ש-OpenAI מכנה "תקצירי בטיחות". מדובר בהערות קצרות, עובדתיות וממוקדות, שנוצרות על ידי מודל שאומן למשימות הסקת בטיחות. התקצירים נועדו לשמר הקשר רלוונטי במקרים נדירים ובעלי סיכון גבוה, שבהם סימני אזהרה עשויים להופיע בשיחה אחת ובקשה קשורה תגיע בשיחה מאוחרת יותר.
החברה מבהירה כי אין מדובר בזיכרון אישי כללי או במנגנון פרסונליזציה לטווח ארוך. התקצירים מוגבלים להקשר בטיחותי, נשמרים לזמן מוגבל ומשמשים רק כאשר יש חשש רציני. מבחינה טכנית, זהו ניסיון להתמודד עם מגבלה מוכרת של מודלי שפה: היכולת להסיק סיכון מצטבר על פני זמן, בלי להגיב ביתר לשיחות רגילות.
עבודה עם מומחי בריאות נפש
הדוח נכתב על ידי OpenAI ומציין כי הפיתוח נעשה בסיוע אנשי מקצוע מרשת Global Physicians Network של החברה, בהם פסיכיאטרים ופסיכולוגים בעלי מומחיות בפסיכולוגיה משפטית, מניעת אובדנות ופגיעה עצמית. המומחים סייעו להגדיר מתי יש ליצור תקצירי בטיחות, כמה הקשר קודם רלוונטי לתגובה, ולכמה זמן ראוי שהמודל יתחשב בו.
שילוב מומחי בריאות נפש חשוב במיוחד משום שמערכות בינה מלאכותית אינן מטפלות ואינן מחליפות סיוע אנושי. תפקידן במצבים כאלה הוא לזהות סיכון, להימנע מהחמרתו ולהכווין את המשתמש לקבלת עזרה מתאימה, כולל משאבי חירום או פנייה לאדם מהימן.
שיפור מדיד בביצועי הבטיחות
OpenAI מדווחת כי במבחנים פנימיים שתוכננו לדמות תרחישים מאתגרים, העדכונים הביאו לשיפור ניכר בתגובות בטוחות כאשר הסיכון היה ברור רק לאחר הצטברות הקשר. בתרחישים ארוכים בתוך שיחה אחת, ביצועי התגובה הבטוחה השתפרו ב-50% במקרי אובדנות ופגיעה עצמית, וב-16% במקרי פגיעה באחרים.
בבדיקות שכללו מספר שיחות ומספר מודלים, GPT-5.5 Instant, המודל המשמש כיום כברירת המחדל ב-ChatGPT לפי הפרסום, הציג שיפור של 52% בתרחישי פגיעה באחרים ושיפור של 39% בתרחישי אובדנות ופגיעה עצמית. OpenAI גם בחנה את איכות תקצירי הבטיחות עצמם ביותר מ-4,000 הערכות, ודיווחה על ציון רלוונטיות בטיחותית ממוצע של 4.93 מתוך 5 וציון עובדתיות של 4.34 מתוך 5.
המשמעות לקהילת הטכנולוגיה
העדכון משקף מגמה רחבה יותר בפיתוח מודלי AI: מעבר ממדיניות תגובה שמבוססת בעיקר על הודעה בודדת, למערכות שמנסות להבין דפוסים לאורך זמן. זהו כיוון חשוב עבור בטיחות AI, אך גם רגיש במיוחד מבחינת פרטיות, שקיפות והגבלת שימוש במידע. OpenAI מציגה את המנגנון כמצומצם וממוקד, אך סביר שהנושא ימשיך לעורר דיון ציבורי ורגולטורי.
בשלב זה, החברה מתמקדת באובדנות, פגיעה עצמית ופגיעה באחרים. בעתיד היא עשויה לבחון שיטות דומות גם בתחומים מסוכנים אחרים, בהם ביולוגיה או אבטחת סייבר, תחת הגנות ייעודיות. עבור משתמשי ChatGPT, המשמעות המיידית היא מערכת שאמורה להיות רגישה יותר למצבי סיכון אמיתיים, ועדיין לשמור על חוויית שימוש רגילה בשיחות יומיומיות.
