
משטרה מלאכותית? זיהוי איומי אלימות, חסימות, ופנייה לרשויות
בפרסום חדש מפרטת OpenAI כיצד היא מצמצמת שימוש ב ChatGPT לצורכי אלימות: אימון מודלים לסירוב להנחיות אופרטיביות, ניטור אוטומטי עם סיווגים, בדיקה אנושית בהקשר, חסימת חשבונות מפרים, ובמקרי סיכון מידי גם הפניה לרשויות ואיתור גורמי תמיכה מחוץ לעולם הוירטואלי.
"מחויבות לבטיחות הקהילה" כך נכתב לאחרונה בפרסום של OpenAI, על רקע מציאות שבה אירועי אלימות המונית, איומים נגד נבחרי ציבור וניסיונות פיגוע אינם תרחיש תאורטי אלא הווה מתמשך. לפי החברה, אנשים מביאים לעתים את החרדה, הכעס או הסקרנות שלהם לשיחות עם ChatGPT: חלקם מבקשים להבין מה קרה בחדשות, אחרים דנים באלימות בהקשר היסטורי או בדיוני, ובמקרים חריגים עשויים לנסות להתקדם משיח כללי לתכנון מעשי. המסר המרכזי של OpenAI הוא שהמערכת נדרשת להבחין בין דיון מותר ומועיל לבין הכוונה מסוכנת, ולהציב גבולות כששיחה מתחילה להתקרב לאיום, לפגיעה באחרים או לתכנון מעשה פשע בעולם האמיתי.
איפה עובר הגבול: ידע כללי מול הנחיות שמאפשרות אלימות
OpenAI מסבירה כי עקרונות ההתנהגות של המודלים מוגדרים במסמך Model Spec, שמטרתו למקסם שימושיות וחופש משתמשים תוך צמצום סיכוני נזק באמצעות ברירות מחדל זהירות. בפועל, ChatGPT מאומן לסרב לבקשות שמטרתן לקבל הוראות, טקטיקות או תכנון שיכולים לאפשר אלימות בצורה משמעותית. מנגד, החברה מדגישה שיש מקום לשאלות ניטרליות על אלימות לצורך עובדות, לימוד, הבנת אירועים, מניעה או מדיניות ציבורית. לכן, המדיניות מחפשת להחזיק את המתח העדין בין שיח לגיטימי לבין הימנעות מפרטים אופרטיביים: לא רק מה נאמר, אלא עד כמה המידע עלול להפוך ל"מדריך שימוש" לפגיעה.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
כאן נכנס היבט טכני שמעניין במיוחד את קהילת ה-AI: הסיכון לא תמיד מתגלה במשפט יחיד. OpenAI מתארת מצב שבו הודעה בודדת יכולה להיראות תמימה, אך דפוס מצטבר בשיחה ארוכה, או לאורך כמה שיחות, עשוי לאותת על כוונה בעייתית. כדי להתמודד עם זה, החברה מציינת שהיא מחזקת יכולות זיהוי "סימנים עדינים" לאורך שיחות ממושכות ובעלות רגישות גבוהה, תוך הישענות על אימון מודלים, הערכות, Red-Teaming ומשוב של מומחים. בתחום זה נהוג להשתמש בשילוב של מדדים התנהגותיים, ניתוח הקשר, והערכות מבוססות תרחישים כדי לבדוק איך מודל מגיב לניסיונות עקיפה ולשאלות גבוליות.
ניטור ואכיפה: שילוב של אוטומציה ובדיקה אנושית
לפי OpenAI, כאשר מזוהה ניסיון להשתמש בכלים לתכנון או ביצוע אלימות, החברה פועלת בכמה מישורים, ביניהם שלילת גישה לשירותים. כללי השימוש שלה אוסרים איומים, הפחדה והטרדה, טרור או אלימות, פיתוח נשק, פעילות בלתי חוקית, השחתת רכוש או מערכות, וניסיונות לעקוף מנגנוני בטיחות.
מבחינת מנגנונים, OpenAI מתארת מערכות זיהוי אוטומטיות בהיקף גדול שמנתחות תוכן והתנהגות. ברשימת האמצעים שהוזכרו נמצאים סיווגים אוטומטיים (Classifiers), מודלי Reasoning, טכנולוגיות Hash-Matching לזיהוי תכנים מוכרים, רשימות חסימה וכלי ניטור נוספים. כאשר שיחה או חשבון מסומנים, הם נבדקים בהקשר על ידי צוותים מיומנים. החברה מדגישה שמדובר בסקירה שמתקיימת תחת מגבלות פרטיות ואבטחה, עם גישה מוגבלת למידע וחובות סודיות והגנה על נתונים. מטרת הבדיקה היא להבין האם מדובר בהפרה שמצדיקה חסימה מיידית, האם נדרשת הסלמה לבדיקה מעמיקה יותר, או שמא מדובר בסיכון נמוך שניתן להוריד בעדיפות.
החברה מצהירה על מדיניות אפס סובלנות לשימוש בכלים שלה כדי לסייע בביצוע אלימות, ומציינת שגם קיימת אפשרות ערעור על החלטות אכיפה, כשהחברה בוחנת את הערעור על-מנת לאשר או לתקן את התוצאה.
כשיש סיכון מיידי: פנייה לתמיכה בעולם האמיתי ולעתים גם לרשויות
ברוב המקרים, האכיפה מתבצעת מול המשתמש בלבד. אך OpenAI אומרת שבמצבים רגישים במיוחד, שבהם יש אינדיקציות לנזק ממשי בעולם האמיתי, המקרה מוסלם לחקירה מעמיקה יותר באמצעות קריטריונים מובנים ובסיוע מומחי בריאות הנפש והתנהגות. כאשר השיחות מצביעות על סיכון מידי ואמין לפגיעה באחרים, החברה תודיע לרשויות אכיפת החוק. החברה מדגישה שהקריטריונים גמישים, משום שמשתמש שמסוכן בפועל לא תמיד ינסח בשיחה יעד, אמצעים ותזמון בצורה מפורשת.
במקביל, OpenAI מזכירה גם את עבודתה עם משתמשים במצוקה או בסיכון לפגיעה עצמית: המטרה היא לא להסלים ולא לאפשר פעולה מזיקה, אלא לעודד פנייה לעזרה. לפי החברה, ChatGPT מציג משאבי חירום מקומיים, מעודד פנייה לאנשי מקצוע או לקרובים, ובמקרים חמורים מפנה לשירותי חירום.
בקרת הורים ו"איש קשר מהימן": בטיחות בלי לוותר לגמרי על פרטיות
החברה מציינת כי בסתיו האחרון הושקו בקרות הורים שמאפשרות לקשר בין חשבון הורה לחשבון של מתבגר ולהגדיר חוויה בטוחה ומותאמת גיל, בלי שההורים יקבלו גישה לשיחות עצמן. במקרים נדירים של סימני מצוקה חריפה, ההורים עשויים לקבל התראה מצומצמת הדרושה לשמירה על בטיחות. בנוסף, OpenAI אומרת שבקרוב תציג אפשרות "איש קשר מהימן" למבוגרים, שיקבל התראות כשנראה שהמשתמש זקוק לתמיכה נוספת.
בשורה התחתונה, הפרסום ממקם את ChatGPT כחלק מתשתית חברתית רחבה: לא רק מוצר שיחה, אלא מערכת שחייבת לאזן בין פרטיות, חירויות אזרחיות ונגישות דמוקרטית לידע, לבין זיהוי מוקדם של סיכוני אלימות, אכיפה, והפניה לעזרה כשצריך. לפי OpenAI, זו עבודה מתמשכת של חיזוק מודלים, שיפור זיהוי, עידון תהליכי סקירה והסלמה, והתמודדות עם מקרים קשים וניסיונות התחמקות מתוחכמים.
