
קרדיט תמונה: Wired Staff; Getty Images
Anthropic מציגה תוכנית למנוע מ-Claude לסייע בבניית נשק גרעיני האם זה יעבוד
Anthropic משתפת פעולה עם משרד האנרגיה האמריקאי וה-NNSA כדי להטמיע "מסווג גרעיני" המשמש כמסנן שיחות ל-Claude. המהלך מעורר מחלוקת: האם זה צעד מנע הכרחי לקראת דורות מודלים מתקדמים, או "תיאטרון אבטחה" שמנפח יכולות שאינן קיימות ומסתיר כשלים מאחורי חיסיון?
כפי שפורסם ב WIRED על ידי מתיו גולט, Anthropic פיתחה יחד עם משרד האנרגיה האמריקאי (DOE) והסוכנות הלאומית לביטחון גרעיני (NNSA) "מסווג גרעיני" — מסנן תוכן ייעודי שנועד לזהות ולחסום שיחות שבהן משתמש מבקש הכוונה שעלולה לסייע לפיתוח נשק גרעיני. לפי החברה, המודלים של Claude נבחנו באופן סדור בסביבת ענן מסווגת של AWS, והמסנן מבוסס על רשימת "מחווני סיכון" שהרכיבה ה-NNSA.
ב-Anthropic טוענים כי החידוד ארך חודשים, וכי המסנן מבדיל בין דיון לגיטימי באנרגיה גרעינית או באיזוטופים רפואיים לבין בקשות בעלות פוטנציאל להסלמת סיכון. מנגד, מומחים שהובאו בכתבה חלוקים: יש הרואים בכך זהירות ראויה לקראת יכולות עתידיות של מודלים, ואחרים מזהירים מפני "קוסמות" תקשורתית. היידי חלאַף (AI Now Institute) טוענת כי אם המודל לא אומן מלכתחילה על חומרים רגישים, הצלחת המסנן לא מלמדת על היקף הסיכון. Anthropic מצדה מציגה את המהלך כחלק מאסטרטגיית מניעה פרואקטיבית, ואף מזמינה חברות נוספות לאמץ את המסנן כתקן וולונטרי.
לישראל, יש לכך כמה השלכות מעשיות. ראשית, מבחינת תשתית: AWS כבר פעילה בישראל במסגרת פרויקט נימבוס יחד עם Google Cloud, אך שירותי Top Secret של AWS מיועדים כיום לסוכנויות אמריקאיות. המשמעות היא שמשרדי ממשלה וארגוני ביטחון בישראל שיבקשו יכולות בדיקה דומות, יידרשו לפתרונות מקומיים או להסדרים ייעודיים בסביבות מאובטחות ברמת המדינה.
שנית, רגולציה ובקרת יצוא: חוק הפיקוח על יצוא ביטחוני, התשס"ז-2007, עלול לחול גם על מסננים וסטי-כללים של AI אם ייחשבו כיכולת דו-שימושית. שילוב בין כללי אפ"י במשרד הביטחון, הנחיות הרשות להגנת הפרטיות לגבי שימוש ב-AI, והמדיניות הלאומית המתהווה לבינה מלאכותית, עשוי לדרוש מארגונים לקבוע "מחסומי שימוש" תחומיים דומים לאלו של Anthropic עבור תחומי גרעין, כימיה וביולוגיה, מבלי לחשוף פרטים טכניים מסווגים.
שלישית, פרקטיקה לארגונים: גם ללא גישה לרשימות מסווגות, ניתן לאמץ עקרונות דומים: מסנני שיחות מרובי-שכבות, ניטור ויומנוּת, בקרה אנושית לפני חשיפה לתוכן רגיש, ובדיקות אדומות בלתי תלויות. חשוב במיוחד למנוע "דליפת יכולות" דרך חיבורים לכלי צד שלישי, ולהבטיח שהמסננים עצמם לא מספקים רמזים הניתנים לעקיפה.
השורה התחתונה: שיתוף הפעולה בין Anthropic ל-NNSA מסמן כיוון של סטנדרטיזציה וולונטרית בתחום מסכים מסוכנים. אך ללא שקיפות רחבה יותר ומתודולוגיות בדיקה נגישות, ימשיכו להתקיים ספקות אם מדובר בהפחתת סיכון אמיתית או בשכבת ביטחון תפיסתית בלבד — דיון שרלוונטי לא פחות גם לזירה הישראלית.
