חזרה לחדשות
יסודות המוסר המלאכותי: OpenAI חושפת את Model Spec

יסודות המוסר המלאכותי: OpenAI חושפת את Model Spec

27 במרץ 2026
מערכת זירת AI

בפרסום מחקרי מ-25 במרץ 2026, OpenAI מציגה הצצה נדירה אל מאחורי הקלעים של ה-Model Spec, מסמך ציבורי שמגדיר כיצד מודלי בינה מלאכותית אמורים לפעול: היררכיית הוראות, איזון בין חופש משתמשים לבטיחות, התחייבויות שקיפות, ותהליך עדכון שמגובה בהערכות (Evals) ובמשוב ציבורי.

OpenAI: כך נבנתה ה-Model Spec, “חוקה” ציבורית להתנהגות מודלי בינה מלאכותית

OpenAI פרסמה ב-25 במרץ 2026 הסבר מקיף על ה-Model Spec, מסגרת רשמית ופומבית שמגדירה כיצד מודלי החברה אמורים להתנהג במגוון עצום של סיטואציות. הפרסום, מאת ג'ייסון וולף, מבקש להפוך את “הכוונה ההתנהגותית” של המודלים לקריאה, ניתנת לביקורת ולעדכון, עבור משתמשים, מפתחים, חוקרים וקובעי מדיניות, ולא רק עבור צוותי ההדרכה והבטיחות בתוך החברה.

ב-OpenAI מדגישים כי ה-Model Spec אינו טענה שהמודלים כבר עומדים בתקן באופן מושלם. מדובר ביעד מפורש שאליו מאמנים, מודדים ומשפרים לאורך זמן. הרציונל: ככל שמערכות AI הופכות ליכולות ונפוצות יותר, נדרשת “מסגרת ציבורית” שמבהירה מראש מה מצופה מהן, אילו גבולות אסור להן לחצות, ואיך מתמודדים עם אזורי אפור שבהם אין תשובה מוסרית אחת שמקובלת על כולם.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

מה יש בתוך המסמך: התחייבויות, היררכיית הוראות ודוגמאות

ה-Model Spec מורכב בכוונה מכמה שכבות שונות. הוא מתחיל בהצהרת כוונה ברמה גבוהה, שמפרטת שלושה יעדים ארגוניים: פריסה הדרגתית שמעצימה משתמשים ומפתחים, מניעת נזק חמור, ושמירה על “רישיון לפעול” במובן של אמון ציבורי ויכולת תפעולית.

אך OpenAI מבהירה נקודה עקרונית: “טובת האנושות” היא יעד של הארגון, לא יעד אוטונומי שהמודל אמור לרדוף אחריו בעצמו. במקום זאת, המודלים מונחים לפעול לפי “שרשרת פיקוד” שמארגנת הוראות לפי מקור וסמכות, למשל מערכת ההוראות של OpenAI, הוראות המפתח באפליקציה או ב-API, והוראות המשתמש. כאשר יש התנגשות, ההנחיה היא לתעדף את ההוראה בעלת הסמכות הגבוהה יותר, גם אם זה לא תואם את רצון המשתמש באותו רגע.

במונחים שמוכרים לקהילת ה-AI, זו דרך לנסח באורח פומבי את ההבדל בין כללי בטיחות קשיחים שאינם ניתנים לעקיפה, לבין “ברירות מחדל” שנועדו לספק התנהגות צפויה אך ניתנת להכוונה. כך, בקשות שמערבות סיכון ממשי, מידע מסוכן או פגיעה פיזית אמורות להיענות בסירוב או בהסטה בטוחה. לעומת זאת, במקרים של שיחה יצירתית או תוכן הומוריסטי, הביצוע אמור להישאר גמיש, כל עוד אינו חוצה את קווי הבטיחות.

המסמך כולל גם “עזרי פרשנות” כמו רובריקות החלטה ודוגמאות קצרות של פרומפט-ותשובה, עם דגמי תגובה תקינים מול תגובות שאינן עומדות במדיניות. הרעיון הוא לצמצם וריאציה והתנהגות לא עקבית: לא כל החלטה ניתנת לרדוקציה לכלל מכני, ולכן מוצגים שיקולים מפורשים, למשל עקרונות לצמצום תופעות לוואי בפעולות אוטונומיות והעדפת מהלכים הפיכים כשאפשר.

למה לפרסם “חוקה” כזו בכלל, ולמה זה לא מספיק מעצמו

OpenAI מציגה את ה-Model Spec ככלי שקיפות ואחריותיות: יעד ציבורי יציב שמאפשר לקהילה להבחין בין “באג” ל”פיצ’ר”, ולתת משוב קונקרטי. החברה מזכירה שהמסמך בקוד פתוח, ומתעדכן באופן איטרטיבי ובשיח ציבורי.

במקביל, ההסבר מבהיר שה-Model Spec הוא ממשק, לא יישום. כלומר, הוא לא מפרט את מתכון האימון המדויק, את פורמט הטוקנים או כל מנגנון פנימי. זו בחירה מכוונת שמאפשרת לשנות טכניקות אימון כמו RLHF, שיטות הערכה והקשחות בטיחות, בלי לשנות את ההצהרה הערכית וההתנהגותית שעליה הציבור יכול להישען.

החברה גם מודה בפערים: עדכוני Spec יכולים להקדים את האימון, אימון עלול ללמד דפוסים שסוטים מהכוונה, ושימוש בעולם האמיתי יוצר “זנב ארוך” של מקרי קצה שלא מכוסים. כדי להתמודד, OpenAI הכריזה במקביל על Model Spec Evals, מערך בדיקות מבוסס תרחישים שמנסה למדוד כיסוי והלימה של ההתנהגות לסעיפי המסמך, לצד מערכי הערכה רחבים יותר לאמינות, אותנטיות, סגנון, וסיכוני בטיחות.

מה המשמעות למפתחים ולרגולטורים

עבור מפתחים, פרסום מסמך כזה מחדד כיצד כדאי לנסח הוראות מערכת ומדיניות מוצר: איפה אפשר לכוון טון, פורמט ונקודת מבט, ואיפה יש גבולות שלא ניתן לעקוף. עבור רגולטורים וחוקרים, עצם קיומו של יעד פומבי, עם מנגנון עדכון ומדידה, מייצר נקודת ייחוס לדיון על אחריות, שקיפות והוגנות במערכות AI.

ב-OpenAI מסכמים כי הצלחת ה-Model Spec תימדד בשלוש תכונות: קריאות שמאפשרת ציפיות מדויקות, פעולה שמאפשרת בדיקות ותחקור תקריות, ויכולת עדכון בלי להפוך ליעד נזיל ולא אמין. ככל שהמודלים ייעשו סוכנים יותר ויבצעו פעולות בעולם, המשימה תהיה לא רק “להיות מועיל ובטוח”, אלא להגדיר ולהוכיח זאת בצורה שניתנת לבדיקה ציבורית.

שאלות נפוצות