
קרדיט תמונה: zirat ai
אנתרופיק משיקה את Claude Opus 4.6: דור חדש של בינה מלאכותית לעבודה מקצועית
המודל החדש של אנתרופיק מציג שיפורים משמעותיים ביכולות קידוד, ניתוח פיננסי וחיפוש מידע, עם חלון הקשר של מיליון טוקנים ותוצאות מובילות בתעשייה על מבחני ביצועים מרכזיים
אנתרופיק הכריזה היום על השקת Claude Opus 4.6, גרסה משודרגת של המודל החכם ביותר שלה, המציגה שיפורים משמעותיים ביכולות קידוד, ניתוח פיננסי וביצוע משימות אוטונומיות. המודל החדש זמין כבר היום דרך claude.ai, ה-API ופלטפורמות ענן מרכזיות, עם תמחור זהה של 5 דולר ל-25 דולר למיליון טוקנים.
ביצועים מובילים במבחנים מקצועיים
המודל החדש משיג תוצאות מרשימות במגוון מבחני ביצועים. ב-Terminal-Bench 2.0, מבחן המודד יכולות קידוד אוטונומיות, Opus 4.6 השיג את הציון הגבוה ביותר בתעשייה. במבחן Humanity's Last Exam, המודד יכולות חשיבה רב-תחומיות מורכבות, המודל הוביל את כל המתחרים.
היתרון המשמעותי ביותר נרשם במבחן GDPval-AA, המעריך ביצוע משימות עבודה בעלות ערך כלכלי בתחומי פיננסים, משפטים ועוד. Opus 4.6 עלה ב-144 נקודות Elo על GPT-5.2 של OpenAI וב-190 נקודות על קודמו Opus 4.5. במבחן BrowseComp, המודד יכולת איתור מידע קשה למציאה באינטרנט, המודל גם הוא הוביל את התחרות.
שיפורים ביכולות קידוד וחיפוש
לפי אנתרופיק, המודל החדש מתכנן בזהירות רבה יותר, מסוגל לשמור על משימות אוטונומיות לפרקי זמן ארוכים יותר, ופועל באמינות גבוהה יותר בבסיסי קוד גדולים. המודל גם משתמש ביכולות סקירת קוד ודיבאגינג משופרות כדי לזהות טעויות של עצמו.
במבחן MRCR v2, המעריך יכולת שליפת מידע מתוך כמויות עצומות של טקסט, Opus 4.6 השיג ציון של 76% לעומת 18.5% בלבד של Sonnet 4.5. לדברי החברה, מדובר בשינוי איכותי ביכולת המודל להשתמש בהקשר ארוך תוך שמירה על ביצועים מרביים.
חלון הקשר מורחב ויכולות משופרות
לראשונה במודלי Opus, המודל החדש מציע חלון הקשר של מיליון טוקנים בגרסת בטא. תמחור מיוחד חל על פרומפטים מעל 200 אלף טוקנים, ב-10 דולר ל-37.50 דולר למיליון טוקנים. בנוסף, המודל תומך בפלטים של עד 128 אלף טוקנים, המאפשרים השלמת משימות גדולות מבלי לפצל אותן למספר בקשות.
המודל מראה שיפור משמעותי במה שמכונה "context rot", תופעה בה ביצועי המודל יורדים ככל ששיחה עוברת מספר מסוים של טוקנים. Opus 4.6 מצליח לשמור על מידע ולעקוב אחריו על פני מאות אלפי טוקנים עם פחות סטייה.
כלים חדשים למפתחים
במקביל להשקת המודל, אנתרופיק מציגה מספר תכונות חדשות למפתחים דרך ה-API. Adaptive thinking מאפשרת למודל להחליט מתי חשיבה מעמיקה יותר תהיה שימושית, במקום בחירה בינארית בין הפעלה או כיבוי של extended thinking.
בקרות Effort החדשות מציעות ארבע רמות: low, medium, high וmax, המאפשרות למפתחים למצוא את האיזון הנכון בין אינטליגנציה, מהירות ועלות. Context compaction מאפשרת למודל לסכם ולהחליף הקשר ישן אוטומטית כאשר השיחה מתקרבת למגבלה, מה שמאפשר ביצוע משימות ארוכות יותר.
אינטגרציה עם כלי עבודה יומיומיים
אנתרופיק השקיעה משאבים משמעותיים בשיפור האינטגרציה של Claude עם כלי עבודה יומיומיים. Claude in Excel עבר שדרוג משמעותי ומסוגל כעת לטפל במשימות ארוכות ומורכבות יותר, לתכנן לפני פעולה, ולעבד נתונים לא מובנים.
בנוסף, החברה מציגה את Claude in PowerPoint בגרסת מחקר מקדימה. המערכת מסוגלה לקרוא עיצובים, פונטים ומאסטרים של שקופיות כדי לשמור על זהות מותגית, בין אם מדובר בעבודה מתוך תבנית או ביצירת מצגת שלמה מתיאור.
ב-Claude Code, משתמשים יכולים כעת להרכיב צוותי סוכנים שעובדים יחד על משימות במקביל ומתאמים עבודה באופן אוטונומי. התכונה מתאימה במיוחד למשימות שמתפצלות לעבודה עצמאית כמו סקירות של בסיסי קוד.
דגש על בטיחות ואחריות
למרות השיפורים המשמעותיים ביכולות, אנתרופיק מדגישה שהמודל עבר את מערך בדיקות הבטיחות המקיף ביותר בתעשייה. המודל הציג שיעור נמוך של התנהגויות לא מיושרות כמו הטעיה, סיקופנטיות, עידוד אשליות משתמש ושיתוף פעולה בשימוש לרעה.
באודיט ההתנהגותי האוטומטי, Opus 4.6 הראה פרופיל היישור טוב כמו או טוב יותר מקודמו Opus 4.5, שהיה המודל המיושר ביותר של אנתרופיק עד כה. המודל גם מציג את השיעור הנמוך ביותר של סירובים מוגזמים, מצבים בהם המודל נכשל לענות על שאילתות לגיטימיות.
בהתחשב ביכולות הסייבר המשופרות של המודל, אנתרופיק פיתחה שישה בדיקות סייבר חדשות לזיהוי תגובות מזיקות. החברה גם מאיצה את השימושים ההגנתיים של המודל, תוך שימוש בו לזיהוי ותיקון פגיעויות בתוכנות קוד פתוח.
תגובות ראשוניות ושימושים מעשיים
אנתרופיק מדווחת כי המהנדסים שלה כותבים קוד עם Claude Code מדי יום, וכל מודל חדש נבדק תחילה על העבודה הפנימית שלהם. עם Opus 4.6, המהנדסים מצאו שהמודל מביא יותר מיקוד לחלקים המאתגרים ביותר של משימה מבלי להידרש להנחיה, נע במהירות דרך החלקים הפשוטים יותר, מטפל בבעיות מעורפלות עם שיקול דעת טוב יותר, ונשאר פרודוקטיבי לאורך סשנים ארוכים יותר.
שותפי Early Access דיווחו על יכולת המודל לעבוד באופן אוטונומי ללא ליווי, על הצלחה במקרים בהם מודלים קודמים נכשלו, ועל השפעה משמעותית על אופן עבודת הצוותים. המודל מראה נטייה לחשוב בצורה מעמיקה ולשקול מחדש את ההיגיון שלו לפני קבלת החלטה.
אנתרופיק ממליצה למפתחים שמוצאים שהמודל חושב יותר מדי על משימה נתונה להוריד את רמת ה-effort מברירת המחדל (high) ל-medium, כדי למצוא את האיזון הנכון בין עלות, זמן ואיכות.
