AWS משיקה דאשבורד ניטור מתקדם לאינפרנס של מודלי AI

AWS משיקה דאשבורד ניטור מתקדם לאינפרנס של מודלי AI

21 ביוני 2026
מערכת זירת AI
מקור:זירת AI

אמזון מרחיבה את יכולות הניטור של SageMaker עם מעל 100 מדדים מפורטים ודאשבורד מובנה ב-CloudWatch. הכלי מאפשר לצוותי MLOps לאתר בעיות ביצועים, לנהל עומסי GPU ולנתח זמני תגובה של מודלי שפה גדולים בסביבת ייצור, ללא צורך בהגדרה ידנית של Grafana או Prometheus.

ניטור אינפרנס של AI בסביבת ייצור: AWS משיקה כלי מקיף

הפעלת מודלי שפה גדולים (LLM) בסביבת ייצור היא אחת המשימות המורכבות ביותר שצוותי פלטפורמה מתמודדים איתה כיום. כאשר זמן התגובה של endpoint עולה בפתאומיות, יש לאבחן תוך דקות אם הגורם הוא לחץ על זיכרון ה-GPU, עומס על ה-KV cache, חוסר איזון בין אזורי זמינות, או מדיניות auto scaling שטרם הופעלה. AWS מציגה כעת פתרון מובנה לאתגר הזה.

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

מה כולל הפתרון החדש

Amazon SageMaker AI מוסיפה מעל 100 מדדי אינפרנס מפורטים הזורמים ישירות ל-Amazon CloudWatch. המדדים מכסים ביצועי GPU, זמני תגובה ברמת טוקן, עומס KV cache, התפלגות תעבורה בין אזורי זמינות, מיקום רכיבי אינפרנס ואבחון cold start. כל אלה מוצגים בדאשבורד SageMaker Insights המובנה ב-CloudWatch, ומבטלים את הצורך בהגדרה עצמאית של Grafana ו-Prometheus.

הדאשבורד מאורגן בשלושה לשוניות:

  • Performance - בריאות הצי, זמני תגובה ברמת טוקן, throughput ולחץ על מנוע האינפרנס
  • Capacity - ניצול GPU, CPU וזיכרון ברמת הצי
  • Reliability - התפלגות בין אזורי זמינות, אירועי scaling, ניתוח cold start ושגיאות קיבולת

שני סוגי endpoints נתמכים

הפתרון תומך בשני הארכיטקטורות המרכזיות של SageMaker. endpoints של מודל יחיד (SME) מתאימים לפריסה פשוטה, אך דורשים צי GPU ייעודי לכל מודל. endpoints עם רכיבי אינפרנס (IC) הם הארכיטקטורה המומלצת לסביבת ייצור: מספר מודלים חולקים את אותן instance, עם scaling עצמאי לכל מודל ופיזור עומסים בין אזורי זמינות.

אקטיבציה פשוטה

ל-endpoints חדשים, הפיצ'ר מופעל כברירת מחדל - הפרמטר EnableDetailedObservability מוגדר כ-true אוטומטית. מדדים מתחילים לזרום ל-CloudWatch תוך שתי דקות מרגע שה-endpoint נכנס לשירות. עבור endpoints קיימים, נדרשת הגדרה מפורשת דרך עדכון תצורה, ו-AWS מספקת אשף שלושה שלבים דרך קונסולת SageMaker להנחיה בתהליך.

יכולות ייחודיות לאבחון בעיות

אחת מהתכונות הבולטות היא ויזואליזציית Honeycomb: כל משאב בצי מוצג כשושנית צבועה - ירוק לתקין, אדום לבעיה. מעבר עם העכבר מציג נתוני TTFT (Time to First Token), output TPS, בקשות מקביליות ועומס KV cache לאותה instance ספציפית.

פאנל Cold Start Anatomy מפרק כל אירוע פריסה לארבעה שלבים - הורדת מודל, טעינה ל-GPU, אתחול קונטיינר ובדיקת תקינות - ומאפשר לזהות בדיוק היכן נוצרת האטה בעת scaling. פאנל ICE Diagnostics עוקב אחר שגיאות קיבולת ומציין לאיזה סוג instance ובאיזה אזור זמינות לא היה מענה, מידע קריטי לבחירת חלופה.

אינטגרציה עם כלי ניטור קיימים

צוותים שכבר משתמשים ב-Grafana יכולים להתחבר ישירות לנקודת הקצה של PromQL ב-CloudWatch, לייבא תבנית דאשבורד מוכנה מראש ולכתוב שאילתות מותאמות. זה מאפשר לשמור על כלי הניטור הנוכחי מבלי לאבד גישה לנתונים המפורטים.

עלויות

SageMaker אינה גובה תשלום נפרד עבור פליטת המדדים. עם זאת, חלה תמחור סטנדרטי של CloudWatch: 0.50 דולר לכל GB שנקלט בפורמט OpenTelemetry. חברות עם עשרות מודלים ומאות instance GPU צריכות לבחון את נפח המדדים הצפוי לפני הפעלה בהיקף מלא.

עבור חברות ישראליות בתחום ה-AI שמפעילות מודלים בסביבת ייצור על תשתית AWS, הכלי הזה מצמצם משמעותית את העלות התפעולית של ניטור - הן בזמן הנדסי והן בצורך בתשתית ניטור מקבילה. הדאשבורד המובנה מחסל שלב הגדרה שלוקח לצוותי MLOps ימים, ומאפשר מעבר מהיר לניהול פרואקטיבי של עומסי inference.

שאלות נפוצות