
Amazon SageMaker AI מאפשר כעת שליחת נתונים ישירות ללא S3
AWS הכריזה על תמיכה ב-inline payloads עבור SageMaker AI Async Inference. המשמעות: מפתחים יכולים לשלוח בקשות היסקה ישירות דרך גוף ה-API, ללא צורך בהעלאה מוקדמת ל-Amazon S3. השינוי חוסך סבב תקשורת שלם לכל בקשה, מפשט את ארכיטקטורת הקוד ומקטין עלויות תפעוליות.
SageMaker AI Async Inference מסיר את תלות ה-S3 הקבועה
Amazon Web Services הכריזה על עדכון משמעותי ל-SageMaker AI Async Inference: מעתה ניתן לשלוח payloads של היסקה ישירות בגוף בקשת ה-API, ללא שלב ביניים של העלאה ל-S3. הפיצ'ר זמין החל מהיום ב-31 אזורים מסחריים של AWS ברחבי העולם, כולל אזור תל אביב (TLV).
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
מה השתנה בפועל
עד היום, כל קריאה ל-InvokeEndpointAsync חייבה שני שלבים: העלאת ה-payload לתוך bucket ב-S3, ולאחר מכן הפעלת ה-endpoint עם מזהה ה-URI של האובייקט. תהליך זה הוסיף מורכבות, עלויות PUT על כל בקשה, וסיכון לשגיאות נוספות כמו ניהול מפתחות ומדיניות ניקוי קבצים.
הפיצ'ר החדש מוסיף פרמטר Body ל-API. כאשר הוא מוגדר, ה-payload עובר ישירות בגוף הבקשה, ומוגבל ל-128,000 בייטים. הפרמטרים Body ו-InputLocation הם בלעדיים אחד לשני, ושגיאות גודל מוחזרות באופן סינכרוני, עוד לפני שהבקשה נכנסת לתור.
יתרונות קונקרטיים לארכיטקטורת inference
הסרת שלב ה-S3 מניבה מספר יתרונות ישירים:
- חיסכון בזמן אחזור לכל בקשה, שמצטבר משמעותית ב-workloads מסוג fan-out
- הסרת הצורך ב-IAM permission מסוג s3:PutObject על נתיב הקלט
- קוד לקוח פשוט יותר, ללא ניהול UUID, bucket ייעודי ומדיניות lifecycle
- הפחתת עלויות ישירה בשל ביטול חיובי S3 PUT על כל בקשה
הפלט עדיין נכתב ל-S3 OutputLocation - התנהגות זו לא השתנתה. המודל מקבל בקשות זהות לחלוטין ללא קשר לאופן שבו הוגש ה-input.
מתי להשתמש בכל גישה
הפיצ'ר החדש מתאים בעיקר ל-payloads קטנים של עד 128 קילובייט: פרומפטים בפורמט JSON, נתונים מובנים, ושאילתות טקסט. עבור payloads גדולים יותר כמו תמונות, קבצי אודיו או מסמכים כבדים, InputLocation עם העלאה ל-S3 נשאר הדרך המומלצת. ארכיטקטורות עם עומסי payload משתנים יכולות לאמץ גישה היברידית: Body לבקשות קטנות, InputLocation לגדולות.
הפיצ'ר זמין כבר עכשיו. כל הנדרש הוא עדכון Boto3 לגרסה האחרונה ושינוי שורות הקוד הרלוונטיות להסרת תלות ה-S3 בצד הקלט.
