תמלול קול בזמן אמת בענן של AWS

תמלול קול בזמן אמת בענן של AWS

21 במאי 2026
מערכת זירת AI
מקור:זירת AI

ענית הענן AWS מציגה ארכיטקטורה חדשה לבניית יישומי קול בזמן אמת באמצעות Amazon SageMaker AI, vLLM ומודל Voxtral-Mini-4B של Mistral AI. הפתרון מאפשר הזרמת אודיו ותמלול דו-כיווני בחיבור רציף, ומתאים לסוכני קול, כתוביות חיות, מוקדי שירות וכלי נגישות.

יישומי קול בזמן אמת הופכים לאחת הזירות התחרותיות ביותר בבינה מלאכותית, ולפי פרסום חדש בבלוג AWS מחודש מאי 2026, החברה מציגה דרך מנוהלת להריץ תמלול דיבור חי באמצעות Amazon SageMaker AI ו-vLLM. הפיתוח מתמקד בבעיה מרכזית בעולם ה-AI הקולי: כיצד להזרים אודיו למודל ולקבל תמלול מיידי בחזרה, בלי להמתין לסיום ההקלטה כולה.

תמלול בזמן אמת במקום בקשות רגילות

רוצה להישאר מעודכן ב-AI?

הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים

במערכות מסורתיות של בקשה ותשובה, הלקוח שולח קובץ אודיו מלא ורק לאחר מכן השרת מתחיל לעבד אותו. המודל הזה אינו מתאים לסוכני קול, כתוביות חיות, ניתוח שיחות במוקדי שירות או כלי נגישות, שבהם עיכוב של שניות בודדות עלול לפגוע בחוויית המשתמש. AWS מציעה כעת שילוב בין הזרמה דו-כיוונית ב-SageMaker AI לבין Realtime API של vLLM, כך שהאודיו והתמלול זורמים במקביל על גבי חיבור מתמשך.

המאמר, שנכתב על ידי Christian Kamwangala, Chinmay Bapat, Lingran Xia ו-Vivek Gangasani, מציג פריסה של Voxtral-Mini-4B-Realtime-2602, מודל דיבור קומפקטי של Mistral AI, על נקודת קצה מנוהלת של SageMaker AI. המודל כולל כ-4 מיליארד פרמטרים ויכול לפעול על GPU יחיד, למשל מופע ml.g6.4xlarge עם NVIDIA L4, מה שהופך אותו למועמד ריאלי לפריסות עסקיות בעלות עלות סבירה יחסית.

איך הארכיטקטורה עובדת

בליבת הפתרון נמצאים שלושה רכיבים: לקוח ששולח אודיו, SageMaker AI שמנהל את שכבת התקשורת, וקונטיינר Docker שמריץ vLLM. בצד הלקוח, החיבור מתבצע ל-SageMaker Runtime באמצעות HTTP/2 בפורט 8443. SageMaker AI מתרגם את זרם האירועים הזה לחיבור WebSocket מול הקונטיינר, שמאזין בנתיב ייעודי ומעביר את ההודעות הלאה אל vLLM בנתיב /v1/realtime.

היתרון המשמעותי כאן הוא שהמפתחים אינם צריכים לבנות בעצמם שכבת תרגום בין HTTP/2 ל-WebSocket או לנהל שרתי GPU באופן ידני. SageMaker AI מטפל בבדיקות בריאות, שמירת חיבור באמצעות ping/pong, ניטור דרך Amazon CloudWatch ותשתית פריסה מנוהלת. vLLM, מצדו, מספק שרת קוד פתוח לביצועים גבוהים, כולל תמיכה ב-CUDA Graphs להפחתת השהיות בעיבוד טוקנים בזמן אמת.

למה זה חשוב למפתחי AI קולי

הפתרון דורש להזרים אודיו בפורמט PCM16 מונו בקצב 16 קילוהרץ, מקודד ב-base64. האודיו נשלח במקטעים, למשל 4KB בכל פעם, שהם כ-128 מילישניות של שמע. המודל מתחיל להחזיר אירועי transcription.delta ברגע שיש לו מספיק הקשר קולי, ולא מחכה לסוף המשפט או הקובץ. מבחינה מעשית, זה מאפשר לבנות ממשקים שבהם הטקסט מופיע תוך כדי דיבור, בדומה לחוויית כתוביות חיות או עוזר קולי מודרני.

AWS מספקת גם דוגמאות קוד מלאות, כולל לקוח Python לקובצי אודיו ולקוח Gradio להדגמת מיקרופון חי בדפדפן. ההדגמה ממחישה כיצד ניתן ללכוד קול מהמשתמש, לבצע המרה ל-16kHz PCM16, לשלוח את המידע ל-SageMaker AI ולקבל תמלול דינמי בממשק המשתמש.

מעבר לתמלול: בסיס לסוכני קול

למרות שהדוגמה מתמקדת בדיבור לטקסט, הארכיטקטורה רחבה יותר. כל יישום שדורש תקשורת רציפה בשני הכיוונים יכול ליהנות מהגישה הזו, כולל תרגום קולי בזמן אמת, סוכני קול רב-שלביים, יצירת אודיו אינטראקטיבית ומערכות דיאלוג מתקדמות. עבור ארגונים שכבר משתמשים ב-AWS, השילוב בין SageMaker AI ל-vLLM עשוי לקצר משמעותית את הדרך ממודל ניסיוני ב-Hugging Face לשירות ייצור מנוהל, מדיד וניתן להרחבה.

ומה עם עברית?

היום מודלים רבים משלבים יכולות מולטילינוויסטיות ומציגות ביצועי TSS ו STT די טובות גם בעברית, אם כי מדובל בתכונה שלרוב נמצאת במודלים מתקדמים יותר או בעזרת שיפורים כמו LoRa או Fine-Tuning על גבי המודלים הקיימים לצורך התאמות מדוייקות יותר לשפה העברית.

שאלות נפוצות