
קרדיט תמונה: תמונה: המחבר, נוצרה באמצעות ChatGPT (DALL-E 3)
אופטימיזציית עלויות AI עלולה לשבור את המוצר: מלכודת ניתוב המודלים בארגונים
שכבת ניתוב שמפנה שאלות פשוטות למודל זול ושאלות מורכבות למודל חזק נראית כמו פתרון מושלם להפחתת עלויות AI. בפועל, בארגונים רבים היא עלולה להסתיר ירידת איכות, לפגוע בשביעות רצון לקוחות ולהעביר את העלות למחלקות אחרות.
החיסכון שנראה מצוין בדוחות, אבל גרוע בחוויית הלקוח
אחת ההבטחות הגדולות של מערכות AI ארגוניות ב-2026 היא ניהול חכם של עלויות הסקה. במקום להעביר כל פנייה למודל החזק והיקר ביותר, ארגונים בונים שכבת ניתוב שמחליטה בזמן אמת אם הבקשה פשוטה מספיק כדי להישלח למודל זול יותר. על הנייר זו ארכיטקטורה כמעט מתבקשת: פחות עלות לטוקנים, פחות בזבוז משאבים, אותה חוויית משתמש.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
אl כפי שמתחיל להתברר גם בפריסות AI רחבות יותר, מדובר במלכודת עסקית וטכנולוגית. הבעיה אינה עצם הרצון לחסוך, אלא ההנחה שמסווג קטן יכול להבין מראש את עומק הכוונה של המשתמש. במערכות שירות לקוחות, פיננסים, ביטוח, בריאות ותמיכה טכנית, השאלה שנראית פשוטה היא לעיתים רק פתיח לבעיה מורכבת בהרבה.
למה שכבת ניתוב קלאסית נכשלת בזנב הארוך
מודלי שפה מתמודדים עם התפלגות שאינה סימטרית. רוב הפניות באמת פשוטות: איפוס סיסמה, בדיקת חיוב, שינוי כתובת או בירור סטטוס. לכן מודל זול מסוגל לתת תשובה טובה ברוב המקרים ולייצר ירידה מיידית בחשבון הענן או ספק המודלים. אלא שהערך העסקי לא נמצא רק בממוצע. הוא נמצא בזנב הארוך, באותם מקרים שבהם ניסוח תמים מסתיר כוונה רגישה: חיוב כפול שהוא בעצם חשד להונאה, שאלת ריבית שיש לה משמעות רגולטורית, או תקלה טכנית שמשפיעה על לקוח אסטרטגי.
המסווג רואה את פני השטח של הטקסט. הוא מזהה דפוסים לשוניים, לא את מלוא ההקשר העסקי. כאשר הוא טועה, המודל הזול עלול לייצר תשובה בטוחה, מנוסחת היטב ושגויה. זהו כשל מסוכן יותר מתשובה מהוססת, מפני שהמשתמש לא תמיד מסמן דיסלייק או מדווח על הבעיה. לעיתים הוא פשוט נוטש את הסוכן, מתקשר למוקד אנושי או מאבד אמון במוצר.
מדידה ממוצעת מסתירה נזק אמיתי
הכשל העמוק הוא תצפיתי. צוותי AI רבים מודדים איכות כממוצע כולל: מדגם ביקורת אנושי, סקר שביעות רצון, או סט בדיקות קבוע. ברגע שמכניסים שתי שכבות מודלים, הממוצע כבר אינו מספיק. אם 80 אחוז מהפניות במודל הזול נענות היטב, הירידה באותם 20 אחוז בעייתיים יכולה להיבלע בדשבורד ירוק. בינתיים העלות עוברת למחלקת התמיכה, לשימור לקוחות ולמוניטין המותג.
במונחים ניהוליים, זו אינה רק בעיית MLOps. זו בעיית בעלות על רווח והפסד. צוות ההנדסה חוגג ירידה בעלויות API, בעוד צוות השירות סופג יותר פניות חוזרות וההנהלה רואה שחיקה במדדי נאמנות חודשים מאוחר יותר. לכן כל פרויקט ניתוב מודלים חייב להימדד לפי ערך מוצר כולל, לא לפי חשבון הסקה בלבד.
החלופה: מדרג מודלים מבוסס אי ודאות
ארכיטקטורה יציבה יותר היא Cascade מבוסס אי ודאות. במקום להחליט מראש איזה מודל יקבל את הפנייה, כל בקשה מתחילה במודל הזול, אך התשובה עוברת הערכת ביטחון. אם רמת הביטחון נמוכה, או אם מזוהה חריגה מהתפלגות האימון, הבקשה מוסלמת למודל חזק יותר. כך המערכת אינה סומכת רק על מסווג חיצוני, אלא משתמשת באי הוודאות של המודל כחלק ממנגנון הבקרה.
גם כאן יש מחיר: זמן תגובה ארוך יותר במקרים מוסלמים, מורכבות הנדסית גבוהה יותר וקושי לחזות מראש את החיסכון המדויק. אך זו פשרה בריאה יותר. בעולם שבו סוכני AI מטפלים בלקוחות אמיתיים ובתהליכים עסקיים רגישים, חיסכון שאינו שומר על רצפת איכות הוא לא אופטימיזציה. הוא חוב מוצרי שמחכה להופיע בדוחות הרבעוניים.
