מודלי בסיס יודעים כיצד להסיק מסקנות, מודלי חשיבה לומדים מתי

Q: איפה אפשר לקרוא חדשות AI בעברית?

זירת AI הוא אתר חדשות AI מוביל בישראל, המתעדכן מדי יום עם חדשות בינה מלאכותית בעברית. האתר מכסה עדכוני AI מרחבי העולם, כולל חדשות על ChatGPT, Claude, Gemini, סטארטאפי AI ומחקרים פורצי דרך. כל התכנים מותאמים לקהילה העסקית והמדעית בישראל.

Q: מה זה זירת AI?

זירת AI הוא אתר חדשות בינה מלאכותית מוביל בישראל. האתר מספק חדשות AI עדכניות בעברית, דירוג והשוואת מודלי AI, סקירות כלי AI, מחקרים אקדמיים ואירועי AI. זירת AI מתעדכן מדי יום ומכסה את כל ההתפתחויות החשובות בעולם הבינה המלאכותית.

Q: איך אני יכול להישאר מעודכן עם חדשות AI?

תוכלו להירשם לניוזלטר השבועי של זירת AI, לעקוב אחרי העמוד שלנו ברשתות החברתיות, או לבקר באתר חדשות AI שלנו באופן קבוע. אנו מפרסמים חדשות AI חדשות מדי יום, כולל עדכונים על מודלים חדשים, כלי AI וחדשות טכנולוגיה.

Q: איך אני יכול למצוא כלי AI מתאים לעסק שלי?

במאגר הכלים שלנו תוכלו לסנן לפי קטגוריות שונות כמו כתיבה, תמונה, קוד, ניתוח נתונים ועוד. כל כלי כולל ביקורת מפורטת, דירוג, מידע על מחיר ויתרונות וחסרונות.

Q: איך אני יכול למצוא אירועי AI בישראל?

בעמוד האירועים שלנו תמצאו רשימה מעודכנת של כנסים, Meetups, Webinars וסדנאות בתחום הבינה המלאכותית בישראל. כל אירוע כולל פרטי הרשמה, מיקום ותאריכים.

מודלי בסיס יודעים כיצד להסיק מסקנות, מודלי חשיבה לומדים מתי

arXiv

מודלים גדולים

מודלי בסיס יודעים כיצד להסיק מסקנות, מודלי חשיבה לומדים מתי

מחברים:Constantin Venhoff, Iv'an Arcuschin, Philip Torr, Arthur Conmy, Neel Nanda

תאריך פרסום:8 באוקטובר 2025

סוג המחקר:ניסוי אמפירי

מקור:arXiv

יישומי המאמר

המחקר מציע דרך פרקטית לשפר יכולות חשיבה והיסק של מערכות מבוססות מודלים גדולים בלי לבצע עדכוני משקל נרחבים: במקום “לסיים” או לאמן מחדש מודלים כבדים, אפשר להצמיע מנגנון היברידי שמזהה ומנצל את היכולות המוטמעות כבר בשלבי ה-pretraining ומוסיף רכיב קטן שמנווט מתי להפעיל אותן. לשוק ולמנכ"לים זה אומר: העלאה משמעותית בביצועים במשימות חישוביות ותבוניות (כמו פתרון בעיות מתמטיות) בעלות חישובית וניהולית נמוכה יותר, אינטגרציה קלה יותר בסביבות קיימות, ויכולת לשפר אמינות ופרשנות (explainability) מבלי לבצע תהליכי עדכון ארוכים ויקרים.

TL;DR

המאמר מציע שיטה היברידית לחקר ותיקון התנהגויות חשיבה והיסק של מודלים גדולים: במקום להניח מראש מבנים חשיבתיים או לערוך עדכוני משקל כבדים, המחקר מציג גישה תחתית (bottom-up) לגילוי בלתי-מושפע מתוך נתונים של דינמיקות ההיסק במודלים בסיסיים (base models) ושל מנגנוני "מחשבה" שנלמדים (thinking models). על בסיס ניסויים על מערכי המבחן GSM8K ו-MATH500 ובשילוב של שלושה מודלים בסיסיים וארבעה מודלי "היגיון/מחשבה", המחקר מראה כי המודלים הבסיסיים כבר מקודדים רבות ממנגנוני ההיסק, ואילו המודלים המותאמים ל"מחשבה" לומדים מתי להפעילם. השיטה ההיברידית משחזרת עד 91% מפער הביצועים מול "מודלי המחשבה" מבלי לעדכן משקלים ובאמצעות כוונון שנוגע רק בכ-12% מהטוקנים. התוצאות מצביעות על אפשרות לשיפור חסכוני, שקוף וניתן להטמעה של יכולות חשיבה במערכות מבוססות שפה.

פירוט המאמר

רקע ומטרה

המאמר בוחן את ההבחנה המעשית בין שתי תופעות במודלים גדולים של שפה: (1) היכולות ההיסקיות והתהליכיות המוטמעות כבר בזמן ה-pretraining של "מודלים בסיסיים" (base models), ו-(2) היכולת של "מודלי מחשבה" (thinking models) — כלומר, מודלים או שינויים שמפתחים מתי וכיצד לממש הליך חשיבתי — ללמוד מתי להפעיל יכולות אלה ולהשיג שיפור ביצועים באמצעות התאמה/אימון נוסף. המטרה היא להבין האם הידע החשיבתי כבר נמצא בתוך המודלים הבסיסיים, ומה בדיוק לומדים מודלי המחשבה: המכניקה של ההיסק או רק זמן/תזמון ההפעלת ההיסק.

גישה ומתודולוגיה

החוקרים מציעים שיטה היברידית, bottom-up ולא־מונחת מראש, שמטרתה לגלות וללא הנחות ידניות את התבניות והאלמנטים של ההיסק בתוך המודלים. הגישה אינה דורשת עדכוני משקל על מודלים בסיסיים; במקום זאת בונים מנגנון שמכוון (steering) את הזרמים/הטוקנים שבהם המודל מממש או מפעיל את המהלכים ההיסקיים. הניסוי הושם על שלושה מודלים בסיסיים וארבעה מודלי "מחשבה" שונים כדי לבדוק כלליות, וההערכה בוצעה על מערכי בעיות מתמטיות סטנדרטיים: GSM8K ו‑MATH500.

שיטת הניסוי כוללת: (א) הערכת ביצועי מודלים בסיסיים לפני התאמות, (ב) הערכת ביצועי מודלי מחשבה לאחר התאמות/אימון שמטרתם לשפר "מתי להפעיל" אסטרטגיות, ו-(ג) בניית מודל היברידי שמנסה לשחזר את התנהגות מודלי המחשבה באמצעות כוונון/ניהול זרימת טוקנים מבלי לשנות משקלים של המודלים הבסיסיים.

תוצאות עיקריות

הניסויים הראו תמציתית שכלליות של התובנה: המודלים הבסיסיים אכן מקודדים בתוך המשקלים שלהם רוב מבני ההיסק הנדרשים לפתרון בעיות (כלומר — את ה"איך"), בעוד שמודלי המחשבה בעיקר לומדים את ה"מתי" וה"היכן" להפעיל אותם. הממצאים הכמותיים המרכזיים:

הגישה ההיברידית מצליחה לשחזר עד כ‑91% מפער הביצועים מול מודלי המחשבה המותאמים (i.e., מרבית השיפור שמושג על ידי התאמות ייעודיות ניתן להשיג גם על ידי הכוונה חיצונית של המודלים הבסיסיים).
שיקום זה מושג ללא עדכון משקלים של המודל הבסיסי ובאמצעות כוונון שנוגע רק בכ‑12% מהטוקנים (steering tokens) — כלומר חסכון רב במשאבים חישוביים ושמירה על היציבות של המודל.
הממצאים חוזקו על שני מערכי בדיקה (GSM8K ו‑MATH500) ועל מספר זוגות של מודלים בסיסיים ומחשבה, מה שמעיד על תוקף חוצה־מודלים ועל הכליות תכליתית של הגישה.

ניתוח ומשמעות

מסקנת המחקר היא כי pretraining אינו רק אמצעי לרכישת ייצוגים סטטיסטיים אלא גם מקור מרכזי למנגנוני היסק מעשיים. ההבדל בין מודל בסיסי למודל מחשבה אינו בהעדר ה"כישורים" אלא בעיקר ביכולת לאתר ולהפעילם ברגע המתאים. לפיכך, במקום להסתמך על התאמות כבדות או על הנחות ידניות מבניות (למשל יצירת שרשור רעיוני ידני), ניתן להשיג את מרבית השיפורים בעזרת רכיבי כוונון/נווט שמזהים ומפעילים מרכיבי חשיבה קיימים.

מגבלות ופיתוחים עתידיים

המאמר מציין כי המסקנות מושתתות על משימות חישוביות/מתמטיות — יש לבחון אם אותן תובנות תקפות גם למשימות אחרות, כגון היסק לוגי לא־מיימתי, בעיות שיפוט או שפה גבוהה. כמו כן יש לבחון את הטכניקות על טווח רחב יותר של ארכיטקטורות ונפחי מודלים ולחקור כיצד לכמת ולהסביר את המנגנונים המוקלטים בתוך משקלי המודלים.

סיכום

המחקר מציג הוכחה חזקה לכך שמודלים בסיסיים כבר כוללים מנגנוני היסק שימושיים, ושניתן להשיג שיפורים קרובים לאלו של מודלי מחשבה מותאמים באמצעות שיטה היברידית חסכונית שאינה דורשת עדכוני משקל נרחבים — רק כוונון קל וניתוב של חלק קטן מהטוקנים. המסקנה מעודדת גישות פרקטיות לשיפור ביצועים, חסכון במשאבים ושיפור שקיפות במערכות מבוססות מודלים גדולים.

✨ היילייטס

Highlights

מצאו כי רוב מנגנוני ההיסק (ה"איך") כבר מקודדים במודלים הבסיסיים; מה שלומדים מודלי "מחשבה" הוא בעיקר מתי להפעילם.
פיתוח שיטה היברידית (bottom-up, לא מונחת מראש) שמזהה ומנווט הפעלה של יכולות חשיבתיות קיימות ללא עדכוני משקל.
השיטה משחזרת עד 91% מפער הביצועים מול מודלי מחשבה מותאמים, מבלי לעדכן משקלים ובכיסוי של ~12% מהטוקנים בלבד.
תוקף הניסויים הוצג על כמה ארכיטקטורות ומשימות מתמטיות סטנדרטיות (GSM8K, MATH500), מה שמצביע על כליות ויישום מעשי לחסכון חישובי ושיפור אמין.

חוקרים

Constantin VenhoffIv'an ArcuschinPhilip TorrArthur ConmyNeel Nanda

מילות מפתח

reasoningpretraininghybrid modelsGSM8KMATH500

קרא את המאמר המלא

מודלי בסיס יודעים כיצד להסיק מסקנות, מודלי חשיבה לומדים מתי

יישומי המאמר

TL;DR

פירוט המאמר

רקע ומטרה

גישה ומתודולוגיה

תוצאות עיקריות

ניתוח ומשמעות

מגבלות ופיתוחים עתידיים

סיכום

✨ היילייטס

Highlights

חוקרים

מילות מפתח

שאלות נפוצות