
בינה מלאכותית בוחנת עורכי דין: האם AI צריך לבדוק את הבחינות?
מחקר חדש שפורסם ב-Journal of Law and Empirical Analysis מראה ש-GPT-5 מסוגל לדרג עבודות בית משפט ברמת מתאם של עד 0.93 עם מרצים אנושיים. אבל השאלה האמיתית אינה טכנית: היא אתית, חינוכית ומשפטית. פרופסורים אמריקאים חלוקים בחדות בשאלה האם להעביר את הפיקוח לידי המכונה.
AI בוחן את עורכי הדין של מחר
בית הספר למשפטים הוא אחד המוסדות האקדמיים השמרניים ביותר בעולם. ועדיין, מספר פרופסורים בכירים בארצות הברית מתנסים כיום בשימוש בכלי בינה מלאכותית לבדיקת עבודות סיום ובחינות של סטודנטים לדין, תוך שהם מעלים שאלות שרלוונטיות גם לפקולטות למשפטים בישראל.
רוצה להישאר מעודכן ב-AI?
הירשם לדיוור השבועי שלנו וקבל עדכונים, המלצות על כלים, חדשות ודוחות מיוחדים
ג'ק גריבס, פרופסור בבית הספר למשפטים של אוניברסיטת סירקיוז בניו יורק, משתמש ב-ChatGPT לבדיקת עבודות סטודנטים וטוען שהכלי עקבי יותר ממנו. "AI לא מתעייף, לא מוסח, לא מתוסכל", הוא מסביר. "אני בטוח שהוא עקבי יותר בניקוד חיבורים ממני, וכאשר מדרגים על עקומה, עקביות היא הדאגה מספר אחת." (כפי שפורסם ב-ABA Journal על ידי ג'וליאן היל.)
מה אומרים הנתונים
מחקר שפורסם לאחרונה ב-Journal of Law and Empirical Analysis, שנכתב על ידי שישה פרופסורים למשפטים ממוסדות שונים, בדק את יכולתו של GPT-5 לדרג בחינות סיום כתובות בארבעה תחומי משפט שונים בבתי ספר המדורגים ב-30 הראשונים בארצות הברית. התוצאות מרשימות: כאשר הוצג למודל rubric מפורט, מתאם פירסון בין ציוני ה-AI לציוני המרצה האנושי הגיע לעד 0.93.
דניאל שוורץ, פרופסור באוניברסיטת מינסוטה ואחד ממחברי המחקר, מתאר את המתודולוגיה: "המרצים לקחו בחינות ישנות שנתנו לסטודנטים וכבר ניקדו אותן בעצמם, והזינו אותן ל-AI יחד עם ה-rubrics המקוריים. לאחר מכן ניסו שיטות prompting שונות כדי לדרג את אותן בחינות ולראות כיצד הן משתוות לציונים שנתנו המרצים."
הפער הגישתי בין הפרופסורים
גריבס ושוורץ מסכימים על הנתונים אך חלוקים בחדות על המסקנות המעשיות. שוורץ מסרב להשתמש ב-AI כשיטת הדירוג הראשונה מטעמים של הגינות פרוצדורלית. "לסטודנטים שלך יש ציפייה שהבחינות שלהם יבדקו על ידי אדם. לא הוגן לשלול מהם את ההזדמנות הזו מבלי לקבל את הסכמתם," הוא אומר, ומוסיף כי בדיוק כפי שאוניברסיטאות מחייבות סטודנטים לגלות שימוש ב-AI, כך גם מרצים חייבים לעשות זאת.
גריבס, לעומת זאת, מאפשר ל-AI להוביל את הבדיקה ומסתפק בבדיקות מדגמיות. ממחקר שלו לאורך סמסטר ביצירת ראיות וסמסטר בחוזים, שכלל למעלה מאלף אינטראקציות, מצא ראיה לתקלה אחת בלבד. השיטה שלו כוללת הזנת עבודות ותוצרים, שיתוף פעולה עם הכלי ליצירת rubrics, ואספקת תשובות לדוגמה ועבודות שכבר ניקד.
דניאל לינה ג'וניור, מרצה בכיר ומנהל יוזמות משפט וטכנולוגיה בבית הספר למשפטים של אוניברסיטת נורת'ווסטרן, מציב עמדה שלישית: "אנחנו צריכים להתקדם ולעבור מהרעיון של 'נאסור, נגלה'. הכלים כאן. הם משולבים בכל יותר ומקומות."
מסקנות המחקר מציעות מסלול מדורג: גם אם מודלים לא יחליפו לגמרי בוחנים אנושיים בטווח הקרוב, הם כבר יכולים לשמש לאימות ניקוד של מרצים, מתן משוב על בחינות אמצע שטרם נוקדו, ואפשרות לסטודנטים לתרגל על בחינות עצמאיות. זהו מודל שמאזן בין יעילות להגינות, ועשוי להיות המעשי ביותר לאימוץ.
