על ה-“מלאכותית” אין ויכוח – למידה, אינטרנט … ומה שביניהם

לאחרונה העיתונות מרבה לדווח על עוד צעד משמעותי בהתפתחות הבינה המלאכותית. מספרים לנו שאם מזינים את ה-GPT-3 – מערכת AI חדשה ומהוללת – בפתיח מילולי על נושא כלשהו היא מסוגלת להשלים כתיבה של חיבור על אותו נושא תוך שמירה על סגנון עקבי וקוהרנטי. בינתיים התוצרים באנגלית (או בתרגום מעשה אדם לעברית) והם עוברים עריכה של בני אדם שבוחרים את הקטעים ה-“אנושיים” ביותר כדי להמחיש את איכות הכתיבה. ובכל זאת, הכתיבה מרשימה, במיוחד אם מתעלמים ממעידות שמבצבצות בתוצרים, מעידות שמהן אפשר להבין שמדובר בכתיבה שמאחוריה אין הבנה של ממש. וכמובן, כמו עם כל התפתחות בתחום ה-AI, הדעות חלוקות – או שיש לפנינו עוד צעד ענק לקראת בינה מלאכותית של ממש, או עוד דוגמה לאחיזת עיניים שבה לבוש מרשים ביותר מכסה על מלך שהוא עדיין ערום, או לפחות נעדר כל סממן של הבנה או תבונה.

בערך באותו הזמן של הפרסומים החדשים על הישגיה של ה-GPT-3 התפרסמה גם ידיעה בנאלית בהרבה. כתבה ב-The Verge (ובמספר מקורות נוספים) מדווחת על תלמיד שלמד להוציא ציונים גבוהים ממערכת ממוחשבת של בדיקת חיבורים. הכתבה מספרת על תלמיד בכיתה ז’ שקיבל ציון כושל עבור תשובה קצרה שהוא הקליד לתוך מערכת של חברת Edgenuity שבשימוש בית הספר שלו. אם התלמיד סיפרה שעד לעלייתו לכיתה ז’ הבן שלה היה תלמיד מצטיין, והוא התקשה להבין מה הוא עשה שעכשיו גרם לקבלת ציון כושל. האם, מרצה להיסטוריה באוניברסיטה, בחנה את המערכת של Edgenuity והחליטה לנסות “לנצח” אותה. לפי הכתבה:

Simmons watched Lazare complete more assignments. She looked at the correct answers, which Edgenuity revealed at the end. She surmised that Edgenuity’s AI was scanning for specific keywords that it expected to see in students’ answers. And she decided to game it.
Now, for every short-answer question, Lazare writes two long sentences followed by a disjointed list of keywords — anything that seems relevant to the question. “The questions are things like… ‘What was the advantage of Constantinople’s location for the power of the Byzantine empire,’” Simmons says. “So you go through, okay, what are the possible keywords that are associated with this? Wealth, caravan, ship, India, China, Middle East, he just threw all of those words in.”

ספק אם מישהו חושב שהמערכת של Edgenuity באמת “קוראת” את התשובות של התלמידים – לפחות בצורה דומה לקריאה של בני אדם. אבל אולי אני משלה את עצמי. הרי מערכות לבדיקת עבודות כתיבה של תלמידים ושל סטודנטים, מערכות שאמורות בעיקר להקל על עבודת המורה, קיימות כבר שנים רבות, ועל אף הביקורת כלפיהן יש חברות טכנולוגיות שעובדות במרץ על המשך הפיתוח של כלים כאלה.

אבל איך זה קשור ל-GPT-3? מערכת ממוחשבת שקוראת חיבור איננה שונה מהותית ממערכת ממוחשבת שכותבת חיבור. שתיהן מתיימרות להשתמש במה שמכנים בינה מלאכותית, אחת “יוצרת”, והאחרת בודקת. סמיכות הפרסומים – האחד על הכתיבה של GPT-3 שדי משכנעת (עד אשר צוללים יותר לתוך תוכן הכתיבה, כמובן) והאחר על מתן ציין על חיבורים קצרים של תלמידים – ממש מבקשת שנשאל עד כמה באמת מדובר בתבונה. אין זה מפתיע שהתשובה לשאלה היא “מעט מאד”, אם בכלל. ב-Twitter אם התלמיד מהכתבה ב-The Verge דיווחה על ההצלחה של הנסיון שלה ושל בנה:

Algorithm update. He cracked it: Two full sentences, followed by a word salad of all possibly applicable keywords. 100% on every assignment. Students on @EdgenuityInc, there’s your ticket. He went from an F to an A+ without learning a thing.

הציוץ של האם הזכירה לי את דבריו של תלמיד כיתה ז’ במדינת אורגון שעליו כתבתי כאן לפני שלוש וחצי שנים. התלמיד בחן את היתרונות ואת החסרונות של בדיקת עבודות על ידי מחשב וכתב:

If students know that they’re being graded by a computer, they could find out how it grades tests. If they do that, they could learn how to get an A on their essay.

לפני שלוש וחצי שנים התלמיד הבין את זה, ומתברר ששלוש וחצי שנים מאוחר יותר, ולמרות ההתקדמות המרשימה במערכות של בינה מלאכותית, עדיין קל מאד לעבוד על המערכות האלה.

כאשר מבינים שמערכת כמו זאת של Edgenuity לא באמת “קוראת” את החיבורים אלא סורקת אותם כדי לבדוק את מידת ההתאמה בין המילים שמופיעות במה שמוגדר כ-“תשובה נכונה” לבין המילים שמופיעות בחיבור, נדרש מאמץ קטן מאד לתת לה את מה שהיא מצפה לקבל כתשובה. כצפוי, ב-Edgenuity מכחישים שהאלגוריתם שלה הוא אשר נותן ציון לתלמידים. בציוץ של החברה בתגובה לפרסום הסיפור הזה הם טוענים:

Edgenuity does not use algorithms to supplant teacher scoring, only to provide scoring guidance to teachers. Teachers have the ability to accept or overrule suggested scores. Tests are never scored by AI and a student’s course grade is never determined by AI #algorithm #elearning

טענה זאת מוכרת היטב. היא בעצם אומרת שהחברה רק מעניקה למורים מערכת שבאמצעותה אפשר לבצע בדיקה ראשונית של חיבורים של תלמידים, ואין זה אשמתה אם המורים לא משתמשים בה כמו שצריך. אבל לא חסרים סיפורים דומים לזה שב-The Verge, וזה מעיד על כך שבתי ספר כן מסתמכים על מערכות כמו של Edgenuity לתת ציונים. אבל גם אם המערכת הזאת רק “ממליצה”, יש בתשובה של החברה מידה לא קטנה של היתממות. שוב ושוב מספרים לנו שמערכות של AI מסוגלות לעשות דברים שהמוח האנושי איננו מסוגל לעשות. ואז, כאשר נתקלים בדוגמאות שמראות עד כמה המערכות האלו רחוקות מבינה של ממש מתרצים את הכשלון בכך שמדובר רק בהמלצה. מצד אחד מפארים את “חוכמת” המערכת, אך מצד שני מזהירים לא להסתמך עליה.

כבר מספר פעמים בעבר הדגשתי שביסודה הכתיבה היא פעולה של תקשורת. אנחנו כותבים כדי למסור משהו למישהו אחר (או לעצמנו). בגלל זה, בעיני הבעיה המרכזית של השימוש במערכות בינה מלאכותית בבדיקת עבודות (מה שבדרך כלל מכונה robo-grading) איננה שהמערכת איננה מספיק טובה, אלא שהיא בכלל קיימת. כדי שתלמיד יכתוב משהו בעל ערך עליו לדעת שבן אדם יתייחס בכבוד למה שהוא כותב. מערכת בדיקה אוטומטית, עם או בלי AI, איננה מתרגשת לקריאת חיבור. היא איננה מחייכת בהנאה לקריאת טיעון משכנע או מנענעת את הראש באכזבה כשהיא פוגשת טיעון לא מוצלח. השימוש במערכות אוטומטיות לבדיקת כתיבה, אפילו אם רק לצרכים תחביריים, מחטיא את המטרה של עידוד הכתיבה כאמצעי תקשורת.

ויש עוד בעיה, בעיה שמפני שהיא בעיה חברתית אולי גדולה עוד יותר. האם מהסיפור ב-The Verge מודעת לעובדה שהמעמד הסוציו-אקונומי שלה מאפשר לה לסייע לבנה. בסיום הכתבה היא אומרת על בנה:

He’s getting an A+ because his parents have graduate degrees and have an interest in tech. … Otherwise he would still be getting Fs. What does that tell you about… the digital divide in this online learning environment?

זה מספר לנו שטכנולוגיות למידה “משרתות” אוכלוסיות שונות בדרכים שונות. אנחנו רואים את זה, למשל, כאשר תלמידים מאוכלוסיות חלשות “זוכים” לטכנולוגיות תרגול למבחנים ואילו מעודדים לתלמידים מאוכלוסיות חזקות להשתמש בטכנולוגיות לשם הרחבת הדעת והעניין. למרבה הצער, פיתוחים של בינה מלאכותית בחינוך, גם אם יהיו אמיתיים ולא רק אחיזת עיניים, לא משנים את החלוקה העלובה הזאת.

Post Views: 358

2 תגובות בנושא “על ה-“מלאכותית” אין ויכוח”

Gil Amit הגיב:

ספטמבר 16, 2020 בשעה 8:46 pm

מאכזב שדברים לא באמת משתנים.
דבר אחר, אם לקחת את תשובת החברה שהמערכת רק עוזרת למורים (כמובן תשובה משקרת) בדרך קצת יותר רצינית הרי צריך לבחון אם המערכת עשויה לעזור דוקא לתלמיד לכתוב טוב יותר כאשר כמובן את החיבור בודק מורה. ההתחכמות של האמא במקרה זה לא תעזור. כדי לבחון את זה צריך לעשות עבודה רצינית מול תלמידים ומול המורים. זה עשוי אולי להפוך למערכת תומכת כתיבת חיבור.

הגב
נעה בר-חושן הגיב:

ספטמבר 17, 2020 בשעה 7:03 am

הכנסת גורם ממוחשב ביחסי מורה – תלמיד בתחום שבבסיסו תקשורת אנושית – כמו כתיבה מרדדת את הכתיבה למרכיביה הטכניים. כתיבת חיבור נשענת על ‘תומכות’ טכניות אך תוכן החיבור אמור לבטא את מחשבות, עמדות ורוח הכותב. את זה תוכנה לא בודקת. מורה הבודק חיבורים באמצעות תוכנה, מפספס פן מהותי ביחסי מורה תלמיד. בהזדמנות להכיר לעומק את הכותב. צר לי לשמוע על תוכנות שמטרתן למקצע/ לתכנת/ לפשט את מקצוע המורה, שעבורי לפחות מהותו היא רוח ואנושיות.

הגב

2 תגובות בנושא “על ה-“מלאכותית” אין ויכוח”

כתיבת תגובה לבטל