בשאלות הקשות ביותר, רופאים עדיין מנצחים בינה מלאכותית

גורם מפרסם:	עיתון דה-מרקר
מחבר:	רותי לוי
תאריך:	29.10.2024

בשאלות הקשות ביותר, רופאים עדיין מנצחים בינה מלאכותית

מחקר שביצעו המכונים הלאומיים לבריאות של ארה"ב (NIH) הראה כי הבינה המלאכותית הצליחה לבחור את התשובה הנכונה לעתים תכופות יותר מרופאים שהסתמכו רק על זיכרונם ■ עם זאת, כשלרופאים יש גישה למקורות מידע, הם גוברים על בינה מלאכותית — במיוחד בשאלות הקשות

רותי לוי , TheMarker

29 באוגוסט 2024

בינה מלאכותית יכולה לסייע באבחון מדויק של חולים, אך מודלי השפה הגדולים (LLM) עדיין נתקלים בקושי להסביר את התשובות שלהם ואף שוגים בהסברים, כך לפי מחקר חדש שבוצע במכונים הלאומיים לבריאות בארה"ב (NIH).

המחקר התבסס על מבחן רב-ברירה עם 207 שאלות שנלקחו מאתגרי דימות מקוונים שהתפרסמו לאורך ארבע שנים בכתב העת "ניו אינגלנד ג'ורנל אוף מדיסן". אתגרי הדימות בודקים את יכולת הקוראים לאבחן חולים על סמך סדרת תמונות המלוות במידע קליני בסיסי.

החוקרים ביקשו ממערכת GPT-4V של OpenAI לא רק לענות על השאלות בצורה נכונה, אלא גם לנמק את ההיגיון שמאחורי הבחירות. הנימוקים היו צריכים לכלול תיאור של התמונה, סיכום של הידע הרפואי הרלוונטי, ותיאור של הדרך שבה פסע המודל לתשובה שנבחרה, צעד אחר צעד. כל שאלה נבדקה על ידי רופא מומחה יחיד בתחום הרלוונטי.

המחקר גילה כי במצב של "ספרים סגורים", כלומר ללא עזרי מידע חיצוניים ובהתבססות על זיכרון בלבד – הבינה המלאכותית הצליחה לבחור את התשובה הנכונה לעתים תכופות יותר מהרופאים. אולם במצב של "חומר פתוח" שבו הייתה לרופאים גישה למקורות מידע, הרופאים גברו על ה-AI, במיוחד בשאלות הקשות. הם הציגו ביצועים טובים יותר במתן נימוקים ובתיאור ההיגיון מאחורי התשובות.

מכיוון שבמציאות אין מבחנים רבי־ברירה, ולעתים ישנן כמה אבחנות אפשריות – הדבר מחייב יכולת להסביר בצורה ברורה את הרציונל והראיות מאחורי אבחנה מבדלת.

החוקרים מציינים במחקרם כי אף שה-AI הצליחה לזהות את האבחנה הנכונה, היא לעתים קרובות טעתה בניתוח התמונות ובהסבר כיצד הגיעה למסקנה שלה. לדוגמה, היא לא הצליחה לזהות ששני נגעי עור שהוצגו בזוויות שונות נגרמו מאותו מצב רפואי, מה שהוביל לשגיאה בהבנת הקשר ביניהם. שיעור הטעויות בהבנת התמונות היה גבוה מ-27%.

בסך הכל, רק שלוש מתוך 207 השאלות נענו בצורה שגויה על ידי הבינה המלאכותית וגם על ידי הרופאים, דבר שמצביע, לטענת החוקרים, על "סינרגיה מבטיחה בין הכלים הנוכחיים שעומדים לרשות הרופאים לבין GPT-4V".

הממצאים פורסמו בכתב העת "npj Digital Medicine". את המחקר הובילו חוקרים מהספרייה הלאומית לרפואה של ה-NIH ומבית הספר לרפואה של אוניברסיטת קורנל בניו יורק.

לכתבה המלאה