Wyniki podważają założenie, że sztuczna inteligencja wkrótce zastąpi lekarzy
Badania pokazują, że najlepsze modele sztucznej inteligencji wykazują upośledzenie funkcji poznawczych podobne do wczesnych objawów demencji, gdy ocenia się je za pomocą testu MoCA. Odkrycia te podkreślają ograniczenia sztucznej inteligencji w zastosowaniach klinicznych, szczególnie w zadaniach wymagających umiejętności wizualnych i wykonawczych.
Zaburzenia poznawcze w AI
Z badania opublikowanego w bożonarodzeniowym wydaniu wynika, że prawie wszystkie wiodące modele dużych języków, czyli „chatboty”, wykazują oznaki łagodnego upośledzenia funkcji poznawczych, gdy testuje się je przy użyciu metod powszechnie stosowanych do wykrywania wczesnej demencji. BMJ’a.
Badanie wykazało również, że starsze wersje tych chatbotów, podobnie jak starzejący się pacjenci, wypadały w testach gorzej. Autorzy sugerują, że odkrycia te „podważają założenie, że sztuczna inteligencja wkrótce zastąpią ludzkich lekarzy”.
Postępy i spekulacje AI
Niedawne postępy w dziedzinie sztucznej inteligencji wzbudziły zarówno ekscytację, jak i obawy, czy chatboty mogą przewyższyć lekarzy w zadaniach medycznych.
Chociaż poprzednie badania wykazały, że duże modele językowe (LLM) doskonale radzą sobie z różnymi medycznymi zadaniami diagnostycznymi, ich potencjalna podatność na zaburzenia poznawcze podobne do ludzkich, takie jak pogorszenie funkcji poznawczych, pozostaje w dużej mierze niezbadana – aż do teraz.
Ocena zdolności poznawczych AI
Aby wypełnić tę lukę w wiedzy, badacze ocenili zdolności poznawcze wiodących, publicznie dostępnych LLM – ChatGPT w wersjach 4 i 4o (opracowanych przez OpenAI), Claude 3.5 „Sonnet” (opracowanych przez Anthropic) oraz Gemini w wersjach 1 i 1.5 (opracowanych przez Alfabet) – za pomocą testu Montreal Cognitive Assessment (MoCA).
Test MoCA jest szeroko stosowany do wykrywania zaburzeń funkcji poznawczych i wczesnych objawów demencji, zwykle u osób starszych. Za pomocą szeregu krótkich zadań i pytań ocenia umiejętności, w tym uwagę, pamięć, język, umiejętności wzrokowo-przestrzenne i funkcje wykonawcze. Maksymalny wynik to 30 punktów, a wynik 26 lub wyższy jest ogólnie uważany za normalny.
Wydajność AI w testach poznawczych
Instrukcje wydane LLM dotyczące każdego zadania były takie same, jak te podawane pacjentom. Punktacja była zgodna z oficjalnymi wytycznymi i oceniana przez praktykującego neurologa.
ChatGPT 4o uzyskał najwyższy wynik w teście MoCA (26 z 30), następnie ChatGPT 4 i Claude (25 z 30), a najniższy wynik Gemini 1.0 (16 z 30).
Wyzwania w funkcjach wizualnych i wykonawczych
Wszystkie chatboty wykazywały słabe wyniki w zakresie umiejętności wzrokowo-przestrzennych i zadań wykonawczych, takich jak zadanie tworzenia szlaku (łączenie otoczonych cyfr i liter w kolejności rosnącej) oraz test rysowania zegara (rysowanie tarczy zegara pokazującej określoną godzinę). Modele Gemini nie poradziły sobie z zadaniem opóźnionego przypominania (zapamiętywanie sekwencji pięciu słów).
Większość innych zadań, w tym nazewnictwo, uwaga, język i abstrakcja, została dobrze wykonana przez wszystkie chatboty.
Jednak w dalszych testach wizualno-przestrzennych chatboty nie były w stanie wykazać się empatią ani dokładnie zinterpretować złożonych scen wizualnych. Tylko ChatGPT 4o pomyślnie przeszedł niespójny etap testu Stroopa, który wykorzystuje kombinacje nazw kolorów i kolorów czcionek do pomiaru wpływu zakłóceń na czas reakcji.
Implikacje dla sztucznej inteligencji w warunkach klinicznych
Są to ustalenia obserwacyjne i autorzy uznają zasadnicze różnice między ludzkim mózgiem a dużymi modelami językowymi.
Wskazują jednak, że jednolite niepowodzenie wszystkich dużych modeli językowych w zadaniach wymagających abstrakcji wizualnej i funkcji wykonawczych uwydatnia znaczny obszar słabości, który może utrudniać ich zastosowanie w warunkach klinicznych.
W związku z tym doszli do wniosku: „Nie tylko jest mało prawdopodobne, aby neurolodzy zostali w najbliższym czasie zastąpieni dużymi modelami językowymi, ale nasze odkrycia sugerują, że wkrótce mogą zacząć leczyć nowych, wirtualnych pacjentów – modele sztucznej inteligencji wykazujące upośledzenie funkcji poznawczych”.
Odniesienie: „Wiek kontra maszyna – podatność dużych modeli językowych na zaburzenia poznawcze: analiza przekrojowa” 18 grudnia 2024 r., BMJ’a.
DOI: 10.1136/bmj-2024-081948