Od jakiegoś czasu działają takie firmy jak OpenAI i Google zachwalając zaawansowane możliwości „rozumowania”. Jak kolejny duży krok w swoich najnowszych modelach sztucznej inteligencji. Jednak nowe badanie przeprowadzone przez sześciu inżynierów Apple pokazuje, że matematyczne „rozumowanie” prezentowane przez zaawansowane modele z dużym językiem może być wyjątkowo kruche i zawodne w obliczu pozornie trywialnych zmian w typowych problemach z testami porównawczymi.
Kruchość podkreślona w tych nowych wynikach potwierdza wcześniejsze badania sugerujące, że w przypadku LLM stosowania probabilistycznego dopasowywania wzorców brakuje formalnego zrozumienia podstawowych pojęć niezbędnych do uzyskania naprawdę niezawodnych możliwości wnioskowania matematycznego. „Obecne szkoły LLM nie są zdolne do prawdziwego logicznego rozumowania” – badacze stawiają hipotezę na podstawie tych wyników. „Zamiast tego próbują odtworzyć kroki rozumowania zaobserwowane w danych szkoleniowych”.
Wymieszaj to
W książce „GSM-Symbolic: Zrozumienie ograniczeń rozumowania matematycznego w modelach wielkojęzycznych” – obecnie dostępnej jako papier do przeddruku— sześciu badaczy Apple, od których zaczynali Ustandaryzowany zestaw ponad 8000 matematycznych zadań tekstowych GSM8K na poziomie szkół podstawowychczyli często używany jako punkt odniesienia dla złożonych możliwości wnioskowania współczesnych LLM. Następnie przyjmują nowatorskie podejście polegające na modyfikowaniu części tego zestawu testowego w celu dynamicznego zastępowania pewnych nazw i liczb nowymi wartościami — więc pytanie o to, czy Sophie dostaje 31 elementów dla swojego siostrzeńca w GSM8K, może stać się pytaniem o to, czy Bill otrzymuje 19 elementów dla swojego siostrzeńca jego brat w nowej ocenie GSM-Symbolic.
Takie podejście pomaga uniknąć potencjalnego „skażenia danych”, które może wynikać ze statycznych pytań GSM8K wprowadzanych bezpośrednio do danych szkoleniowych modelu AI. Jednocześnie te przypadkowe zmiany w ogóle nie zmieniają rzeczywistej trudności nieodłącznie związanego z rozumowaniem matematycznym, co oznacza, że modele teoretycznie powinny działać równie dobrze w testach na GSM-Symbolic, jak na GSM8K.
Zamiast tego, gdy badacze przetestowali ponad 20 najnowocześniejszych LLM w sieci GSM-Symbolic, odkryli, że średnia dokładność jest ogólnie niższa w porównaniu z GSM8K, a wydajność spada od 0,3 do 9,2%, w zależności od modelu. Wyniki wykazały również dużą rozbieżność w 50 oddzielnych seriach GSM-Symbolic o różnych nazwach i wartościach. W obrębie jednego modelu powszechne były luki rzędu 15 procent dokładności pomiędzy najlepszymi i najgorszymi przebiegami i z jakiegoś powodu zmiana liczb zwykle skutkowała gorszą dokładnością niż zmiana nazw.
Tego rodzaju rozbieżności – zarówno w obrębie różnych przebiegów GSM-Symbolic, jak i w porównaniu z wynikami GSM8K – są więcej niż trochę zaskakujące, ponieważ, jak zauważają naukowcy, „ogólne etapy rozumowania potrzebne do rozwiązania problemu pozostają takie same”. Fakt, że tak małe zmiany prowadzą do tak zmiennych wyników, sugeruje badaczom, że modele te nie opierają się na żadnym „formalnym” rozumowaniu, lecz zamiast tego „próbują[ing] aby wykonać rodzaj dopasowywania wzorców dystrybucji, dopasowując podane pytania i kroki rozwiązania do podobnych widocznych w danych szkoleniowych.
Nie rozpraszaj się
Mimo to ogólna wariancja wykazana w testach GSM-Symbolic była często stosunkowo niewielka w ogólnym ujęciu. Na przykład dokładność ChatGPT-4o OpenAI spadła z 95,2% w GSM8K do wciąż imponujących 94,9% w GSM-Symbolic. To dość wysoki wskaźnik sukcesu w przypadku któregokolwiek testu porównawczego, niezależnie od tego, czy sam model korzysta z „formalnego” rozumowania za kulisami (chociaż całkowita dokładność wielu modeli gwałtownie spadła, gdy badacze dodali do problemów tylko jeden lub dwa dodatkowe logiczne kroki) ).
Testowane LLM wypadły jednak znacznie gorzej, gdy badacze Apple zmodyfikowali benchmark GSM-Symbolic, dodając do pytań „pozornie istotne, ale ostatecznie nieistotne stwierdzenia”. W przypadku tego zestawu porównawczego „GSM-NoOp” (skrót od „no Operation”) pytanie o to, ile kiwi ktoś zbiera w ciągu kilku dni, można zmodyfikować w celu uwzględnienia przypadkowego szczegółu, że „pięć z nich [the kiwis] były nieco mniejsze niż przeciętnie.”
Dodanie tych błędów doprowadziło do, jak to określili naukowcy, „katastrofalnego spadku wydajności” w zakresie dokładności w porównaniu z GSM8K, wahającego się od 17,5% do aż 65,7%, w zależności od testowanego modelu. Te ogromne spadki dokładności uwydatniają nieodłączne ograniczenia w stosowaniu prostego „dopasowywania wzorców” do „przekształcania instrukcji w operacje bez prawdziwego zrozumienia ich znaczenia” – piszą naukowcy.