Badanie przeprowadzone przez WSU wykazało, że ChatGPT jest skuteczny w przypadku ogólnych zadań finansowych, ale słaby w skomplikowanych obszarach. Podczas gdy ChatGPT 4.0 wyróżniał się, dopracowany ChatGPT 3.5 mógł z nim konkurować dokładność. Sztuczna inteligencja jest postrzegana jako narzędzie, które ma pomagać profesjonalistom, a nie je zastępować, ale może mieć wpływ na podstawowe stanowiska finansowe wykonujące powtarzalne zadania.
Duże modele językowe, takie jak ChatGPT, wykazują dobrą wydajność w przypadku pytań wielokrotnego wyboru z egzaminów na licencje finansowe, ale mają problemy z bardziej szczegółowymi zadaniami.
W badaniu przeprowadzonym przez Washington State University ocenie poddano ponad 10 000 odpowiedzi modeli AI BARD, Llama i ChatGPT na pytania z egzaminów finansowych. Badacze wykraczali poza ocenę zdolności modeli do wybierania prawidłowych odpowiedzi i poprosili ich również o wyjaśnienie swojego wyboru. Odpowiedzi te porównano następnie z wyjaśnieniami specjalistów.
Spośród testowanych modeli dwie wersje ChatGPT wypadły ogólnie najlepiej. Jednak nawet te modele wykazywały znaczne niedokładności w odniesieniu do bardziej złożonych i zaawansowanych zagadnień.
„Jest zdecydowanie za wcześnie, aby martwić się, że ChatGPT całkowicie odbierze stanowiska finansowe” – powiedział autor badania DJ Fairhurst z Carson College of Business na WSU. „W przypadku szerokich koncepcji, dla których w Internecie od dawna znajdują się dobre wyjaśnienia, ChatGPT może wykonać bardzo dobrą robotę, syntetyzując te koncepcje. Jeśli jest to konkretny, specyficzny problem, naprawdę będzie to trudne.
Zakres i wyniki badania
Na potrzeby tego badania, opublikowanego w czasopiśmie Dziennik analityków finansowychFairhurst i współautor Daniel Greene z Clemson University wykorzystali pytania z egzaminów licencyjnych, w tym egzaminu Securities Industry Essentials, a także serii 6, 7, 65 i 66.
Aby wyjść poza zdolność modeli sztucznej inteligencji do prostego wyboru właściwej odpowiedzi, badacze poprosili modele o przedstawienie pisemnych wyjaśnień. Wybrali także pytania oparte na konkretnych zadaniach zawodowych, jakie mogą faktycznie wykonywać specjaliści od finansów.
„Zdanie egzaminów certyfikujących nie wystarczy. Naprawdę musimy sięgnąć głębiej, aby zobaczyć, co naprawdę potrafią te modele” – powiedział Fairhurst.
Ze wszystkich modeli płatna wersja ChatGPT w wersji 4.0 wypadła najlepiej, dostarczając odpowiedzi najbardziej zbliżone do ludzkich ekspertów. Jego dokładność była również od 18 do 28 punktów procentowych wyższa niż w przypadku pozostałych modeli. Zmieniło się to jednak, gdy badacze udoskonalili wcześniejszą, bezpłatną wersję ChatGPT 3.5, podając jej przykłady poprawnych odpowiedzi i wyjaśnień. Po tym dostrojeniu dokładność zbliżyła się do ChatGPT 4.0, a nawet ją przewyższyła w dostarczaniu odpowiedzi podobnych do odpowiedzi udzielanych przez profesjonalistów.
Słabości sztucznej inteligencji w wyspecjalizowanych zadaniach finansowych
Oba modele nadal jednak nie spełniały oczekiwań, jeśli chodzi o określone rodzaje pytań. Chociaż modele dobrze sobie radziły z przeglądaniem transakcji na papierach wartościowych i monitorowaniem trendów na rynku finansowym, modele dawały bardziej niedokładne odpowiedzi w przypadku specjalistycznych sytuacji, takich jak ustalanie zakresu ubezpieczenia klientów i statusu podatkowego.
Fairhurst i Greene wraz z doktorantem WSU Adamem Bozmanem pracują obecnie nad innymi sposobami ustalenia, co ChatGPT może, a czego nie może zrobić w projekcie wymagającym oceny potencjalnych transakcji fuzji. W tym celu wykorzystują fakt, że ChatGPT jest szkolony na danych do września 2021 r. i wykorzystują transakcje zawarte po tej dacie, gdy znany jest wynik. Wstępne ustalenia pokazują, że jak na razie model sztucznej inteligencji nie radzi sobie zbyt dobrze z tym zadaniem.
Ogólnie rzecz biorąc, badacze stwierdzili, że ChatGPT jest prawdopodobnie nadal lepiej wykorzystywany jako narzędzie pomagające, a nie jako zamiennik dla uznanego specjalisty finansowego. Z drugiej strony sztuczna inteligencja może zmienić sposób, w jaki niektóre banki inwestycyjne zatrudniają początkujących analityków.
„Praktyka zatrudniania grupy młodych analityków w charakterze młodszych analityków, pozwalania im konkurować i zatrzymywania zwycięzców – staje się znacznie bardziej kosztowna” – powiedział Fairhurst. „Może to więc oznaczać pogorszenie koniunktury na tego typu stanowiskach, ale nie dlatego, że ChatGPT jest lepszy od analityków, ale dlatego, że prosiliśmy młodszych analityków o wykonywanie bardziej prostych zadań”.
Odniesienie: „Ile ChatGPT wie o finansach?” Douglas (DJ) Fairhurst i Daniel Greene, 18 listopada 2024 r., Dziennik analityków finansowych.
DOI: 10.1080/0015198X.2024.2411941