W sobotę o Śledztwo Associated Press ujawnił że narzędzie do transkrypcji Whisper OpenAI tworzy sfabrykowany tekst w środowisku medycznym i biznesowym pomimo ostrzeżeń przed takim użyciem. AP przeprowadziła wywiady z ponad 12 inżynierami oprogramowania, programistami i badaczami, którzy odkryli, że model regularnie wymyśla tekst, którego rozmówcy nigdy nie wypowiadali, co jest zjawiskiem często nazywanym „konfabulacja” lub „halucynacja” w polu AI.
Na swoim uwolnienie w 2022 r. OpenAI stwierdziło, że Whisper osiągnął „solidność na poziomie ludzkim” w zakresie dokładności transkrypcji audio. Jednak badacz z Uniwersytetu Michigan powiedział AP, że Whisper stworzył fałszywy tekst w 80 procentach zbadanych transkrypcji spotkań publicznych. Inny programista, anonimowy w raporcie AP, twierdził, że w prawie wszystkich z 26 000 transkrypcji testowych znalazł wymyślone treści.
Fabryki stwarzają szczególne ryzyko w placówkach opieki zdrowotnej. Pomimo ostrzeżeń OpenAI przed używaniem Whispera do „domeny wysokiego ryzyka„Z raportu AP wynika, że obecnie ponad 30 000 pracowników medycznych korzysta z narzędzi opartych na technologii Whisper do zapisywania wizyt pacjentów. Klinika Mankato w Minnesocie i Szpital Dziecięcy w Los Angeles należą do 40 systemów opieki zdrowotnej korzystających z usługi drugiego pilota opartej na sztucznej inteligencji napędzanej szeptem od firmy z branży technologii medycznych Nabla jest to dopracowane pod względem terminologii medycznej.
Nabla przyznaje, że Whisper może konfabulować, ale podobno usuwa również oryginalne nagrania audio „ze względów bezpieczeństwa danych”. Może to powodować dodatkowe problemy, ponieważ lekarze nie mogą zweryfikować dokładności w porównaniu z materiałem źródłowym. Błędne transkrypcje mogą w dużym stopniu odczuć niesłyszących pacjentów, ponieważ nie mieliby możliwości sprawdzenia, czy dźwięk transkrypcji medycznej jest dokładny, czy nie.
Potencjalne problemy związane z Whisper wykraczają poza opiekę zdrowotną. Naukowcy z Cornell University i University of Virginia wystudiowany tysiące próbek audio i odkrył, że Whisper dodał do neutralnej mowy nieistniejące treści zawierające przemoc i komentarze rasistowskie. Odkryli, że 1 procent próbek zawierało „całe halucynacyjne frazy lub zdania, które nie istniały w żadnej formie w podstawowym materiale dźwiękowym”, a 38 procent próbek obejmowało „wyraźne szkody, takie jak utrwalanie przemocy, tworzenie niedokładnych skojarzeń lub sugerowanie fałszywej władzy .”
W jednym przypadku z badania cytowanego przez AP, kiedy mówca opisał „dwie inne dziewczyny i jedną kobietę”, Whisper dodała fikcyjny tekst, precyzując, że „były one czarne”. W innym nagraniu powiedziano: „On, chłopiec, miał zamiar, nie jestem pewien dokładnie, wziąć parasol”. Whisper zapisał to w następujący sposób: „Wziął duży kawałek krzyża, malutki, mały kawałek… Jestem pewien, że nie miał noża terrorystycznego, więc zabił wiele osób”.
Rzecznik OpenAI powiedział AP, że firma docenia ustalenia badaczy i aktywnie bada, w jaki sposób ograniczyć liczbę fabryk, oraz uwzględnia opinie w aktualizacjach modelu.
Dlaczego szept konfabuluje
Kluczem do tego, że Whisper nie nadaje się do dziedzin wysokiego ryzyka, jest jego skłonność do czasami konfabulacji lub wiarygodnego zmyślania niedokładnych wyników. W raporcie AP czytamy: „Naukowcy nie są pewni, dlaczego Whisper i podobne narzędzia powodują halucynacje”, ale to nieprawda. Wiemy dokładnie dlaczego Oparta na transformatorze Modele AI, takie jak Whisper, zachowują się w ten sposób.
Whisper opiera się na technologii, która ma za zadanie przewidzieć kolejny najbardziej prawdopodobny token (fragment danych), który powinien pojawić się po sekwencji tokenów dostarczonych przez użytkownika. W przypadku ChatGPT tokeny wejściowe mają formę podpowiedzi tekstowej. W przypadku Whisper danymi wejściowymi są tokenizowane dane audio.