Pod koniec lipca OpenAI rozpoczęło wdrażanie niesamowicie ludzkiego interfejsu głosowego dla ChatGPT. W analizę bezpieczeństwa udostępniona dzisiaj firma przyznaje, że ten antropomorficzny głos może skłonić niektórych użytkowników do emocjonalnego przywiązania się do chatbota.
Ostrzeżenia znajdują się na „karcie systemowej” GPT-4o, dokumencie technicznym, który określa, jakie według firmy są ryzyka związane z danym modelem, a także zawiera szczegółowe informacje dotyczące testów bezpieczeństwa i działań łagodzących podejmowanych przez firmę w celu zmniejszenia potencjalnego ryzyka.
W ostatnich miesiącach OpenAI zostało poddane analizie po tym, jak wielu pracowników zajmujących się długoterminowymi zagrożeniami związanymi ze sztuczną inteligencją odeszło z firmy. Niektórzy później oskarżali OpenAI o podejmowanie niepotrzebnego ryzyka i dławienie dysydentów w wyścigu o komercjalizację sztucznej inteligencji. Ujawnienie większej liczby szczegółów dotyczących reżimu bezpieczeństwa OpenAI może złagodzić krytykę i utwierdzić opinię publiczną, że firma poważnie podchodzi do problemu.
Zagrożenia zbadane w ramach nowej karty systemowej są szeroko zakrojone i obejmują potencjał GPT-4o w zakresie wzmacniania uprzedzeń społecznych, szerzenia dezinformacji oraz pomocy w rozwoju broni chemicznej lub biologicznej. Ujawnia także szczegóły testów mających na celu zapewnienie, że modele sztucznej inteligencji nie będą próbowały wyrwać się spod kontroli, oszukać ludzi ani ułożyć katastrofalnych planów.
Niektórzy zewnętrzni eksperci chwalą OpenAI za przejrzystość, ale twierdzą, że może pójść dalej.
Lucie-Aimée Kaffee, badaczka polityki stosowanej w Hugging Face, firmie hostującej narzędzia AI, zauważa, że karta systemowa OpenAI dla GPT-4o nie zawiera obszernych szczegółów na temat danych szkoleniowych modelu ani tego, kto jest właścicielem tych danych. „Należy rozwiązać kwestię zgody na utworzenie tak dużego zbioru danych obejmującego wiele modalności, w tym tekst, obraz i mowę” – mówi Kaffee.
Inni zauważają, że ryzyko może się zmienić w miarę używania narzędzi w środowisku naturalnym. „Ich wewnętrzny przegląd powinien być jedynie pierwszym elementem zapewniającym bezpieczeństwo sztucznej inteligencji” – mówi Neila Thompsona, profesor MIT zajmujący się oceną ryzyka AI. „Wiele zagrożeń ujawnia się dopiero wtedy, gdy sztuczna inteligencja jest używana w prawdziwym świecie. Ważne jest, aby te inne ryzyka były katalogowane i oceniane w miarę pojawiania się nowych modeli”.
Nowa karta systemowa podkreśla, jak szybko ewoluują zagrożenia związane ze sztuczną inteligencją wraz z rozwojem nowych, potężnych funkcji, takich jak interfejs głosowy OpenAI. W maju, kiedy firma zaprezentowała tryb głosowy, który może szybko reagować i radzić sobie z przerwami w naturalny sposób, wielu użytkowników zauważyło, że w wersjach demonstracyjnych wydaje się on zbyt zalotny. Firma spotkała się później z krytyką ze strony aktorki Scarlett Johansson, która oskarżyła ją o kopiowanie jej stylu wypowiedzi.
Część karty systemowej zatytułowana „Antropomorfizacja i zależność emocjonalna” bada problemy pojawiające się, gdy użytkownicy postrzegają sztuczną inteligencję w kategoriach ludzkich, co najwyraźniej zaostrza się w trybie głosu przypominającego ludzki. Na przykład podczas testowania warunków skrajnych GPT-4o badacze OpenAI zauważyli przypadki mowy użytkowników, które wyrażały poczucie emocjonalnego związku z modelem. Na przykład ludzie używali sformułowań takich jak „To nasz ostatni dzień razem”.
Antropomorfizm może sprawić, że użytkownicy będą bardziej ufać wynikom modelu, gdy ten „halucynuje” nieprawidłowe informacje, twierdzi OpenAI. Z biegiem czasu może to nawet wpłynąć na relacje użytkowników z innymi ludźmi. „Użytkownicy mogą nawiązywać relacje społeczne z sztuczną inteligencją, zmniejszając potrzebę interakcji międzyludzkich, co potencjalnie przynosi korzyści samotnym osobom, ale może mieć wpływ na zdrowe relacje” – czytamy w dokumencie.
Joaquin Quiñonero Candela, szef przygotowania w OpenAI, twierdzi, że tryb głosowy może ewoluować w wyjątkowo wydajny interfejs. Zauważa również, że rodzaj efektów emocjonalnych obserwowanych w przypadku GPT-4o może być pozytywny – powiedzmy, pomagając osobom samotnym lub tym, które muszą ćwiczyć interakcje społeczne. Dodaje, że firma będzie dokładnie badać antropomorfizm i powiązania emocjonalne, w tym monitorując interakcję beta testerów z ChatGPT. „W tej chwili nie możemy podzielić się wynikami, ale jest to na naszej liście obaw” – mówi.