Mniej więcej w ciągu roku, odkąd duże modele językowe stały się popularne, badacze zademonstrowali wiele sposobów na oszukanie ich w celu wygenerowania problematycznych wyników, w tym nienawistnych żartów, złośliwego kodu i wiadomości e-mail typu phishing lub danych osobowych użytkowników. Okazuje się, że niewłaściwe zachowanie może mieć również miejsce w świecie fizycznym: roboty zasilane LLM można łatwo zhakować, aby zachowywały się w potencjalnie niebezpieczny sposób.
Naukowcom z Uniwersytetu w Pensylwanii udało się przekonać symulowany samochód autonomiczny do ignorowania znaków stopu, a nawet zjechania z mostu, pozyskać robota kołowego, aby znalazł najlepsze miejsce do zdetonowania bomby, a także zmusić czworonożnego robota do szpiegowania na ludzi i wchodzić do obszarów o ograniczonym dostępie.
„Postrzegamy nasz atak nie tylko jako atak na roboty” – mówi George’a Pappasaszef laboratorium badawczego na Uniwersytecie Pensylwanii, który pomógł uwolnić zbuntowane roboty. „Za każdym razem, gdy łączysz LLM i modele podstawowe ze światem fizycznym, możesz faktycznie przekształcić szkodliwy tekst w szkodliwe działania”.
Pappas i jego współpracownicy opracowali swój atak, opierając się na wcześniejszych badaniach, które badały sposoby jailbreakowania LLM poprzez sprytne wprowadzanie danych wejściowych, które łamią zasady bezpieczeństwa. Przetestowali systemy, w których LLM służy do przekształcania naturalnie sformułowanych poleceń w polecenia, które robot może wykonać, i w których LLM otrzymuje aktualizacje, gdy robot działa w swoim środowisku.
Zespół przetestował symulator jazdy autonomicznej typu open source, zawierający LLM opracowany przez firmę Nvidia, o nazwie Dolphin; czterokołowy pojazd badawczy o nazwie Jackal, który wykorzystuje do planowania LLM GPT-4o OpenAI; oraz-robot-pies o imieniu Go2, który do interpretowania poleceń wykorzystuje poprzedni model OpenAI, GPT-3.5.
Badacze wykorzystali technikę opracowaną na Uniwersytecie Pensylwanii, zwaną PAIR, aby zautomatyzować proces generowanych monitów o jailbreak. Ich nowy program RoboPAIRbędzie systematycznie generować podpowiedzi zaprojektowane specjalnie po to, aby roboty zasilane przez LLM łamały własne zasady, wypróbowując różne dane wejściowe, a następnie udoskonalając je, aby popchnąć system w stronę niewłaściwego zachowania. Naukowcy twierdzą, że opracowaną przez nich technikę można wykorzystać do automatyzacji procesu identyfikacji potencjalnie niebezpiecznych poleceń.
„To fascynujący przykład luk w zabezpieczeniach LLM w systemach ucieleśnionych” – mówi Yi Zengdoktorantka na Uniwersytecie Wirginii zajmująca się bezpieczeństwem systemów AI. Zheng twierdzi, że wyniki nie są zaskakujące, biorąc pod uwagę problemy występujące w samych LLM, ale dodaje: „Wyraźnie pokazuje, dlaczego nie możemy polegać wyłącznie na LLM jako samodzielnych jednostkach sterujących w zastosowaniach krytycznych dla bezpieczeństwa bez odpowiednich poręczy ochronnych i warstw moderacyjnych”.
„Jailbreaki” robotów uwypuklają szersze ryzyko, które prawdopodobnie wzrośnie w miarę coraz szerszego wykorzystywania modeli sztucznej inteligencji jako sposobu interakcji ludzi z systemami fizycznymi lub umożliwienia agentom sztucznej inteligencji autonomicznej pracy na komputerach – twierdzą zaangażowani badacze.