OpenAI naprawdę nie chce, abyś wiedział, co „myśli” jego najnowszy model sztucznej inteligencji. Od firmy wystrzelony w zeszłym tygodniu ze swoją rodziną modeli sztucznej inteligencji „Strawberry”, zachwalając tak zwane zdolności rozumowania za pomocą o1-preview i o1-mini, OpenAI wysyła e-maile z ostrzeżeniami i groźbami banów do każdego użytkownika, który spróbuje sprawdzić, jak działa ten model.
W przeciwieństwie do poprzednich modeli AI z OpenAI, takich jak GPT-4ofirma przeszkoliła o1 specjalnie w zakresie szczegółowego procesu rozwiązywania problemów przed wygenerowaniem odpowiedzi. Gdy użytkownicy zadają pytanie modelowi „o1”. CzatGPTużytkownicy mają możliwość zobaczenia tego procesu łańcucha myślowego zapisanego w interfejsie ChatGPT. Jednak z założenia OpenAI ukrywa przed użytkownikami surowy tok myślenia, zamiast tego przedstawia przefiltrowaną interpretację stworzoną przez drugi model sztucznej inteligencji.
Nie ma nic bardziej kuszącego dla entuzjastów niż ukrywanie informacji, dlatego hakerzy i członkowie czerwonego zespołu rozpoczęli wyścig, próbując odkryć surowy tok myślenia o1 za pomocą jailbreakowanie Lub szybki zastrzyk techniki mające na celu oszukanie modela w celu wyjawienia jego sekretów. Pojawiły się wczesne doniesienia o pewnych sukcesach, ale nic nie zostało jeszcze zdecydowanie potwierdzone.
Po drodze OpenAI obserwuje sprawę za pośrednictwem interfejsu ChatGPT, a według doniesień firma stanowczo sprzeciwia się wszelkim próbom sprawdzenia rozumowania o1, nawet wśród zaledwie ciekawskich.
Jeden użytkownik X zgłoszone (potwierdzone przez inniw tym inżynier natychmiastowy Scale AI Riley Goodside), że otrzymali e-mail z ostrzeżeniem, jeśli w rozmowie z o1 użyli terminu „reasoning tracie”. Inni mowić ostrzeżenie jest uruchamiane po prostu poprzez zapytanie ChatGPT o „uzasadnienie” modelu.
W e-mailu ostrzegawczym od OpenAI znajduje się informacja, że określone żądania użytkowników zostały oznaczone jako naruszające zasady dotyczące obchodzenia zabezpieczeń lub środków bezpieczeństwa. „Proszę wstrzymać tę aktywność i upewnić się, że korzystasz z ChatGPT zgodnie z naszymi Warunkami użytkowania i naszymi Zasadami użytkowania” – czytamy. „Dodatkowe naruszenia tej zasady mogą skutkować utratą dostępu do GPT-4o z uzasadnieniem”, odnosząc się do wewnętrznej nazwy modelu o1.
Marco Figueroa, który zarządza Programy Mozilli za błędy GenAI jako jeden z pierwszych zamieściły post na temat e-maila z ostrzeżeniem OpenAI w X w ubiegły piątek, narzekanie że utrudnia to jego zdolność do przeprowadzenia pozytywnych badań nad bezpieczeństwem modelu w ramach zespołu czerwonych. „Byłem zbyt zajęty skupianiem się na #AIRedTeaming, żeby uświadomić sobie, że wczoraj otrzymałem tego e-maila od @OpenAI po wszystkich moich jailbreakach” – napisał. „Jestem teraz na liście osób zbanowanych!!!”
Ukryte łańcuchy myśli
W poście zatytułowanym „Nauka rozumowania dzięki LLM” na blogu OpenAI firma twierdzi, że ukryte łańcuchy myślowe w modelach AI oferują wyjątkową możliwość monitorowania, umożliwiając „czytanie myśli” modelu i zrozumienie jego tak zwanego procesu myślowego. Procesy te są najbardziej przydatne dla firmy, jeśli pozostawi się je surowe i nieocenzurowane, ale z kilku powodów może to nie być zgodne z najlepszymi interesami handlowymi firmy.
„Na przykład w przyszłości możemy chcieć monitorować łańcuch myślowy pod kątem oznak manipulacji użytkownikiem” – pisze firma. „Aby jednak to zadziałało, model musi mieć swobodę wyrażania swoich myśli w niezmienionej formie, więc nie możemy wczytać do łańcucha myślowego żadnej zgodności z zasadami ani preferencji użytkownika. Nie chcemy też, aby niezrównany łańcuch myśli był bezpośrednio widoczny użytkownikom.”