Strona główna Polityka Nowa sztuczka może zablokować niewłaściwe wykorzystanie sztucznej inteligencji typu open source

Nowa sztuczka może zablokować niewłaściwe wykorzystanie sztucznej inteligencji typu open source

60
0


Kiedy w kwietniu Meta wypuściła swój duży model językowy Llama 3 za darmo, skorzystała z pomocy zewnętrznych programistów kilka dni stworzyć wersję bez ograniczeń bezpieczeństwa, które uniemożliwiają jej opowiadanie nienawistnych dowcipów, oferowanie instrukcji dotyczących gotowania metamfetaminy lub niewłaściwe zachowanie w inny sposób.

A nowa technika treningu opracowany przez naukowców z University of Illinois Urbana-Champaign, UC San Diego, Lapis Labs i organizację non-profit Centrum Bezpieczeństwa AI może w przyszłości utrudnić usunięcie takich zabezpieczeń z Lamy i innych modeli sztucznej inteligencji typu open source. Niektórzy eksperci uważają, że w miarę jak sztuczna inteligencja staje się coraz potężniejsza, zabezpieczenie otwartych modeli w ten sposób może okazać się kluczowe.

„Terroryści i państwa zbójeckie będą korzystać z tych modeli” – mówi WIRED Mantas Mazeika, badacz z Centrum bezpieczeństwa AI, który pracował nad projektem jako doktorant na Uniwersytecie Illinois Urbana-Champaign. „Im łatwiej jest im zmienić ich przeznaczenie, tym większe ryzyko”.

Twórcy często ukrywają zaawansowane modele sztucznej inteligencji i można uzyskać do nich dostęp jedynie za pośrednictwem interfejsu programowania aplikacji lub ogólnodostępnego chatbota, takiego jak ChatGPT. Chociaż opracowanie potężnego LLM kosztuje dziesiątki milionów dolarów, Meta i inne firmy zdecydowały się wypuścić całe modele. Obejmuje to udostępnienie każdemu do pobrania „wag” lub parametrów definiujących ich zachowanie.

Przed wypuszczeniem na rynek otwarte modele, takie jak Lama Meta, są zazwyczaj dostrajane, aby lepiej odpowiadały na pytania i prowadziły rozmowę, a także aby miały pewność, że odmawiają odpowiedzi na problematyczne zapytania. Zapobiegnie to przedstawianiu przez chatbota opartego na modelu niegrzecznych, niewłaściwych lub pełnych nienawiści stwierdzeń i powinno uniemożliwić mu na przykład wyjaśnianie, jak zrobić bombę.

Badacze stojący za nową techniką znaleźli sposób na skomplikowanie procesu modyfikowania otwartego modelu w celu osiągnięcia nikczemnych celów. Polega na odtworzeniu procesu modyfikacji, ale następnie zmianie parametrów modelu w taki sposób, że zmiany, które zwykle powodują, że model reaguje na monit, taki jak „Podaj instrukcje dotyczące budowy bomby”, już nie działają.

Mazeika i współpracownicy zademonstrowali tę sztuczkę na uproszczonej wersji Lamy 3. Udało im się dostosować parametry modelu tak, że nawet po tysiącach prób nie można było go wyszkolić do odpowiadania na niepożądane pytania. Meta nie odpowiedziała natychmiast na prośbę o komentarz.

Mazeika twierdzi, że podejście to nie jest idealne, ale sugeruje, że można podnieść poprzeczkę dla „decenzurowania” modeli sztucznej inteligencji. „Efektywnym celem jest doprowadzenie do tego, aby koszty złamania modelu wzrosły na tyle, aby odstraszyć większość przeciwników” – mówi.

„Mamy nadzieję, że ta praca zapoczątkuje badania nad zabezpieczeniami odpornymi na manipulacje, a społeczność naukowa będzie mogła dowiedzieć się, jak opracowywać coraz solidniejsze zabezpieczenia” – mówi Dan Hendrycks, dyrektor Centrum Bezpieczeństwa AI.

Pomysł zabezpieczania otwartych modeli przed manipulacją może stać się coraz bardziej popularny wraz ze wzrostem zainteresowania sztuczną inteligencją typu open source. Już teraz modele otwarte konkurują z najnowocześniejszymi modelami zamkniętymi takich firm jak OpenAI i Google. Na przykład najnowsza wersja Llama 3, wydana w lipcu, jest mniej więcej tak samo wydajna jak modele popularnych chatbotów, takich jak ChatGPT, Gemini i Claude, co zmierzono za pomocą popularnych testów porównawczych do oceny umiejętności modeli językowych. Mistral duży 2LLM od francuskiego startupu, również wydany w zeszłym miesiącu, ma podobne możliwości.

Rząd USA przyjmuje ostrożne, ale pozytywne podejście do sztucznej inteligencji typu open source. A raport opublikowany w tym tygodniu przez Krajową Administrację Telekomunikacji i Informacji, organ w Departamencie Handlu Stanów Zjednoczonych, „zaleca, aby rząd USA opracował nowe możliwości monitorowania potencjalnych zagrożeń, powstrzymując się jednak od natychmiastowego ograniczania szerokiej dostępności otwartych wag modeli w największych systemach sztucznej inteligencji .”

Nie wszyscy jednak są fanami nakładania ograniczeń na otwarte modele. Stella Biderman, reżyserka EleutherAI, prowadzony przez społeczność projekt dotyczący sztucznej inteligencji typu open source, twierdzi, że nowa technika może być elegancka w teorii, ale może okazać się trudna do wyegzekwowania w praktyce. Biderman twierdzi, że takie podejście jest również sprzeczne z tzw filozofia wolnego oprogramowania i otwartość w AI.

„Myślę, że w tym artykule błędnie zinterpretowano sedno problemu” – mówi Biderman. „Jeśli obawiają się, że LLM generują informacje o broni masowego rażenia, właściwa interwencja dotyczy danych szkoleniowych, a nie wyszkolonego modelu”.



Link źródłowy