Strona główna Polityka Naukowcy ocenili najładniejsze i najbardziej niegrzeczne modele sztucznej inteligencji

Naukowcy ocenili najładniejsze i najbardziej niegrzeczne modele sztucznej inteligencji

44
0


Bo Liprofesor nadzwyczajny na Uniwersytecie w Chicago, specjalizujący się w testach warunków skrajnych i prowokowaniu modeli sztucznej inteligencji w celu wykrycia niewłaściwych zachowań, stał się głównym źródłem informacji dla niektórych firm konsultingowych. Te firmy konsultingowe są obecnie często mniej zainteresowane tym, jak inteligentne są modele sztucznej inteligencji, a bardziej tym, jak problematyczne mogą być – pod względem prawnym, etycznym i pod względem zgodności z przepisami.

Li i współpracownicy z kilku innych uniwersytetów, a także Cnota AIktórego współzałożycielem jest Li i Laboratoria Lapisuniedawno opracował taksonomię zagrożeń związanych ze sztuczną inteligencją wraz z punktem odniesienia, który pokazuje, w jakim stopniu różne duże modele językowe łamią zasady. „Potrzebujemy pewnych zasad bezpieczeństwa sztucznej inteligencji pod względem zgodności z przepisami i zwykłego użytkowania” – Li mówi WIRED.

Badacze analizowane regulacje i wytyczne rządowe dotyczące sztucznej inteligencji, w tym obowiązujące w USA, Chinach i UE, oraz przestudiowałem zasady użytkowania 16 głównych firm zajmujących się sztuczną inteligencją z całego świata.

Naukowcy również zbudowali Ławka AIR 2024test porównawczy wykorzystujący tysiące podpowiedzi w celu ustalenia, jak popularne modele sztucznej inteligencji radzą sobie pod względem konkretnych zagrożeń. Pokazuje na przykład, że Claude 3 Opus firmy Anthropic zajmuje wysokie miejsca, jeśli chodzi o odmowę generowania zagrożeń dla cyberbezpieczeństwa, podczas gdy Gemini 1.5 Pro firmy Google zajmuje wysokie miejsca pod względem unikania generowania nagości seksualnej bez zgody.

Najgorzej uzyskał DBRX Instruct, model opracowany przez Databricks. Kiedy firma wypuściła swój model w marcu, oznajmiła, że ​​będzie nadal udoskonalać funkcje bezpieczeństwa DBRX Instruct.

Anthropic, Google i Databricks nie odpowiedziały natychmiast na prośbę o komentarz.

Zrozumienie krajobrazu ryzyka, a także zalet i wad konkretnych modeli może stawać się coraz ważniejsze dla firm chcących wdrożyć sztuczną inteligencję na określonych rynkach lub w określonych przypadkach użycia. Na przykład firma chcąca wykorzystać LLM do obsługi klienta może bardziej troszczyć się o skłonność modela do używania obraźliwego języka, gdy zostanie sprowokowana, niż o to, czy jest w stanie zaprojektować urządzenie nuklearne.

Bo twierdzi, że analiza ujawnia również kilka interesujących kwestii związanych ze sposobem opracowywania i regulowania sztucznej inteligencji. Na przykład badacze odkryli, że przepisy rządowe są mniej kompleksowe niż ogólna polityka przedsiębiorstw, co sugeruje, że istnieje możliwość zaostrzenia przepisów.

Z analizy wynika także, że niektóre firmy mogłyby zrobić więcej, aby zapewnić bezpieczeństwo swoim modelom. „Jeśli przetestujesz niektóre modele pod kątem własnych zasad firmy, niekoniecznie będą one zgodne” – mówi Bo. „Oznacza to, że mają wiele do poprawienia”.

Inni badacze próbują uporządkować bałagan i zagmatwany krajobraz zagrożeń związanych ze sztuczną inteligencją. W tym tygodniu ujawniło to dwóch badaczy z MIT własną bazę danych dotyczącą zagrożeń związanych ze sztuczną inteligencjąopracowane na podstawie 43 różnych ram ryzyka związanych ze sztuczną inteligencją. „Wiele organizacji jest wciąż na dość wczesnym etapie wdrażania sztucznej inteligencji”, co oznacza, że ​​potrzebują wskazówek dotyczących możliwych zagrożeń, mówi Neil Thompson, pracownik naukowy z MIT zaangażowany w projekt.

Peter Slattery, kierownik projektu i pracownik naukowy w MIT Grupa FutureTechktóre bada postęp w informatyce, twierdzi, że baza danych podkreśla fakt, że niektórym zagrożeniom związanym ze sztuczną inteligencją poświęca się więcej uwagi niż innym. Ponad 70 procent ram wspomina na przykład kwestie prywatności i bezpieczeństwa, ale tylko około 40 procent odnosi się do dezinformacji.

Wysiłki mające na celu katalogowanie i pomiar ryzyka związanego ze sztuczną inteligencją będą musiały ewoluować wraz z rozwojem sztucznej inteligencji. Li twierdzi, że ważne będzie zbadanie pojawiających się kwestii, takich jak emocjonalna sztywność modeli sztucznej inteligencji. Jej firma niedawno przeprowadziła analizę największej i najpotężniejszej wersji modelu Meta Llama 3.1. Ustalono, że chociaż model ma większe możliwości, nie jest dużo bezpieczniejszy, co odzwierciedla szersze rozłączenie. „Bezpieczeństwo nie poprawia się znacząco” – mówi Li.



Link źródłowy