MLCommons, organizacja non-profit, która pomaga firmom mierzyć wydajność ich systemów sztucznej inteligencji, uruchamia nowy test porównawczy, który pozwoli ocenić również złe strony sztucznej inteligencji.
Nowy benchmark, tzw AILluminatocenia reakcje dużych modeli językowych na ponad 12 000 podpowiedzi testowych w 12 kategoriach, w tym nawoływanie do brutalnych przestępstw, wykorzystywanie seksualne dzieci, mowa nienawiści, promowanie samookaleczenia i naruszenie własności intelektualnej.
Modelom przyznaje się ocenę „słabą”, „dostateczną”, „dobrą”, „bardzo dobrą” lub „doskonałą” w zależności od ich wyników. Podpowiedzi używane do testowania modeli są utrzymywane w tajemnicy, aby zapobiec ich przekształceniu się w dane szkoleniowe, które umożliwiłyby modelowi pomyślne przejście testu.
Peter Mattson, założyciel i prezes MLCommons oraz starszy inżynier w Google, twierdzi, że pomiar potencjalnych szkód modeli sztucznej inteligencji jest trudny technicznie, co prowadzi do niespójności w całej branży. „Sztuczna inteligencja to naprawdę młoda technologia, a testowanie sztucznej inteligencji to naprawdę młoda dyscyplina” – mówi. „Poprawa bezpieczeństwa przynosi korzyści społeczeństwu; przynosi to również korzyści rynkowi.”
Wiarygodne, niezależne sposoby pomiaru ryzyka związanego ze sztuczną inteligencją mogą zyskać na znaczeniu pod rządami następnej administracji USA. Donald Trump obiecał pozbyć się zarządzenia wykonawczego prezydenta Bidena dotyczącego sztucznej inteligencji, które wprowadziło środki mające na celu zapewnienie odpowiedzialnego korzystania ze sztucznej inteligencji przez firmy, a także nowy Instytut Bezpieczeństwa AI mający testować potężne modele.
Wysiłki te mogłyby również zapewnić bardziej międzynarodowe spojrzenie na szkody spowodowane sztuczną inteligencją. Do swoich organizacji członkowskich MLCommons zalicza wiele międzynarodowych firm, w tym chińskie firmy Huawei i Alibaba. Gdyby wszystkie te firmy zastosowały nowy punkt odniesienia, umożliwiłby on porównanie bezpieczeństwa sztucznej inteligencji w USA, Chinach i innych krajach.
Niektórzy duzi dostawcy sztucznej inteligencji w USA wykorzystali już AILuminate do testowania swoich modeli. Model Claude firmy Anthropic, mniejszy model Gemma firmy Google i model firmy Microsoft o nazwie Phi uzyskały w testach „bardzo dobre”. Obydwa modele GPT-4o firmy OpenAI i największy model Llama firmy Meta uzyskały oceny „dobre”. Jedynym modelem, który uzyskał ocenę „słabą” był OLMo z Allen Institute for AI, chociaż Mattson zauważa, że jest to oferta badawcza, która nie została zaprojektowana z myślą o bezpieczeństwie.
„Ogólnie rzecz biorąc, dobrze jest widzieć dyscyplinę naukową w procesach oceny sztucznej inteligencji” – mówi Rumman Chowdhury, dyrektor generalny firmy Humanitarna inteligencjaorganizacja non-profit specjalizująca się w testowaniu modeli sztucznej inteligencji lub zespołowaniu ich w celu wykrycia niewłaściwych zachowań. „Potrzebujemy najlepszych praktyk i włączających metod pomiaru, aby określić, czy modele sztucznej inteligencji działają tak, jak tego oczekujemy”.