Najbardziej wydajny model sztucznej inteligencji o otwartym kodzie źródłowym z możliwościami wizualnymi, jak dotąd, może pozwolić większej liczbie programistów, badaczy i start-upów opracowywać agentów sztucznej inteligencji, którzy będą mogli wykonywać za Ciebie przydatne prace na Twoich komputerach.
Wydany dzisiaj przez Allen Institute for AI (Ai2), plik Multimodalny model języka otwartegolub Molmo, może interpretować obrazy, a także rozmawiać za pośrednictwem interfejsu czatu. Oznacza to, że może zrozumieć ekran komputera, potencjalnie pomagając agentowi sztucznej inteligencji w wykonywaniu zadań, takich jak przeglądanie sieci, nawigowanie po katalogach plików i tworzenie dokumentów.
„Dzięki tej wersji znacznie więcej osób będzie mogło wdrożyć model multimodalny” – mówi Ali Farhadidyrektor generalny Ai2, organizacji badawczej z siedzibą w Seattle w stanie Waszyngton i informatyk na Uniwersytecie Waszyngtońskim. „Powinno to umożliwiać tworzenie aplikacji nowej generacji”.
Tak zwani agenci AI są powszechnie reklamowani jako kolejna wielka rzecz w AI, a OpenAI, Google i inne firmy ścigają się, aby je opracować. Agenci stali się ostatnio modnym hasłem, ale ogólna wizja jest taka, że sztuczna inteligencja wykracza daleko poza czat i niezawodnie podejmuje złożone i wyrafinowane działania na komputerach po wydaniu polecenia. Ta zdolność nie została jeszcze zmaterializowana na jakąkolwiek skalę.
Niektóre potężne modele sztucznej inteligencji mają już możliwości wizualne, w tym GPT-4 z OpenAI, Claude z Anthropic i Gemini z Google DeepMind. Modeli tych można używać do zasilania niektórych eksperymentalnych agentów sztucznej inteligencji, ale są one ukryte i dostępne wyłącznie za pośrednictwem płatnego interfejsu programowania aplikacji, czyli API.
Meta wypuściła rodzinę modeli sztucznej inteligencji o nazwie Llama na licencji ograniczającej ich komercyjne wykorzystanie, ale nie udostępniła jeszcze programistom wersji multimodalnej. Oczekuje się, że Meta ogłosi dziś podczas wydarzenia Connect kilka nowych produktów, być może w tym nowe modele Llama AI.
„Posiadanie modelu multimodalnego typu open source oznacza, że każdy startup lub badacz, który ma pomysł, może spróbować go zrealizować” – mówi Ofir Presspostdoc na Uniwersytecie Princeton, który pracuje nad agentami AI.
Press twierdzi, że fakt, że Molmo jest oprogramowaniem typu open source, oznacza, że programiści będą mogli łatwiej dostroić swoich agentów do określonych zadań, takich jak praca z arkuszami kalkulacyjnymi, poprzez dostarczanie dodatkowych danych szkoleniowych. Modele takie jak GPT-4 można dostrajać jedynie w ograniczonym stopniu za pomocą interfejsów API, podczas gdy model w pełni otwarty można w znacznym stopniu modyfikować. „Kiedy masz taki model open source, masz o wiele więcej opcji” – mówi Press.
Ai2 wypuszcza dziś Molmo w kilku rozmiarach, w tym model z 70 miliardami parametrów i model z 1 miliardem parametrów, który jest wystarczająco mały, aby można go było uruchomić na urządzeniu mobilnym. Liczba parametrów modelu odnosi się do liczby jednostek, które zawiera do przechowywania danych i manipulowania nimi i w przybliżeniu odpowiada jego możliwościom.
Ai2 twierdzi, że Molmo ma takie same możliwości, jak znacznie większe modele komercyjne, pomimo stosunkowo niewielkich rozmiarów, ponieważ został starannie przeszkolony w oparciu o dane wysokiej jakości. Nowy model jest także w pełni open source, ponieważ w przeciwieństwie do Lamy Meta, nie ma żadnych ograniczeń w jego użyciu. Ai2 publikuje także dane szkoleniowe wykorzystane do stworzenia modelu, dostarczając badaczom więcej szczegółów na temat jego działania.
Wypuszczenie potężnych modeli nie jest pozbawione ryzyka. Takie modele można łatwiej zaadaptować do nikczemnych celów; pewnego dnia możemy na przykład być świadkami pojawienia się złośliwych agentów sztucznej inteligencji zaprojektowanych w celu automatyzacji hakowania systemów komputerowych.
Farhadi z Ai2 argumentuje, że wydajność i przenośność Molmo umożliwi programistom tworzenie potężniejszych agentów oprogramowania, które będą działać natywnie na smartfonach i innych urządzeniach przenośnych. „Model miliarda parametrów radzi sobie obecnie na poziomie lub w lidze modeli co najmniej 10 razy większych” – mówi.
Budowanie przydatnych agentów AI może jednak zależeć od czegoś więcej niż tylko bardziej wydajnych modeli multimodalnych. Kluczowym wyzwaniem jest zwiększenie niezawodności działania modeli. Może to wymagać dalszych przełomów w zdolnościach rozumowania sztucznej inteligencji – jest to coś, z czym OpenAI stara się sobie poradzić w swoim najnowszym modelu o1, który demonstruje umiejętności rozumowania krok po kroku. Następnym krokiem może być nadanie modelom multimodalnym takich zdolności rozumowania.
Na razie wydanie Molmo oznacza, że agenci AI są bliżej niż kiedykolwiek i wkrótce mogą być przydatni nawet poza gigantami rządzącymi światem sztucznej inteligencji.