Anthropic chce, aby jego agent AI kontrolował Twój komputer

Przez

22 października, 2024

Demo agentów AI może wydawać się oszałamiające, ale zapewnienie niezawodnego działania technologii bez irytujących (lub kosztownych) błędów w prawdziwym życiu może być wyzwaniem. Obecne modele potrafią odpowiadać na pytania i rozmawiać z niemal ludzkimi umiejętnościami i stanowią podstawę chatbotów, takich jak ChatGPT OpenAI i Gemini firmy Google. Mogą także wykonywać zadania na komputerze po wydaniu prostego polecenia poprzez dostęp do ekranu komputera i urządzeń wejściowych, takich jak klawiatura i gładzik, lub poprzez interfejsy oprogramowania niskiego poziomu.

Anthropic twierdzi, że Claude przewyższa innych agentów AI w kilku kluczowych testach, w tym Ławka SWEktóry mierzy umiejętności agenta w zakresie tworzenia oprogramowania, oraz OSWorldktóry mierzy zdolność agenta do korzystania z systemu operacyjnego komputera. Twierdzenia nie zostały jeszcze niezależnie zweryfikowane. Anthropic twierdzi, że Claude poprawnie wykonuje zadania w OSWorld w 14,9% przypadków. To znacznie mniej niż w przypadku ludzi, którzy generalnie uzyskują około 75 procent wyników, ale znacznie więcej niż obecnie najlepsi agenci — w tym GPT-4 OpenAI — którym udaje się osiągnąć sukces w około 7,7 procentach przypadków.

Anthropic twierdzi, że kilka firm testuje już agentową wersję Claude. Obejmuje to Canvaktóry wykorzystuje go do automatyzacji zadań związanych z projektowaniem i edycją, oraz Powtórzktóry używa modelu do kodowania zadań. Inni pierwsi użytkownicy to m.in Firma Przeglądarka, AsanaI Pojęcie.

Ofir Pressdoktorant na Uniwersytecie Princeton, który pomógł w opracowaniu SWE-bench, twierdzi, że agentyczna sztuczna inteligencja zwykle nie ma zdolności planowania daleko naprzód i często ma trudności z naprawieniem błędów. „Aby wykazać, że są przydatne, musimy uzyskać dobre wyniki w trudnych i realistycznych testach”, mówi, takich jak niezawodne planowanie szerokiej gamy wycieczek dla użytkownika i rezerwacja wszystkich niezbędnych biletów.

Kaplan zauważa, że Claude potrafi już zaskakująco dobrze rozwiązać niektóre błędy. Na przykład w przypadku wystąpienia błędu terminala podczas próby uruchomienia serwera WWW model wiedział, jak zmienić swoje polecenie, aby go naprawić. Okazało się również, że musiał włączyć wyskakujące okienka, gdy napotkał ślepy zaułek podczas przeglądania sieci.

Wiele firm technologicznych ściga się obecnie w opracowywaniu agentów AI, goniąc za udziałem w rynku i pozycją. W rzeczywistości może nie minąć dużo czasu, zanim wielu użytkowników będzie miało agentów na wyciągnięcie ręki. Microsoft, który wpompował w OpenAI ponad 13 miliardów dolarów, twierdzi, że testuje agentów, którzy mogą korzystać z komputerów z systemem Windows. Amazon, który dużo zainwestował w Anthropic, bada, w jaki sposób agenci mogliby polecać i ostatecznie kupować towary swoim klientom.

Sonya Huang, partnerka w firmie venture Sequoia, która koncentruje się na firmach zajmujących się sztuczną inteligencją, twierdzi, że pomimo całego zamieszania wokół agentów AI, większość firm tak naprawdę po prostu zmienia markę narzędzi opartych na sztucznej inteligencji. W rozmowie z WIRED przed Anthropic News twierdzi, że technologia ta sprawdza się obecnie najlepiej, gdy jest stosowana w wąskich dziedzinach, takich jak prace związane z kodowaniem. „Trzeba wybrać obszary problematyczne, w przypadku których model zawiedzie, nie ma w tym nic złego” – mówi. „To są problematyczne przestrzenie, w których powstaną prawdziwie rodzime firmy agentowe”.

Kluczowym wyzwaniem związanym z agentyczną sztuczną inteligencją jest to, że błędy mogą być znacznie bardziej problematyczne niż zniekształcona odpowiedź chatbota. Anthropic nałożył pewne ograniczenia na to, co może zrobić Claude — na przykład ograniczając możliwość korzystania z karty kredytowej danej osoby do robienia zakupów.

Jeśli uda się wystarczająco uniknąć błędów, twierdzi Press z Princeton University, użytkownicy mogą nauczyć się postrzegać sztuczną inteligencję – i komputery – w zupełnie nowy sposób. „Jestem bardzo podekscytowany tą nową erą” – mówi.

Link źródłowy

PODOBNE ARTYKUŁYWIĘCEJ OD AUTORA

Wyświetlacz Lego spada i rani 10 osób podczas imprezy sylwestrowej w salonie gier w Massachusetts

Kobieta śmiertelnie podpalona w nowojorskim metrze. Zidentyfikowana jako Debrina Kawam, 61-letnia mieszkanka New Jersey

Rynek mieszkaniowy kończy rok 2024 ze zbyt małą podażą

PODOBNE ARTYKUŁY WIĘCEJ OD AUTORA