Naukowcy z MIT i MIT-IBM Watson AI Lab opracowali nowatorską metodę nawigacji AI, która konwertuje dane wizualne na opisy językowe, aby pomóc robotom w wykonywaniu złożonych zadań.
Podejście to wykorzystuje model dużego języka do generowania syntetycznych danych szkoleniowych i podejmowania decyzji nawigacyjnych na podstawie danych wejściowych językowych. Chociaż nie przewyższa modeli opartych na grafice, ma tę zaletę, że wymaga mniej zasobów i jest łatwiejszy w dostosowaniu do różnych zadań i środowisk.
Któregoś dnia możesz chcieć, aby Twój domowy robot zniósł na dół brudne ubrania i wrzucił je do pralki w lewym rogu piwnicy. Robot będzie musiał połączyć Twoje instrukcje z obserwacjami wizualnymi, aby określić kroki, jakie powinien wykonać, aby wykonać to zadanie.
W przypadku agenta AI łatwiej to powiedzieć, niż zrobić. Obecne podejścia często wykorzystują wiele ręcznie opracowanych modeli uczenia maszynowego do rozwiązywania różnych części zadania, których zbudowanie wymaga dużego wysiłku i wiedzy ludzkiej. Metody te, które wykorzystują reprezentacje wizualne do bezpośredniego podejmowania decyzji nawigacyjnych, wymagają ogromnych ilości danych wizualnych do szkolenia, które często są trudne do zdobycia.
Integracja modeli językowych w celu usprawnienia nawigacji
Aby pokonać te wyzwania, naukowcy z MIT i MIT-IBM Watson AI Lab opracowali metodę nawigacji, która przekształca reprezentacje wizualne w fragmenty języka, które następnie są wprowadzane do jednego dużego modelu językowego, który realizuje wszystkie części wieloetapowego zadania nawigacji.
Zamiast kodować cechy wizualne z obrazów otoczenia robota jako reprezentacje wizualne, co wymaga intensywnych obliczeń, ich metoda tworzy podpisy tekstowe opisujące punkt widzenia robota. Duży model językowy wykorzystuje podpisy do przewidywania działań, jakie powinien podjąć robot, aby spełnić instrukcje użytkownika oparte na języku.
Ponieważ ich metoda wykorzystuje reprezentacje oparte wyłącznie na języku, mogą używać dużego modelu językowego do wydajnego generowania ogromnej ilości syntetycznych danych szkoleniowych.
Chociaż to podejście nie przewyższa technik wykorzystujących cechy wizualne, sprawdza się dobrze w sytuacjach, w których brakuje wystarczających danych wizualnych do szkolenia. Naukowcy odkryli, że połączenie danych wejściowych opartych na języku z sygnałami wizualnymi prowadzi do lepszej wydajności nawigacji.
„Wykorzystując wyłącznie język jako reprezentację percepcyjną, nasze podejście jest prostsze. Ponieważ wszystkie dane wejściowe można zakodować w języku, możemy wygenerować trajektorię zrozumiałą dla człowieka” – mówi Bowen Pan, absolwent elektrotechniki i informatyki (EECS) oraz główny autor artykułu na temat tego podejścia.
Współautorami Pana są jego doradca Aude Oliva, dyrektor ds. strategicznego zaangażowania branży w MIT Schwarzman College of Computing, dyrektor MIT-IBM Watson AI Lab oraz starszy pracownik naukowy w Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL); Philip Isola, profesor nadzwyczajny EECS i członek CSAIL; starszy autor Yoon Kim, adiunkt w EECS i członek CSAIL; i inni w MIT-IBM Watson AI Lab i Dartmouth College. Wyniki badań zostaną zaprezentowane na Konferencji Północnoamerykańskiego Oddziału Association for Computational Linguistics.
Rozwiązywanie problemu wzroku za pomocą języka
Ponieważ duże modele językowe są najpotężniejszymi dostępnymi modelami uczenia maszynowego, badacze starali się włączyć je do złożonego zadania zwanego nawigacją wzrokowo-językową, mówi Pan.
Jednak takie modele pobierają dane tekstowe i nie mogą przetwarzać danych wizualnych z kamery robota. Dlatego zespół musiał znaleźć sposób na użycie języka.
Ich technika wykorzystuje prosty model napisów w celu uzyskania tekstowych opisów obserwacji wizualnych robota. Podpisy te są łączone z instrukcjami językowymi i wprowadzane do dużego modelu językowego, który decyduje, jaki krok nawigacyjny powinien wykonać robot.
Duży model językowy wyświetla podpis sceny, którą robot powinien zobaczyć po ukończeniu tego kroku. Służy do aktualizowania historii trajektorii, dzięki czemu robot może śledzić, gdzie się znajdował.
Projektowanie przyjaznej dla użytkownika nawigacji AI
Model powtarza te procesy, aby wygenerować trajektorię, która prowadzi robota do celu, krok po kroku.
Aby usprawnić proces, badacze zaprojektowali szablony, dzięki czemu informacje z obserwacji są przedstawiane modelowi w standardowej formie – jako seria wyborów, których robot może dokonać na podstawie otoczenia.
Na przykład podpis może brzmieć: „Po lewej stronie, pod kątem 30 stopni, znajdują się drzwi, a obok nich roślina doniczkowa, za twoimi plecami znajduje się małe biuro z biurkiem i komputerem” itp. Model wybiera, czy robot powinien ruszyć w kierunku drzwi lub biuro.
„Jednym z największych wyzwań było znalezienie sposobu zakodowania tego rodzaju informacji na język w odpowiedni sposób, aby agent zrozumiał, jakie jest zadanie i jak powinien zareagować” – mówi Pan.
Zalety języka
Kiedy przetestowali to podejście, choć nie było ono skuteczniejsze od technik opartych na wizji, odkryli, że ma ono kilka zalet.
Po pierwsze, ponieważ synteza tekstu wymaga mniej zasobów obliczeniowych niż złożone dane obrazu, ich metodę można wykorzystać do szybkiego generowania syntetycznych danych szkoleniowych. W jednym teście wygenerowali 10 000 syntetycznych trajektorii w oparciu o 10 rzeczywistych, wizualnych trajektorii.
Technika ta może również wypełnić lukę, która może uniemożliwić agentowi przeszkolonemu w symulowanym środowisku dobre działanie w świecie rzeczywistym. Ta luka często występuje, ponieważ obrazy wygenerowane komputerowo mogą wyglądać zupełnie inaczej niż sceny ze świata rzeczywistego ze względu na takie elementy, jak oświetlenie lub kolor. Jednak język opisujący obraz syntetyczny i rzeczywisty byłby znacznie trudniejszy do odróżnienia, mówi Pan.
Ponadto reprezentacje, których używa ich model, są łatwiejsze do zrozumienia dla człowieka, ponieważ są napisane w języku naturalnym.
„Jeśli agentowi nie uda się osiągnąć celu, możemy łatwiej określić, gdzie i dlaczego się nie udało. Być może informacje historyczne nie są wystarczająco jasne lub obserwacja ignoruje pewne ważne szczegóły” – mówi Pan.
Ponadto ich metodę można łatwiej zastosować do różnych zadań i środowisk, ponieważ wykorzystuje tylko jeden rodzaj danych wejściowych. Dopóki dane mogą być zakodowane w języku, mogą używać tego samego modelu bez dokonywania jakichkolwiek modyfikacji.
Jednak wadą tej metody jest to, że w ich metodzie w naturalny sposób traci się pewne informacje, które mogłyby zostać wychwycone przez modele oparte na wizji, np. informacje o głębokości.
Jednak badacze byli zaskoczeni, widząc, że połączenie reprezentacji opartych na języku z metodami opartymi na wizji poprawia zdolność agenta do nawigacji.
„Być może oznacza to, że język może uchwycić informacje wyższego poziomu, których nie można uchwycić za pomocą funkcji czysto wzrokowych” – mówi.
Jest to jeden z obszarów, który badacze chcą kontynuować. Chcą także opracować napisy zorientowane na nawigację, które mogłyby zwiększyć wydajność tej metody. Ponadto chcą zbadać zdolność dużych modeli językowych do wykazywania świadomości przestrzennej i zobaczyć, jak mogłoby to pomóc w nawigacji opartej na języku.
Odniesienie: „LangNav: Język jako percepcyjna reprezentacja dla nawigacji” Bowen Pan, Rameswar Panda, SouYoung Jin, Rogerio Feris, Aude Oliva, Phillip Isola i Yoon Kim, 30 marca 2024 r., Informatyka > Widzenie komputerowe i rozpoznawanie wzorców.
arXiv:2310.07889
Badania te są częściowo finansowane przez laboratorium MIT-IBM Watson AI Lab.