MIT badacze wprowadzili wydajny algorytm uczenia się przez wzmacnianie, który usprawnia proces decyzyjny sztucznej inteligencji w złożonych scenariuszach, takich jak kontrola ruchu miejskiego.
Strategicznie wybierając optymalne zadania do szkolenia, algorytm osiąga znacznie lepszą wydajność przy znacznie mniejszej ilości danych, oferując 50-krotny wzrost wydajności. Ta metoda nie tylko oszczędza czas i zasoby, ale także toruje drogę dla bardziej efektywnych zastosowań sztucznej inteligencji w rzeczywistych warunkach.
Podejmowanie decyzji przez sztuczną inteligencję
W dziedzinach takich jak robotyka, medycyna i nauki polityczne naukowcy pracują nad szkoleniem systemów sztucznej inteligencji, aby mogły podejmować znaczące i wpływowe decyzje. Na przykład system sztucznej inteligencji zaprojektowany do zarządzania ruchem w zatłoczonym mieście mógłby pomóc kierowcom szybciej dotrzeć do celu, jednocześnie zwiększając bezpieczeństwo i zrównoważony rozwój.
Jednak nauczenie sztucznej inteligencji podejmowania skutecznych decyzji jest złożonym wyzwaniem.
Wyzwania w uczeniu się ze wzmocnieniem
Modele uczenia się przez wzmacnianie, będące podstawą wielu systemów decyzyjnych AI, często borykają się z trudnościami w obliczu nawet niewielkich zmian w zadaniach, do których są przeszkoleni. Na przykład w zarządzaniu ruchem model może zawieść podczas obsługi skrzyżowań o różnych ograniczeniach prędkości, konfiguracjach pasów ruchu lub wzorcach ruchu.
Aby zwiększyć niezawodność modeli uczenia się przez wzmacnianie w przypadku złożonych zadań charakteryzujących się zmiennością, badacze z MIT wprowadzili wydajniejszy algorytm ich uczenia.
Strategiczny wybór zadań w szkoleniu AI
Algorytm strategicznie wybiera najlepsze zadania do szkolenia agenta AI, aby mógł efektywnie wykonywać wszystkie zadania ze zbioru powiązanych zadań. W przypadku sterowania sygnalizacją świetlną każde zadanie może być jednym skrzyżowaniem w przestrzeni zadaniowej obejmującej wszystkie skrzyżowania w mieście.
Koncentrując się na mniejszej liczbie przecięć, które w największym stopniu przyczyniają się do ogólnej efektywności algorytmu, metoda ta maksymalizuje wydajność, utrzymując jednocześnie niskie koszty szkolenia.
Zwiększanie wydajności sztucznej inteligencji za pomocą prostego algorytmu
Naukowcy odkryli, że zastosowana przez nich technika była od pięciu do 50 razy skuteczniejsza niż standardowe podejścia w przypadku szeregu symulowanych zadań. Ten wzrost wydajności pomaga algorytmowi szybciej nauczyć się lepszego rozwiązania, co ostatecznie poprawia wydajność agenta AI.
„Dzięki nieszablonowemu podejściu udało nam się zaobserwować niesamowitą poprawę wydajności dzięki bardzo prostemu algorytmowi. Algorytm, który nie jest bardzo skomplikowany, ma większe szanse na przyjęcie przez społeczność, ponieważ jest łatwiejszy do wdrożenia i łatwiejszy do zrozumienia dla innych” – mówi starsza autorka Cathy Wu, profesor nadzwyczajny ds. rozwoju kariery Thomasa D. i Virginii W. Cabot w Inżynierii Lądowej i Środowiska (CEE) oraz w Instytucie Danych, Systemów i Społeczeństwa (IDSS) oraz członek Laboratorium Systemów Informacyjnych i Decyzji (LIDS).
W artykule towarzyszy jej główna autorka Jung-Hoon Cho, absolwentka z Europy Środkowo-Wschodniej; Vindula Jayawardana, absolwentka Wydziału Elektrotechniki i Informatyki (EECS); oraz Sirui Li, absolwentka IDSS. Wyniki badań zostaną zaprezentowane na Konferencji poświęconej systemom przetwarzania informacji neuronowych.
Podejścia do treningu równoważącego
Aby wytrenować algorytm do sterowania sygnalizacją świetlną na wielu skrzyżowaniach w mieście, inżynier zazwyczaj wybiera jedno z dwóch głównych podejść. Może wytrenować jeden algorytm niezależnie dla każdego skrzyżowania, korzystając tylko z danych tego skrzyżowania, lub wytrenować większy algorytm, korzystając z danych ze wszystkich skrzyżowań, a następnie zastosować go do każdego z nich.
Ale każde podejście ma swoje wady. Uczenie osobnego algorytmu dla każdego zadania (np. danego skrzyżowania) jest procesem czasochłonnym, wymagającym ogromnej ilości danych i obliczeń, podczas gdy uczenie jednego algorytmu dla wszystkich zadań często prowadzi do niskiej wydajności.
Wu i jej współpracownicy szukali złotego środka pomiędzy tymi dwoma podejściami.
Zalety uczenia się transferowego w oparciu o model
Dla swojej metody wybierają podzbiór zadań i trenują jeden algorytm dla każdego zadania niezależnie. Co ważne, strategicznie wybierają poszczególne zadania, które z największym prawdopodobieństwem poprawią ogólną wydajność algorytmu we wszystkich zadaniach.
Wykorzystują popularną sztuczkę z dziedziny uczenia się przez wzmacnianie, zwaną uczeniem się z transferem zerowym, w której już wyszkolony model jest stosowany do nowego zadania bez dalszego szkolenia. Dzięki uczeniu transferowemu model często radzi sobie wyjątkowo dobrze z zadaniem nowego sąsiada.
„Wiemy, że idealnie byłoby trenować w zakresie wszystkich zadań, ale zastanawialiśmy się, czy nie moglibyśmy obejść się bez szkolenia w zakresie podzbioru tych zadań, zastosować wyniki do wszystkich zadań i mimo to zaobserwować wzrost wydajności” – mówi Wu.
Algorytm MBTL: optymalizacja wyboru zadań
Aby określić, które zadania powinni wybrać, aby zmaksymalizować oczekiwaną wydajność, badacze opracowali algorytm zwany uczeniem się transferowym opartym na modelu (MBTL).
Algorytm MBTL składa się z dwóch części. Po pierwsze, modeluje skuteczność każdego algorytmu, gdyby był szkolony niezależnie w ramach jednego zadania. Następnie modeluje, jak bardzo wydajność każdego algorytmu uległaby pogorszeniu, gdyby została przeniesiona do każdego innego zadania, co jest koncepcją znaną jako wydajność generalizacji.
Jawne modelowanie wydajności generalizacji pozwala MBTL oszacować wartość szkolenia w zakresie nowego zadania.
MBTL robi to sekwencyjnie, wybierając najpierw zadanie, które prowadzi do największego wzrostu wydajności, a następnie wybierając dodatkowe zadania, które zapewniają największą później marginalną poprawę ogólnej wydajności.
Ponieważ MBTL koncentruje się tylko na najbardziej obiecujących zadaniach, może radykalnie poprawić efektywność procesu szkoleniowego.
Konsekwencje dla przyszłego rozwoju sztucznej inteligencji
Kiedy naukowcy przetestowali tę technikę na symulowanych zadaniach, w tym kontrolowaniu sygnalizacji świetlnej, zarządzaniu zaleceniami dotyczącymi prędkości w czasie rzeczywistym i wykonywaniu kilku klasycznych zadań kontrolnych, okazała się ona od pięciu do 50 razy skuteczniejsza niż inne metody.
Oznacza to, że mogliby osiągnąć to samo rozwiązanie, szkoląc się na znacznie mniejszej liczbie danych. Na przykład, przy 50-krotnym wzroście wydajności, algorytm MBTL może trenować tylko dwa zadania i osiągać taką samą wydajność jak standardowa metoda, która wykorzystuje dane ze 100 zadań.
„Z punktu widzenia dwóch głównych podejść oznacza to, że dane z pozostałych 98 zadań nie były potrzebne lub że szkolenie dotyczące wszystkich 100 zadań wprowadza algorytm w błąd, przez co wydajność jest gorsza niż nasza” – mówi Wu.
Dzięki MBTL dodanie nawet niewielkiej ilości dodatkowego czasu na szkolenie może prowadzić do znacznie lepszych wyników.
W przyszłości badacze planują zaprojektować algorytmy MBTL, które można zastosować do bardziej złożonych problemów, takich jak wielowymiarowe przestrzenie zadań. Są także zainteresowani zastosowaniem swojego podejścia do problemów świata rzeczywistego, zwłaszcza w systemach mobilności nowej generacji.
Odniesienie: „Uczenie się transferu oparte na modelu na potrzeby uczenia się ze wzmocnieniem kontekstowym” autorstwa Jung-Hoon Cho, Vinduli Jayawardana, Sirui Li i Cathy Wu, 21 listopada 2024 r., Informatyka > Uczenie maszynowe.
arXiv:2408.04498
Badania są częściowo finansowane przez nagrodę National Science Foundation CAREER, program stypendialny doktorancki Kwanjeong Educational Foundation oraz stypendium doktoranckie Amazon Robotics.