W zeszłym miesiącu Google Pokazał to model AI GameNGen uogólnione techniki dyfuzji obrazu można się do tego przyzwyczaić wygeneruj przejezdną, grywalną wersję Los. Teraz badacze wykorzystują podobne techniki w modelu MarioVGG, aby sprawdzić, czy sztuczna inteligencja może wygenerować wiarygodne wideo Super Mario Bros. w odpowiedzi na dane wejściowe użytkownika.
Wyniki modelu MarioVGG-dostępny jako papier do przeddruku opublikowane przez sąsiadującą z kryptowalutą firmę AI Protokół wirtualny— nadal wyświetla wiele widocznych błędów i jest zbyt powolny, aby można było grać w gry w czasie rzeczywistym. Wyniki pokazują jednak, że nawet ograniczony model może wywnioskować imponującą fizykę i dynamikę rozgrywki po prostu na podstawie analizy odrobiny wideo i danych wejściowych.
Naukowcy mają nadzieję, że stanowi to pierwszy krok w kierunku „wyprodukowania i zademonstrowania niezawodnego i sterowalnego generatora gier wideo” lub być może nawet „całkowitego zastąpienia tworzenia gier i silników gier przy użyciu modeli generowania wideo” w przyszłości.
Oglądanie 737 000 klatek Mario
Aby wytrenować swój model, badacze MarioVGG (użytkownicy GitHub Erniechew I Briana Lima są wymienieni jako współautorzy) rozpoczynających się od a publiczny zbiór danych z Super Mario Bros. rozgrywka zawierająca 280 „poziomów” danych wejściowych i obrazów uporządkowanych na potrzeby uczenia maszynowego (poziomy 1-1 zostały usunięte z danych szkoleniowych, aby można było wykorzystać ich obrazy w ocenie). Ponad 737 000 pojedynczych klatek w tym zbiorze danych zostało „wstępnie przetworzonych” na 35-klatkowe fragmenty, dzięki czemu model mógł zacząć uczyć się, jak ogólnie wyglądają bezpośrednie wyniki różnych danych wejściowych.
Aby „uprościć rozgrywkę”, badacze postanowili skupić się tylko na dwóch potencjalnych danych wejściowych w zbiorze danych: „biegnij w prawo” oraz „biegnij w prawo i skacz”. Nawet ten ograniczony zestaw ruchów stwarzał jednak pewne trudności dla systemu uczenia maszynowego, ponieważ preprocesor musiał spojrzeć wstecz przez kilka klatek przed skokiem, aby dowiedzieć się, czy i kiedy rozpoczął się „bieg”. Wszelkie skoki, które obejmowały regulację w powietrzu (tj. przycisk „w lewo”) również musiały zostać wyrzucone, ponieważ „wprowadziłoby to szum do zbioru danych szkoleniowych” – piszą naukowcy.
Po wstępnym przetworzeniu (i około 48 godzinach szkolenia na jednej karcie graficznej RTX 4090) badacze wykorzystali standardowy skręt I odszumianie proces generowania nowych klatek wideo na podstawie statycznego obrazu gry początkowej i wprowadzonego tekstu (w tym ograniczonym przypadku „uruchom” lub „skocz”). Chociaż wygenerowane sekwencje trwają tylko kilka klatek, ostatnią klatkę jednej sekwencji można wykorzystać jako pierwszą z nowej sekwencji, co w praktyce umożliwia utworzenie filmów o dowolnej długości, które nadal pokazują „spójną i konsekwentną rozgrywkę” – twierdzą badacze.
Super Mario 0,5
Nawet przy całej tej konfiguracji MarioVGG nie generuje jedwabiście gładkiego obrazu, którego nie da się odróżnić od prawdziwej gry na NES. Aby zwiększyć wydajność, badacze zmniejszyli klatki wyjściowe z rozdzielczości NES 256×240 do znacznie bardziej zagmatwanej rozdzielczości 64×48. Kondensują także czas wideo składający się z 35 klatek w zaledwie siedem wygenerowanych klatek, które są rozmieszczone „w równych odstępach czasu”, tworząc wideo z rozgrywki, które wygląda znacznie gorzej niż rzeczywista produkcja gry.
Pomimo tych ograniczeń, model MarioVGG wciąż ma trudności z osiągnięciem na tym etapie możliwości generowania wideo w czasie rzeczywistym. Wygenerowanie sekwencji wideo składającej się z sześciu klatek, co stanowiło nieco ponad pół sekundy materiału wideo używanego przez badaczy, zajmowało badaczom całe sześć sekund, nawet przy wyjątkowo ograniczonej liczbie klatek na sekundę. Naukowcy przyznają, że jest to „niepraktyczne i przyjazne dla interaktywnych gier wideo”, ale mają nadzieję, że przyszłe optymalizacje kwantyzacji wagowej (i być może wykorzystanie większej liczby zasobów obliczeniowych) mogą poprawić ten wskaźnik.
Mając jednak na uwadze te ograniczenia, MarioVGG może stworzyć całkiem wiarygodne wideo przedstawiające Mario biegnącego i skaczącego ze statycznego obrazu początkowego, podobnego do Twórca gier Google Genie. Model był nawet w stanie „nauczyć się fizyki gry wyłącznie z klatek wideo zawartych w danych treningowych, bez żadnych wyraźnych, zakodowanych na stałe reguł” – piszą naukowcy. Obejmuje to wnioskowanie o zachowaniach, takich jak upadek Mario, gdy zbiega z krawędzi urwiska (z wiarygodną grawitacją) i (zwykle) wstrzymywanie ruchu Mario do przodu, gdy sąsiaduje z przeszkodą – piszą naukowcy.
Podczas gdy MarioVGG skupiało się na symulowaniu ruchów Mario, badacze odkryli, że system może skutecznie wywoływać halucynacje dla Mario, gdy film przewija się przez wyimaginowany poziom. Przeszkody te „są spójne z graficznym językiem gry” – piszą badacze, ale obecnie nie można na nie wpływać podpowiedziami użytkownika (np. postawić przed Mario dołu i zmusić go do przeskoczenia).
Po prostu to uzupełnij
Jednak, podobnie jak wszystkie probabilistyczne modele sztucznej inteligencji, MarioVGG ma frustrującą tendencję do dawania czasami całkowicie bezużytecznych wyników. Czasami oznacza to po prostu ignorowanie podpowiedzi użytkownika („zaobserwujemy, że tekst akcji wejściowej nie jest przez cały czas wykonywany” – piszą badacze). To znaczy, że innym razem halucynacje oczywiste błędy wizualne: Mario czasami ląduje wewnątrz przeszkód, przebiega przez przeszkody i wrogów, miga różnymi kolorami, kurczy się/powiększa z klatki na klatkę lub całkowicie znika na wiele klatek, zanim ponownie się pojawi.
Jeden szczególnie absurdalny film udostępniony przez badaczy pokazuje, jak Mario spada z mostu, staje się Cheep-Cheepem, a następnie leci z powrotem przez mosty i ponownie przekształca się w Mario. Tego właśnie spodziewalibyśmy się po Wonder Flower, a nie po filmie opartym na sztucznej inteligencji, przedstawiającym oryginał Super Mario Bros.
Naukowcy przypuszczają, że dłuższe szkolenie na „bardziej zróżnicowanych danych dotyczących rozgrywki” może pomóc w rozwiązaniu tych znaczących problemów i pomóc ich modelowi symulować coś więcej niż tylko bieganie i skakanie nieubłaganie w prawo. Mimo to MarioVGG stanowi zabawny dowód na to, że nawet ograniczone dane szkoleniowe i algorytmy mogą stworzyć przyzwoite modele początkowe podstawowych gier.
Ta historia pierwotnie pojawiła się w Ars Technica.