Strona główna Polityka Matka chrzestna sztucznej inteligencji chce, aby każdy był budowniczym świata

Matka chrzestna sztucznej inteligencji chce, aby każdy był budowniczym świata

12
0


Według zafiksowanych na rynku ekspertów w dziedzinie technologii i zawodowych sceptyków bańka związana ze sztuczną inteligencją pękła i zima wróciła. Fei-Fei Li tego nie kupuje. W rzeczywistości Li – która zasłużyła na przydomek „matki chrzestnej AI” – stawia na coś wręcz przeciwnego. Jest na urlopie w niepełnym wymiarze godzin na Uniwersytecie Stanforda, aby być współzałożycielką firmy o nazwie Światowe laboratoria. Chociaż obecna generatywna sztuczna inteligencja opiera się na języku, widzi granicę, w której systemy konstruują kompletne światy z fizyką, logiką i bogatymi szczegółami naszej fizycznej rzeczywistości. To ambitny cel i pomimo ponurych nabobów, którzy twierdzą, że postęp w sztucznej inteligencji osiągnął ponury poziom, World Labs jest na dobrej drodze do finansowania. Startupowi prawdopodobnie za rok będzie gotowy produkt – i nie jest jasne, jak dobrze będzie działał, kiedy i czy w ogóle pojawi się – ale inwestorzy zainwestowali 230 milionów dolarów i są podobno ceni rodzący się start-up wart miliard dolarów.

Mniej więcej dziesięć lat temu Li pomógł sztucznej inteligencji zmienić sytuację, tworząc ImageNet – dostosowaną do potrzeb bazę danych zawierającą obrazy cyfrowe, która umożliwiła znaczne udoskonalenie sieci neuronowych. Jej zdaniem dzisiejsze modele uczenia głębokiego wymagają podobnego wsparcia, jeśli sztuczna inteligencja ma tworzyć rzeczywiste światy, niezależnie od tego, czy są to realistyczne symulacje, czy całkowicie wyimaginowane wszechświaty. Przyszły George RR Martins może komponować swoje wyimaginowane światy w formie wskazówek, a nie prozy, które następnie będziesz mógł renderować i po nich wędrować. „Świat fizyczny komputerów można oglądać za pomocą kamer, a mózg komputera za kamerami” – mówi Li. „Przekształcenie tej wizji w rozumowanie, generowanie i ostateczną interakcję wymaga zrozumienia struktury fizycznej, fizycznej dynamiki świata fizycznego. A ta technologia nazywa się inteligencją przestrzenną. World Labs nazywa siebie firmą zajmującą się wywiadem przestrzennym, a jej los pomoże określić, czy to określenie stanie się rewolucją, czy puentą.

Li od lat ma obsesję na punkcie inteligencji przestrzennej. Podczas gdy wszyscy wściekali się na ChatGPT, ona i były student Justin Johnson podekscytowani rozmawiali przez telefon na temat kolejnej iteracji sztucznej inteligencji. „Następna dekada będzie polegać na generowaniu nowych treści, które wyjmą wizję komputerową, głębokie uczenie się i sztuczną inteligencję ze świata Internetu i osadzą je w przestrzeni i czasie” – mówi Johnson, obecnie adiunkt na Uniwersytecie Michigan .

Li zdecydował się założyć firmę na początku 2023 r., po kolacji z Martinem Casado, pionierem sieci wirtualnych, który jest obecnie partnerem w Andreessen Horowitz. To firma VC znana z niemal mesjańskiego podejścia do sztucznej inteligencji. Casado postrzega sztuczną inteligencję jako podążającą podobną ścieżką jak gry komputerowe, które zaczynały się od tekstu, następnie przeszły do ​​grafiki 2D, a teraz mają olśniewające obrazy 3D. Inteligencja przestrzenna będzie motorem zmian. W końcu, mówi: „Możesz wziąć swoją ulubioną książkę, wrzucić ją do modelu, a potem dosłownie w nią wejść i obserwować, jak rozgrywa się w czasie rzeczywistym, w wciągający sposób” – mówi. Casado i Li zgodzili się, że pierwszym krokiem do osiągnięcia tego celu jest przejście od dużych modeli językowych do dużych świat modele.

Li zaczął tworzyć zespół, którego współzałożycielem był Johnson. Casado zasugerował dwie dodatkowe osoby – jedną z nich był Christoph Lassner, który pracował w Amazon, Meta’s Reality Labs i Epic Games. Jest wynalazcą Pulsaraschemat renderowania, który doprowadził do powstania słynnej techniki zwanej Rozpryski gaussowskie 3D. To brzmi jak występ niezależnego zespołu na imprezie z togami w MIT, ale w rzeczywistości jest to sposób na syntezę scen, a nie jednorazowych obiektów. Inną sugestią Casado był Ben Mildenhall, który stworzył potężną technikę zwaną NeRF – neuronowe pola promieniowania – która przekształca obrazy pikselowe 2D w grafikę 3D. „Przenieśliśmy obiekty ze świata rzeczywistego do rzeczywistości wirtualnej i sprawiliśmy, że wyglądają idealnie realnie” – mówi. Opuścił stanowisko starszego naukowca w Google, aby dołączyć do zespołu Li.

Jednym z oczywistych celów dużego modelu świata byłoby zaszczepienie robotom zmysłu świata. Rzeczywiście jest to w planie World Labs, ale nie na jakiś czas. Pierwsza faza polega na budowaniu modelu z głębokim zrozumieniem trójwymiarowości, fizyczności oraz pojęć przestrzeni i czasu. Następnie nadejdzie faza, w której modele obsługują rzeczywistość rozszerzoną. Potem firma może zająć się robotyką. Jeśli ta wizja zostanie zrealizowana, modele wielkiego świata udoskonalą samochody autonomiczne, zautomatyzowane fabryki, a może nawet humanoidalne roboty.



Link źródłowy