Nowy chip fotoniczny zaprojektowany przez MIT naukowcy wykonują wszystkie obliczenia głębokich sieci neuronowych optycznie, realizując zadania w czasie krótszym niż nanosekunda z ponad 92% dokładność.
Może to zrewolucjonizować aplikacje komputerowe o dużym zapotrzebowaniu, otwierając drzwi dla szybkich procesorów, które mogą uczyć się w czasie rzeczywistym.
Fotoniczne uczenie maszynowe
Głębokie sieci neuronowe, siła napędowa najbardziej zaawansowanych obecnie aplikacji do uczenia maszynowego, stały się tak duże i złożone, że przesuwają granice tradycyjnego elektronicznego sprzętu komputerowego.
Sprzęt fotoniczny, który do wykonywania obliczeń wykorzystujących uczenie maszynowe wykorzystuje światło zamiast prądu, oferuje szybsze i bardziej energooszczędne rozwiązanie. Jednakże niektóre operacje sieci neuronowej były trudne do osiągnięcia za pomocą urządzeń fotonicznych, co wymuszało poleganie na zewnętrznej elektronice, która spowalniała przetwarzanie i zmniejszała wydajność.
Przełom w technologii chipów fotonicznych
Po dziesięciu latach badań naukowcy z MIT i instytucji współpracujących opracowali przełomowy chip fotoniczny, który pozwala sprostać tym wyzwaniom. Zademonstrowali w pełni zintegrowany procesor fotoniczny, który jest w stanie wykonywać wszystkie niezbędne obliczenia głębokiej sieci neuronowej wyłącznie za pomocą światła, eliminując potrzebę zewnętrznego przetwarzania.
Urządzenie optyczne było w stanie wykonać kluczowe obliczenia w ramach zadania klasyfikacji opartego na uczeniu maszynowym w czasie krótszym niż pół nanosekundy, osiągając przy tym dokładność na poziomie ponad 92% — czyli wydajność porównywalną z tradycyjnym sprzętem.
Fotoniczne sieci neuronowe i ich implikacje
Chip składający się z połączonych ze sobą modułów tworzących optyczną sieć neuronową jest wytwarzany przy użyciu komercyjnych procesów odlewniczych, co mogłoby umożliwić skalowanie technologii i jej integrację z elektroniką.
W dłuższej perspektywie procesor fotoniczny może prowadzić do szybszego i bardziej energooszczędnego głębokiego uczenia się w zastosowaniach wymagających obliczeniowo, takich jak lidarbadania naukowe z zakresu astronomii i fizyki cząstek elementarnych czy szybka telekomunikacja.
Zespół badawczy i perspektywy na przyszłość
„W wielu przypadkach liczy się nie tylko to, jak dobrze model działa, ale także to, jak szybko można uzyskać odpowiedź. Teraz, gdy mamy kompleksowy system, który może obsługiwać sieć neuronową w optyce w skali nanosekundowej, możemy zacząć myśleć na wyższym poziomie o aplikacjach i algorytmach” – mówi Saumil Bandyopadhyay ’17, MEng ’18, Doktor ’23, naukowiec wizytujący w Quantum Photonics and AI Group w Research Laboratory of Electronics (RLE) oraz postdoc w NTT Research, Inc., który jest głównym autorem artykułu na temat nowy chip.
W artykule do Bandyopadhyaya dołączył Alexander Sludds ’18, MEng ’19, PhD ’23; Doktor Nicholas Harris ’17; Doktor Darius Bunandar ’19; Stefan Krastanov, były pracownik naukowy RLE, obecnie adiunkt na Uniwersytecie Massachusetts w Amherst; Ryan Hamerly, naukowiec wizytujący w RLE i starszy naukowiec w NTT Research; Matthew Streshinsky, były dyrektor ds. fotoniki krzemowej w firmie Nokia, obecnie współzałożyciel i dyrektor generalny Enosemi; Michael Hochberg, prezes Periplous, LLC; oraz Dirk Englund, profesor na Wydziale Elektrotechniki i Informatyki, główny badacz Grupy Fotoniki Kwantowej i Sztucznej Inteligencji oraz RLE, a także główny autor artykułu. Wyniki badania opublikowano 2 grudnia br Fotonika Przyrody.
Uczenie maszynowe za pomocą światła
Głębokie sieci neuronowe składają się z wielu połączonych ze sobą warstw węzłów, czyli neuronów, które operują na danych wejściowych w celu wytworzenia danych wyjściowych. Jedna z kluczowych operacji w głębokiej sieci neuronowej polega na wykorzystaniu algebry liniowej do wykonania mnożenia macierzy, które przekształca dane podczas ich przekazywania z warstwy do warstwy.
Jednak oprócz tych operacji liniowych głębokie sieci neuronowe wykonują operacje nieliniowe, które pomagają modelowi uczyć się bardziej skomplikowanych wzorców. Operacje nieliniowe, takie jak funkcje aktywacji, dają głębokim sieciom neuronowym moc rozwiązywania złożonych problemów.
W 2017 roku grupa Englunda wraz z badaczami z laboratorium Marina Soljacica, profesora fizyki Cecila i Idy Green, zademonstrowała optyczną sieć neuronową na pojedynczym chipie fotonicznym, która może wykonywać mnożenie macierzy za pomocą światła.
Jednak w tamtym czasie urządzenie nie mogło wykonywać nieliniowych operacji na chipie. Dane optyczne należało przekształcić w sygnały elektryczne i przesłać do procesora cyfrowego w celu wykonania operacji nieliniowych.
„Nieliniowość w optyce stanowi spore wyzwanie, ponieważ fotony nie oddziałują ze sobą zbyt łatwo. To sprawia, że wyzwalanie nieliniowości optycznych jest bardzo energochłonne, dlatego zbudowanie systemu, który potrafi to zrobić w skalowalny sposób, staje się wyzwaniem” – wyjaśnia Bandyopadhyay.
Pokonali to wyzwanie, projektując urządzenia zwane nieliniowymi jednostkami funkcji optycznych (NOFU), które łączą elektronikę i optykę w celu realizacji nieliniowych operacji na chipie.
Naukowcy zbudowali optyczną głęboką sieć neuronową na chipie fotonicznym, wykorzystując trzy warstwy urządzeń wykonujących operacje liniowe i nieliniowe.
W pełni zintegrowana sieć
Na początku ich system koduje parametry głębokiej sieci neuronowej na światło. Następnie układ programowalnych rozdzielaczy wiązki, co wykazano w artykule z 2017 r., wykonuje na tych wejściach mnożenie macierzy.
Dane są następnie przekazywane do programowalnych układów NOFU, które realizują funkcje nieliniowe, odprowadzając niewielką ilość światła do fotodiod, które przekształcają sygnały optyczne na prąd elektryczny. Proces ten, eliminujący potrzebę stosowania zewnętrznego wzmacniacza, zużywa bardzo mało energii.
„Cały czas pozostajemy w sferze optycznej, aż do samego końca, kiedy chcemy odczytać odpowiedź. Dzięki temu możemy osiągnąć bardzo niskie opóźnienia” – mówi Bandyopadhyay.
Osiągnięcie tak niskiego opóźnienia umożliwiło im efektywne szkolenie głębokiej sieci neuronowej na chipie – proces znany jako szkolenie in situ, które zazwyczaj zużywa ogromną ilość energii w sprzęcie cyfrowym.
„Jest to szczególnie przydatne w systemach, w których przetwarzane są sygnały optyczne w danej dziedzinie, takich jak nawigacja czy telekomunikacja, ale także w systemach, których chcesz się uczyć w czasie rzeczywistym” – mówi.
System fotoniczny osiągnął ponad 96% dokładności podczas testów szkoleniowych i ponad 92% dokładności podczas wnioskowania, co jest porównywalne z tradycyjnym sprzętem. Ponadto chip wykonuje kluczowe obliczenia w czasie krótszym niż pół nanosekundy.
„Ta praca pokazuje, że obliczenia — w swej istocie mapowanie danych wejściowych na wyniki — można wkomponować w nowe architektury fizyki liniowej i nieliniowej, które umożliwiają zasadniczo odmienne prawo skalowania obliczeń w porównaniu z wymaganym nakładem pracy” – mówi Englund.
Cały obwód został wyprodukowany przy użyciu tej samej infrastruktury i procesów odlewniczych, które służą do produkcji chipów komputerowych CMOS. Mogłoby to umożliwić produkcję chipów na dużą skalę przy użyciu sprawdzonych technik, które wprowadzają bardzo mało błędów w procesie produkcyjnym.
Bandyopadhyay twierdzi, że głównym celem przyszłych prac będzie skalowanie urządzenia i integracja go z elektroniką świata rzeczywistego, taką jak kamery czy systemy telekomunikacyjne. Ponadto naukowcy chcą zbadać algorytmy, które mogą wykorzystać zalety optyki do szybszego uczenia systemów i lepszej efektywności energetycznej.
Odniesienie: „Jednochipowa fotoniczna sieć neuronowa z treningiem tylko do przodu” autorstwa Saumila Bandyopadhyaya, Alexandra Sluddsa, Stefana Krastanova, Ryana Hamerly’ego, Nicholasa Harrisa, Dariusa Bunandara, Matthew Streshinsky’ego, Michaela Hochberga i Dirka Englunda, 2 grudnia 2024 r., Fotonika Przyrody.
DOI: 10.1038/s41566-024-01567-z
Badania te zostały częściowo sfinansowane przez amerykańską Narodową Fundację Naukową, Biuro Badań Naukowych Sił Powietrznych Stanów Zjednoczonych i NTT Research.