W 2025 r. będziemy świadkami wykorzystania sztucznej inteligencji i uczenia maszynowego do osiągnięcia rzeczywistego postępu w zrozumieniu komunikacji między zwierzętami, odpowiadając na pytanie, które nurtuje ludzi od naszego istnienia: „Co mówią do siebie zwierzęta?” Niedawne Nagroda Collera-Dolittle’aoferująca nagrody pieniężne o wartości do pół miliona dolarów naukowcom, którzy „złamią kod”, wskazuje na optymistyczną pewność, że najnowsze osiągnięcia technologiczne w zakresie uczenia maszynowego i dużych modeli językowych (LLM) sprawiają, że cel ten jest w zasięgu ręki.
Wiele grup badawczych od lat pracuje nad algorytmami pozwalającymi na zrozumienie odgłosów zwierząt. Na przykład Project Ceti dekodował klikające pociągi kaszalotów i pieśni humbaków. Te nowoczesne narzędzia uczenia maszynowego wymagają niezwykle dużych ilości danych, a do tej pory takich ilości wysokiej jakości i dobrze opisanych danych brakowało.
Weź pod uwagę LLM, takie jak ChatGPT, które mają dostępne dane szkoleniowe obejmujące cały tekst dostępny w Internecie. Takie informacje na temat komunikacji zwierząt nie były w przeszłości dostępne. Nie chodzi tylko o to, że korpusy danych ludzkich są o wiele rzędów wielkości większe niż dane, do których mamy dostęp w przypadku zwierząt żyjących na wolności: do nauczenia GPT-3 wykorzystano ponad 500 GB słów w porównaniu do nieco ponad 8000 „kodów” ” (lub wokalizacje) na potrzeby niedawnej analizy komunikacji kaszalotów przeprowadzonej w ramach Projektu Ceti.
Dodatkowo, pracując z ludzkim językiem, już to robimy wiedzieć co się mówi. Wiemy nawet, co stanowi „słowo”, co stanowi ogromną przewagę nad interpretacją komunikacji zwierzęcej, gdzie naukowcy rzadko wiedzą, czy na przykład wycie konkretnego wilka oznacza coś innego niż wycie innego wilka, a nawet czy wilki uważają wycie za wycie w jakiś sposób analogiczne do „słowa” w języku ludzkim.
Niemniej jednak rok 2025 przyniesie nowe postępy, zarówno pod względem ilości danych dotyczących komunikacji zwierząt dostępnych naukowcom, jak i rodzajów i mocy algorytmów sztucznej inteligencji, które można zastosować do tych danych. Zautomatyzowane nagrywanie dźwięków zwierząt stało się w zasięgu ręki każdej grupy badawczej, a popularność zyskały tanie urządzenia rejestrujące, takie jak AudioMoth.
Ogromne zbiory danych trafiają obecnie do Internetu, ponieważ rejestratory można pozostawić w terenie i nasłuchiwać nawoływań gibonów w dżungli lub ptaków w lesie, 24 godziny na dobę, 7 dni w tygodniu, przez długie okresy czasu. Zdarzały się przypadki, gdy tak ogromnymi zbiorami danych nie można było zarządzać ręcznie. Teraz nowe algorytmy automatycznego wykrywania oparte na splotowych sieciach neuronowych mogą przeglądać tysiące godzin nagrań, wyłapując dźwięki zwierząt i grupując je w różne typy, zgodnie z ich naturalnymi właściwościami akustycznymi.
Gdy dostępne będą te duże zbiory danych o zwierzętach, możliwe staną się nowe algorytmy analityczne, takie jak wykorzystanie głębokich sieci neuronowych do znalezienia ukrytej struktury w sekwencjach wokalizacji zwierząt, która może być analogiczna do znaczącej struktury w języku ludzkim.
Jednak podstawowe pytanie, które pozostaje niejasne, brzmi: co dokładnie mamy nadzieję zrobić z tymi dźwiękami zwierząt? Niektóre organizacje, takie jak Interspecies.io, dość jasno określiły swój cel jako „przetwarzanie sygnałów jednego gatunku na spójne sygnały dla innego”. Inaczej mówiąc, do tłumaczyć komunikacja zwierząt na język ludzki. Jednak większość naukowców zgadza się, że zwierzęta inne niż ludzie nie mają własnego języka — przynajmniej nie w takim sensie, w jakim my, ludzie, mamy język.
Nagroda Collera Dolittle jest nieco bardziej wyrafinowana i szuka sposobu na „skomunikowanie się lub rozszyfrowanie komunikacji organizmu”. Odszyfrowanie jest celem nieco mniej ambitnym niż tłumaczenie, biorąc pod uwagę możliwość, że zwierzęta w rzeczywistości mogą nie mieć języka, który można przetłumaczyć. Dziś nie wiemy, ile informacji, a jak mało, zwierzęta przekazują między sobą. W 2025 r. ludzkość będzie miała potencjał, aby przeskoczyć nasze rozumienie nie tylko tego, ile zwierzęta mówią, ale także tego, co dokładnie mówią do siebie.