Strona główna Polityka Harvard udostępnia ogromny, bezpłatny zestaw danych szkoleniowych dotyczących sztucznej inteligencji ufundowany przez...

Harvard udostępnia ogromny, bezpłatny zestaw danych szkoleniowych dotyczących sztucznej inteligencji ufundowany przez OpenAI i Microsoft

15
0


Uniwersytet Harvarda ogłosił w czwartek, że udostępnia wysokiej jakości zbiór danych obejmujący prawie milion książek należących do domeny publicznej, z których każdy może korzystać do uczenia dużych modeli językowych i innych narzędzi sztucznej inteligencji. Zbiór danych został stworzony przez nowo utworzoną na Harvardzie Institutional Data Initiative przy wsparciu finansowym zarówno Microsoft, jak i OpenAI. Zawiera książki zeskanowane w ramach projektu Google Books, które nie są już chronione prawem autorskim.

Baza danych Institutional Data Initiative, około pięciokrotnie większa od cieszącego się złą sławą zbioru danych Books3, który był używany do uczenia modeli sztucznej inteligencji, takich jak Lama Meta, obejmuje gatunki, dekady i języki, w tym klasyki Szekspira, Charlesa Dickensa i Dantego obok mało znanych czeskich podręczników matematycznych i walijskie słowniki kieszonkowe. Greg Leppert, dyrektor wykonawczy Institutional Data Initiative, twierdzi, że projekt stanowi próbę „wyrównania szans” poprzez zapewnienie ogółowi społeczeństwa, w tym małym graczom w branży sztucznej inteligencji i indywidualnym badaczom, dostępu do tego rodzaju wysoce wyrafinowanych i wyselekcjonowane repozytoria treści, które zwykle mogą gromadzić tylko uznani giganci technologiczni. „Przeszedł rygorystyczną analizę” – mówi.

Leppert uważa, że ​​nową bazę danych należącą do domeny publicznej można wykorzystać w połączeniu z innymi licencjonowanymi materiałami do tworzenia modeli sztucznej inteligencji. „Myślę o tym trochę tak, jak o tym, że Linux stał się podstawowym systemem operacyjnym dla dużej części świata” – mówi, zauważając, że firmy nadal musiałyby korzystać z dodatkowych danych szkoleniowych, aby odróżnić swoje modele od modeli konkurencji.

Burton Davis, wiceprezes Microsoftu i zastępca głównego radcy prawnego ds. własności intelektualnej, podkreślił, że wsparcie firmy dla projektu jest zgodne z założeniami szersze przekonania o wartości tworzenia „pule dostępnych danych”, z których mogą korzystać start-upy zajmujące się sztuczną inteligencją, i które są „zarządzane w interesie publicznym”. Innymi słowy, Microsoft niekoniecznie planuje wymianę wszystkich danych szkoleniowych AI, których używał w swoich własnych modelach, na alternatywy należące do domeny publicznej, takie jak książki w nowej bazie danych Harvardu. „Do szkolenia naszych modeli wykorzystujemy publicznie dostępne dane” – mówi Davis.

Ponieważ dziesiątki pozwów wniesionych w związku z wykorzystaniem danych chronionych prawem autorskim do szkolenia sztucznej inteligencji trafiają do sądów, przyszłość sposobu tworzenia narzędzi sztucznej inteligencji wisi na włosku. Jeśli firmy zajmujące się sztuczną inteligencją wygrają swoje sprawy, będą mogły nadal przeglądać Internet bez konieczności zawierania umów licencyjnych z właścicielami praw autorskich. Jeśli jednak przegrają, firmy zajmujące się sztuczną inteligencją mogą zostać zmuszone do zmiany sposobu tworzenia swoich modeli. Fala projektów takich jak baza danych Harvarda postępuje zgodnie z założeniem, że niezależnie od tego, co się stanie, pojawi się apetyt na zbiory danych należące do domeny publicznej.

Oprócz zbioru książek Institutional Data Initiative współpracuje również z Bostońską Biblioteką Publiczną przy skanowaniu milionów artykułów z różnych gazet znajdujących się obecnie w domenie publicznej i twierdzi, że jest otwarta na nawiązanie podobnej współpracy w przyszłości. Dokładny sposób udostępnienia zbioru danych książek nie jest jeszcze ustalony. Inicjatywa na rzecz danych instytucjonalnych zwróciła się do Google o współpracę w zakresie publicznej dystrybucji, ale gigant wyszukiwania nie zgodził się jeszcze publicznie na jej hostowanie, chociaż Harvard twierdzi, że tak się stanie. (Google nie odpowiedział na prośby WIRED o komentarz).



Link źródłowy