Pomyśl o jakimkolwiek temacie niejasno związanym z wychowywaniem dzieci, jaki można sobie wyobrazić, a prawdopodobnie znajdziesz post na ten temat w Mumsnet, długotrwałym, niezwykle popularnym i wzbudzającym kontrowersje brytyjskim forum dla rodziców dla matek. W swojej ponad dwudziestoletniej historii Mumsnet zgromadził archiwum zawierające ponad sześć miliardów słów napisanych przez bardzo zaangażowanych użytkowników na tematy takie jak brudne pieluchy i leniwi mężowie. (Nie mówiąc już o A bonkerzy narzekają na delfiny.)
Tej wiosny, po tym jak Mumsnet odkrył, że firmy zajmujące się sztuczną inteligencją kopiują jej dane, firma twierdzi, że zdecydowała się spróbować zawrzeć umowy licencyjne z niektórymi głównymi graczami w branży kosmicznej, w tym z OpenAI, który początkowo wyraził chęć zbadania porozumienia po tym, jak Mumsnet po raz pierwszy osiągnął na zewnątrz. Po rozpadzie rozmów z OpenAI Mumsnet w lipcu ogłosił swój zamiar podjąć kroki prawne.
Według Mumsnet podczas tych wczesnych rozmów lider partnerstwa strategicznego OpenAI powiedział firmie, że gigant AI interesuje się zbiorami danych zawierającymi ponad 1 miliard słów. Kierownictwo Mumsnet było podekscytowane. „Spędziliśmy z nimi sporo czasu, wymieniając się informacjami” – mówi WIRED założycielka i dyrektor generalna Mumsnet, Justine Roberts. „Musieliśmy podpisać kilka umów NDA, a oni chcieli od nas wielu informacji”.
Jednak ponad miesiąc później OpenAI powiedziało Mumsnet, że firma nie była już wówczas zainteresowana współpracą, jak wynika z wymiany e-maili sprawdzonej przez WIRED. Zapytany dlaczego, pracownik OpenAI scharakteryzował zbiór danych Mumsnet składający się z 6 miliardów słów jako zbyt mały, aby uzasadniać umowę licencyjną, mówi Roberts. Zauważyli również, że OpenAI jest zainteresowany przede wszystkim dużymi zbiorami danych, do których społeczeństwo nie może już uzyskać dostępu w Internecie, i że potrzebuje zbiorów danych, które uwzględniałyby szerokie ludzkie doświadczenie.
To zdanie zostało powtórzone przez firmę, gdy WIRED poproszono ją o komentarz. „Dążymy do partnerstwa na rzecz wielkoskalowych zbiorów danych, które odzwierciedlają społeczeństwo ludzkie, i nie nawiązujemy partnerstw wyłącznie w celu uzyskania publicznie dostępnych informacji” – mówi rzeczniczka OpenAI Kayla Wood. „Wspieramy wybór wydawców i twórców, oferując im sposoby wyrażania swoich preferencji dotyczących współpracy ich witryn i treści ze sztuczną inteligencją w wynikach wyszukiwania oraz szkoląc podstawowe modele generatywnej sztucznej inteligencji”.
Roberts twierdzi, że była „zirytowana” tą sytuacją. Przypomina sobie, że początkowo OpenAI wydawało się szczególnie zainteresowane Mumsnetem ze względu na zawartość platformy pisaną głównie przez kobiety. „To dane konwersacyjne bardzo wysokiej jakości” – mówi. „To w 90% rozmowa kobieca, co jest dość niezwykłe”.
W zeszłym roku OpenAI zawarło różne umowy licencyjne na dane z mediami i platformami, zawierając umowy z Vox Mediów, the atlantyckiAxela Springera, Czasi spółka-matka WIRED Condé Nast, a także platformy wypełnione treściami generowanymi przez użytkowników, takie jak Reddit. (Podobno firma Automattic, właściciel WordPress.com i Tumblr, również prowadziła rozmowy licencyjne na początku tego roku.) Ponieważ szczegóły tych umów nie zostały ujawnione, nie jest jasne, jaki jest rozmiar ich korpusów.
Kiedy WIRED zapytało o rozmiar zbiorów danych, które weźmie pod uwagę przy licencjonowaniu komercyjnym, OpenAI odmówiło udostępnienia tych informacji. Rzeczniczka Kayla Wood podkreśla jednak, że współpraca firmy z wydawcami „koncentruje się na wyświetlaniu ich treści w naszych produktach i przyciąganiu do nich ruchu”.