Strona główna Polityka Wyścig o blokowanie botów skrobających OpenAI zwalnia

Wyścig o blokowanie botów skrobających OpenAI zwalnia

31
0


Jest zbyt wcześnie, aby określić, jak potoczy się fala umów między firmami zajmującymi się sztuczną inteligencją a wydawcami. Jednak OpenAI odniosło już jedno wyraźne zwycięstwo: jego roboty indeksujące nie są blokowane przez czołowe serwisy informacyjne w takim tempie, jak kiedyś.

Boom generatywny na sztuczną inteligencję wywołał gorączkę złota w zakresie danych, a następnie gorączkę ochrony danych (przynajmniej w przypadku większości serwisów informacyjnych), w ramach której wydawcy starali się blokować roboty indeksujące sztuczną inteligencję i zapobiegać temu, aby ich praca nie stała się danymi szkoleniowymi bez zgody. Na przykład, gdy tego lata Apple zadebiutowało nowym agentem sztucznej inteligencji, wiele czołowych serwisów informacyjnych szybko zrezygnowało ze skrobania sieci Apple za pomocą protokołu Robots Exclusion Protocol, czyli pliku robots.txt, który umożliwia webmasterom kontrolowanie botów. Na scenie jest tak wiele nowych botów AI, że dla dotrzymania kroku możesz mieć wrażenie, że grasz w walnięcie w kreta.

GPTBot OpenAI ma największą rozpoznawalność nazw i jest częściej blokowany niż konkurenci, tacy jak Google AI. Liczba czołowych witryn medialnych korzystających z pliku robots.txt do „blokowania” GPTBota OpenAI dramatycznie wzrosła od jego uruchomienia w sierpniu 2023 r. do tej jesieni, a następnie stale (ale bardziej stopniowo) rosła od listopada 2023 r. do kwietnia 2024 r., wynika z analizy 1000 popularne serwisy informacyjne prowadzone przez start-up zajmujący się wykrywaniem sztucznej inteligencji z siedzibą w Ontario Oryginalność AI. W szczytowym momencie maksimum dotyczyło nieco ponad jednej trzeciej stron internetowych; obecnie spadł do blisko jednej czwartej. W mniejszej grupie najbardziej znanych serwisów informacyjnych wskaźnik blokowy nadal przekracza 50 procent, ale spadł z poziomu prawie 90 procent z początku tego roku.

Jednak w maju ubiegłego roku, po tym jak Dotdash Meredith ogłosiła zawarcie umowy licencyjnej z OpenAI, liczba ta znacznie spadła. Następnie ponownie spadł pod koniec maja, kiedy Vox ogłoszony własną umowę – i ponownie w sierpniu, kiedy spółka matka WIRED, Condé Nast, zawarła umowę. Wydaje się, że tendencja do zwiększonego blokowania się skończyła, przynajmniej na razie.

Te spadki mają oczywisty sens. Kiedy firmy zawierają partnerstwa i wyrażają zgodę na wykorzystanie ich danych, nie są już zachęcane do ich barykadowania, co oznaczałoby, że zaktualizowałyby swoje pliki robots.txt, aby umożliwić indeksowanie; zawrzyj wystarczającą liczbę transakcji, a ogólny odsetek witryn blokujących roboty indeksujące prawie na pewno spadnie. Niektóre sklepy odblokowały roboty OpenAI tego samego dnia, w którym ogłosiły transakcję, jak np. The Atlantic. Innym zajęło to od kilku dni do kilku tygodni, jak na przykład Vox, który ogłosił partnerstwo pod koniec maja, ale pod koniec czerwca odblokował GPTBot na swoich stronach.

Plik robots.txt nie jest prawnie wiążący, ale od dawna funkcjonuje jako standard regulujący zachowanie robotów indeksujących. Przez większą część istnienia Internetu ludzie prowadzący strony internetowe oczekiwali od siebie nawzajem przestrzegania tego pliku. Kiedy dochodzenie WIRED przeprowadzone na początku tego lata wykazało, że start-up AI Perplexity prawdopodobnie zdecydował się ignorować polecenia w pliku robots.txt, dział chmury firmy Amazon wszczął dochodzenie w celu ustalenia, czy Perplexity naruszył swoje zasady. Ignorowanie pliku robots.txt nie jest dobrym pomysłem, co prawdopodobnie wyjaśnia, dlaczego tak wiele znanych firm zajmujących się sztuczną inteligencją – w tym OpenAI –wyraźnie stwierdzić że używają go do określenia, co należy indeksować. Dyrektor generalny Originality AI, Jon Gillham, uważa, że ​​zwiększa to pilność wysiłków OpenAI na rzecz zawierania porozumień. „Jest oczywiste, że blokowanie OpenAI postrzega jako zagrożenie dla ich przyszłych ambicji” – mówi Gillham.



Link źródłowy