Główne witryny mówią „nie” scrapingowi AI firmy Apple

Przez

29 sierpnia, 2024

W oddzielnej analizie przeprowadzonej w tym tygodniu dziennikarz zajmujący się danymi Ben Welsh odkrył, że nieco ponad jedna czwarta ankietowanych przez niego serwisów informacyjnych (294 z 1167 publikacji, głównie anglojęzycznych, wydawanych w USA) blokuje Applebot-Extended. Dla porównania Welsh odkrył, że 53 procent witryn informacyjnych z jego próbki blokuje bota OpenAI. We wrześniu ubiegłego roku Google wprowadziło własnego bota obsługującego sztuczną inteligencję, Google-Extended; jest blokowany przez prawie 43 procent tych witryn, co oznacza, że Applebot-Extended może nadal znajdować się poza radarem. Jednak, jak Welsh mówi WIRED, liczba ta „stopniowo rośnie” w górę, odkąd zaczął szukać.

Walijski tak trwający projekt monitorowanie sposobu, w jaki serwisy informacyjne zwracają się do głównych agentów AI. „Wśród wydawców wiadomości pojawił się pewien podział co do tego, czy chcą blokować te boty”, mówi. „Nie mam odpowiedzi na pytanie, dlaczego każda organizacja informacyjna podjęła taką decyzję. Oczywiście możemy przeczytać o wielu z nich, którzy zawierają umowy licencyjne, w ramach których otrzymują wynagrodzenie w zamian za wpuszczenie botów – może to ma znaczenie”.

W zeszłym roku „The New York Times”. zgłoszone że Apple próbował zawrzeć umowy dotyczące sztucznej inteligencji z wydawcami. Od tego czasu konkurenci, tacy jak OpenAI i Perplexity, ogłosili współpracę z różnymi serwisami informacyjnymi, platformami społecznościowymi i innymi popularnymi witrynami internetowymi. „Wielu największych wydawców na świecie wyraźnie przyjmuje strategiczne podejście” – mówi założyciel Originality AI Jon Gillham. „Myślę, że w niektórych przypadkach wiąże się to ze strategią biznesową, na przykład wstrzymywaniem danych do czasu zawarcia umowy partnerskiej”.

Istnieją pewne dowody potwierdzające teorię Gillhama. Na przykład strony internetowe Condé Nast blokowały roboty indeksujące OpenAI. Po tym, jak w zeszłym tygodniu firma ogłosiła partnerstwo z OpenAI, odblokowała boty firmy. (Condé Nast odmówił komentarza w sprawie tej historii). Tymczasem rzeczniczka Buzzfeed, Juliana Clifton, powiedziała WIRED, że firma, która obecnie blokuje Applebot-Extended, umieszcza na swojej liście zablokowanych każdego bota przeszukującego strony AI, jakiego może zidentyfikować, chyba że jego właściciel nawiązał współpracę – zazwyczaj płatną – z firmą, która jest także właścicielem „Huffington Post”.

Ponieważ plik robots.txt wymaga ręcznej edycji, a debiutuje tak wiele nowych agentów AI, utrzymywanie aktualnej listy zablokowanych może być trudne. „Ludzie po prostu nie wiedzą, co blokować” – mówi założyciel Dark Visitors, Gavin King. Dark Visitors oferuje usługę freemium, która automatycznie aktualizuje plik robots.txt w witrynie klienta, a King twierdzi, że wydawcy stanowią dużą część jego klientów ze względu na obawy dotyczące praw autorskich.

Plik robots.txt może wydawać się tajemniczym terytorium webmasterów, ale biorąc pod uwagę jego ogromne znaczenie dla wydawców cyfrowych w erze sztucznej inteligencji, jest on obecnie domeną dyrektorów mediów. WIRED dowiedział się, że dwóch dyrektorów generalnych największych firm medialnych bezpośrednio decyduje, które boty należy zablokować.

Niektóre sklepy wyraźnie zauważyły, że blokują narzędzia do skrobania AI, ponieważ obecnie nie mają partnerstwa ze swoimi właścicielami. „Blokujemy Applebot-Extended we wszystkich usługach Vox Media, tak jak zrobiliśmy to w przypadku wielu innych narzędzi do skrobania sztucznej inteligencji, gdy nie mamy umowy handlowej z drugą stroną” – mówi Lauren Starke, starszy wiceprezes Vox Media ds. komunikacja. „Wierzymy w ochronę wartości naszych opublikowanych prac”.

Link źródłowy

PODOBNE ARTYKUŁYWIĘCEJ OD AUTORA

Wyświetlacz Lego spada i rani 10 osób podczas imprezy sylwestrowej w salonie gier w Massachusetts

Kobieta śmiertelnie podpalona w nowojorskim metrze. Zidentyfikowana jako Debrina Kawam, 61-letnia mieszkanka New Jersey

Rynek mieszkaniowy kończy rok 2024 ze zbyt małą podażą

PODOBNE ARTYKUŁY WIĘCEJ OD AUTORA