Große Websites sagen Nein zum Daten-Scraping durch Apples KI

In einer separaten Analyse in dieser Woche stellte der Datenjournalist Ben Welsh fest, dass etwas mehr als ein Viertel der von ihm untersuchten Nachrichtenseiten (294 von 1.167 hauptsächlich englischsprachigen US-Publikationen) Applebot-Extended blockieren. Im Vergleich dazu stellte Welsh fest, dass 53 % der Nachrichtenseiten in seiner Stichprobe den OpenAI-Bot blockieren. Google hat im vergangenen September seinen eigenen KI-spezifischen Bot, Google-Extended, eingeführt. Es wird von fast 43 % dieser Websites blockiert, ein Zeichen dafür, dass Applebot-Extended immer noch unbemerkt bleiben könnte. Wie Welsh jedoch gegenüber WIRED sagte, sei die Zahl „allmählich gestiegen“, seit er mit der Suche begonnen habe.

Welsh hat ein Projekt gestartet, um zu überwachen, wie die Medien über wichtige Agenten der künstlichen Intelligenz berichten. „Unter den Nachrichtenverlegern ist eine gewisse Meinungsverschiedenheit darüber entstanden, ob sie diese Roboter blockieren wollen oder nicht“, erklärt er. „Ich weiß nicht, warum jedes Medienunternehmen diese Entscheidung getroffen hat. Offensichtlich können wir lesen, dass viele von ihnen Lizenzverträge abschließen, in denen sie dafür bezahlt werden, dass sie die Roboter nutzen dürfen – vielleicht ist das ein Faktor. »

Letztes Jahr berichtete die New York Times, dass Apple versuche, Geschäfte mit Verlagen im Bereich der künstlichen Intelligenz abzuschließen. Seitdem haben Konkurrenten wie OpenAI und Perplexity Partnerschaften mit verschiedenen Medien, sozialen Plattformen und anderen beliebten Websites angekündigt. „Viele der weltweit größten Verlage verfolgen eindeutig einen strategischen Ansatz“, sagt Jon Gillham, Gründer von Originality AI. „Ich denke, in manchen Fällen ist es eine Geschäftsstrategie, etwa das Zurückhalten von Daten, bis eine Partnerschaftsvereinbarung zustande kommt. »

Es gibt Beweise, die Gillhams Theorie stützen. Beispielsweise blockierten die Websites von Condé Nast die Webcrawler von OpenAI. Nachdem das Unternehmen letzte Woche eine Partnerschaft mit OpenAI bekannt gab, hat es die Roboter des Unternehmens freigeschaltet. (Condé Nast lehnte einen Kommentar zu diesem Artikel ab.) Unterdessen erklärte Buzzfeed-Sprecherin Juliana Clifton gegenüber WIRED, dass das Unternehmen, das derzeit Applebot-Extended blockiert, alle Webcrawler, die es auf seiner Sperrliste identifizieren kann, außer Betrieb setzt. es sei denn, sein Eigentümer ist eine – in der Regel bezahlte – Partnerschaft mit dem Unternehmen eingegangen, dem auch die Huffington Post gehört.

Da die robots.txt-Datei manuell bearbeitet werden muss und viele neue KI-Agenten auftauchen, kann es schwierig sein, eine aktuelle Sperrliste zu führen. „Die Leute wissen einfach nicht, was sie blockieren sollen“, sagt Gavin King, Gründer von Dark Visitors. Dark Visitors bietet einen Freemium-Dienst an, der die robots.txt-Datei der Website eines Kunden automatisch aktualisiert, und King sagt, dass Verlage aufgrund von Urheberrechtsproblemen einen großen Teil seiner Kunden ausmachen.

Die robots.txt-Datei mag wie die geheime Domäne von Webmastern erscheinen, aber angesichts ihrer übergroßen Bedeutung für digitale Verlage im Zeitalter der künstlichen Intelligenz ist sie heute die Domäne von Medienmanagern. WIRED hat erfahren, dass zwei CEOs großer Medienunternehmen direkt entscheiden, welche Bots blockiert werden sollen.

Einige Medien haben ausdrücklich erklärt, dass sie KI-Scraping-Tools blockieren, weil sie derzeit keine Partnerschaft mit ihren Eigentümern haben. „Wir blockieren Applebot-Extended auf allen Vox Media-Eigenschaften, wie wir es mit vielen anderen KI-Scraping-Tools getan haben, wenn wir keine kommerzielle Vereinbarung mit der anderen Partei haben“, erklärt Lauren Starke, Senior Vice President of Communications bei Vox Media. „Wir glauben daran, den Wert unserer veröffentlichten Arbeit zu schützen. »

Große Websites sagen Nein zum Daten-Scraping durch Apples KI

Byrb8jg

By rb8jg

Related Post

Alles, was Sie über den WIRED & Octopus Energy Tech Summit 2024 wissen müssen

Junge Aktivisten planen Proteste, um Maßnahmen zum Klimaschutz zu fordern, während Großveranstaltungen in New York beginnen

Das Leben im Meer lebt vom Staub der Sahara, der Tausende Kilometer weit verweht wird

Leave a Reply Cancel reply

You missed

Alles, was Sie über den WIRED & Octopus Energy Tech Summit 2024 wissen müssen

Junge Aktivisten planen Proteste, um Maßnahmen zum Klimaschutz zu fordern, während Großveranstaltungen in New York beginnen

Das Leben im Meer lebt vom Staub der Sahara, der Tausende Kilometer weit verweht wird

Netflix erweitert sein Spieleangebot um Civilization 6 und Street Fighter 4