Die Cloud-Abteilung von Amazon hat eine Untersuchung zu Perplexity AI eingeleitet. Es geht um die Frage, ob das KI-Such-Startup gegen die Amazon Web Services-Regeln verstößt, indem es Websites abschaltet, die versucht haben, es zu stoppen, wie WIRED erfahren hat.

Ein AWS-Sprecher, der mit WIRED unter der Bedingung sprach, nicht genannt zu werden, bestätigte die Ermittlungen des Unternehmens zu Perplexity. WIRED hatte zuvor herausgefunden, dass das vom Jeff-Bezos-Familienfonds Nvidia unterstützte und kürzlich mit 3 Milliarden US-Dollar bewertete Start-up offenbar auf Inhalte von gecrackten Websites angewiesen war, deren Zugriff über das Opt-out-Protokoll Robots, einen gängigen Webstandard, gesperrt war. . Obwohl das Bot-Ausschlussprotokoll nicht rechtsverbindlich ist, sind es die Nutzungsbedingungen in der Regel.

Das Robot Exclusion Protocol ist ein jahrzehntealter Webstandard, bei dem eine reine Textdatei (wie wired.com/robots.txt) auf einer Domain platziert wird, um anzugeben, welche Seiten nicht von Robotern und automatisierten Crawlern besucht werden sollen. Obwohl Unternehmen, die Scraper verwenden, dieses Protokoll möglicherweise ignorieren, haben sich die meisten traditionell daran gehalten. Ein Amazon-Sprecher erklärte gegenüber WIRED, dass AWS-Kunden beim Crawlen von Websites den robots.txt-Standard einhalten müssen.

„Die AWS-Nutzungsbedingungen verbieten es Kunden, unsere Dienste für illegale Aktivitäten zu nutzen, und unsere Kunden sind für die Einhaltung unserer Bedingungen und aller geltenden Gesetze verantwortlich“, sagte der Sprecher in einer Erklärung.

Die Untersuchung der Praktiken von Perplexity erfolgt im Anschluss an einen Forbes-Bericht vom 11. Juni, in dem dem Startup vorgeworfen wurde, mindestens einen seiner Artikel gestohlen zu haben. Die Untersuchungen von WIRED bestätigten die Praxis und fanden neue Hinweise auf Scraping- und Plagiatsmissbrauch durch Systeme, die mit dem KI-gestützten Such-Chatbot von Perplexity verknüpft sind. Ingenieure von Condé Nast, der Muttergesellschaft von WIRED, blockieren den Crawler von Perplexity auf allen seinen Websites mithilfe einer robots.txt-Datei. Aber WIRED entdeckte, dass das Unternehmen über eine unveröffentlichte IP-Adresse – 44.221.181.252 – Zugriff auf einen Server hatte, der in den letzten drei Monaten mindestens hunderte Male Condé-Nast-Eigenschaften besuchte, offenbar um Websites von Condé Nast zu durchsuchen.

Die mit Perplexity in Verbindung stehende Maschine scheint mit dem umfassenden Crawlen von Nachrichtenseiten beschäftigt zu sein, die Bots den Zugriff auf deren Inhalte verbieten. Auch Sprecher des Guardian, von Forbes und der New York Times behaupten, mehrfach die IP-Adresse auf ihren Servern ermittelt zu haben.

WIRED hat die IP-Adresse auf eine virtuelle Maschine zurückgeführt, die als Elastic Compute Cloud (EC2)-Instanz bekannt ist und auf AWS gehostet wird. Das Unternehmen leitete seine Untersuchung ein, nachdem wir gefragt hatten, ob die Verwendung der AWS-Infrastruktur zum Scrapen von Websites, die es verboten hatten, gegen die Nutzungsbedingungen des Unternehmens verstößt.

Letzte Woche antwortete Aravind Srinivas, CEO von Perplexity, zunächst auf die Anfrage von WIRED, indem er sagte, dass die Fragen, die wir dem Unternehmen stellten, „ein tiefes und grundlegendes Missverständnis darüber widerspiegeln, wie Perplexity und das Internet funktionieren“. Srinivas teilte Fast Company später mit, dass die geheime IP-Adresse, die WIRED beim Scraping von Condé Nast-Websites und einer von uns erstellten Testseite beobachtet hatte, von einem Drittunternehmen betrieben wurde, das Crawling-Dienste und Website-Indexierung durchführte. Er lehnte es ab, den Namen des Unternehmens zu nennen, und verwies auf eine Geheimhaltungsvereinbarung. Auf die Frage, ob er dem Dritten sagen würde, er solle mit dem Crawlen von WIRED aufhören, sagte Srinivas: „Es ist kompliziert.“

By rb8jg

Leave a Reply

Your email address will not be published. Required fields are marked *