KI-Start-up Anthropic wegen aggressivem Daten-Scraping…

Das KI-Start-up Anthropic wird beschuldigt, Daten von Webseiten aggressiv zu scrapen, um seine Systeme zu trainieren. Betroffene Parteien behaupten, dass dabei die Nutzungsbedingungen der Publisher verletzt werden.

KI-Entwickler benötigen große Datenmengen aus verschiedenen Quellen, um Sprachmodelle wie ChatGPT und Claude zu erstellen. Anthropic wurde von ehemaligen OpenAI-Forschern gegründet und verspricht, „verantwortungsbewusste“ KI-Systeme zu entwickeln.

Matt Barrie, CEO von Freelancer.com, beschuldigt Anthropic, der „aggressivste Scraper“ seiner Plattform zu sein. Freelancer.com erhielt innerhalb von vier Stunden 3,5 Millionen Besuche von einem Anthropic-verknüpften Webcrawler.

Andere Web-Publisher teilen Barries Bedenken. Anthropic soll ihre Seiten überschwemmen und Anweisungen ignorieren, das Sammeln von Inhalten zu stoppen. Barrie blockierte daraufhin den gesamten Datenverkehr von Anthropics IP-Adressen.

Anthropic teilte mit, den Fall zu untersuchen und respektiere die Anfragen der Publisher, nicht „intrusiv oder störend“ zu sein. Das Scrapen öffentlich zugänglicher Daten ist legal, kann jedoch die Nutzungsbedingungen von Webseiten verletzen.

Kyle Wiens, CEO von iFixit.com, sagte, seine Seite erhielt innerhalb von 24 Stunden eine Million Zugriffe von Anthropics Bots. iFixits Nutzungsbedingungen untersagen die Verwendung ihrer Daten für maschinelles Lernen.

Webseiten nutzen das Protokoll „robots.txt“, um Crawler fernzuhalten, was jedoch auf freiwilliger Einhaltung beruht. Anthropic sagte, seine Crawler respektieren „anti-circumvention technologies“ wie CAPTCHAs.

Das Daten-Scrapen hat in den letzten zwei Jahren aufgrund des KI-Wettrüstens zugenommen, was neue Kosten für Webseitenbetreiber verursacht hat. Eric Holscher, Mitbegründer von Read the Docs, schrieb, dass KI-Crawler erhebliche Kosten für Bandbreite verursachen.

Anthropic hat einige der weltweit fortschrittlichsten Chatbots geschaffen und positioniert sich als ethischer Akteur. Das erklärte Ziel von Anthropic ist die „verantwortungsbewusste Entwicklung und Wartung fortschrittlicher KI zum langfristigen Nutzen der Menschheit“.

Während führende KI-Unternehmen immer leistungsfähigere Modelle entwickeln, kooperieren sie mit Publishern oder erstellen synthetische Trainingsdaten. OpenAI hat mehrere Deals mit Publishern abgeschlossen, Anthropic hat keine ähnlichen Partnerschaften bekanntgegeben.

„Suchmaschinen haben schon immer viel gescrapt“, sagte Barrie, „aber mit der Schulung generativer KI ist es auf ein neues Level gestiegen.“ iFixits Mission ist es, Informationen zu teilen, um Menschen zur Selbstreparatur zu ermutigen.

Quelle: Eulerpool Research Systems