Categories: Chatbots

Datensammlung für Trainingszwecke: Cloudflare blockiert KI-Bots

Cloudflare hat ein neues Tool vorgestellt, das KI-Bots daran hindern soll, Daten von Websites für das Training von großen Sprachmodellen (LLM) zu sammeln. Das Tool steht nach Angaben des Unternehmens auch den Kunden zur Verfügung, die über ein kostenloses Abonnement verfügen.

Mit der wachsenden Verbreitung von generativer KI benötigen Unternehmen Inhalte, um Chatbots zu trainieren. Viele wenden sich Web-Scrapern zu, die Text von Websites zur Analyse ziehen. Einige KI-Unternehmen räumen die Nutzung von Web-Scraping-Bots offen ein, andere wiederum nicht.

Cloudflare hatte bereits im September letzten Jahres eine Funktion veröffentlicht, mit der Benutzer „schlechte“ KI-Webcrawler blockieren können, also solche, die Websites ohne Erlaubnis scrapen. Natürlich fanden einige Unternehmen einen Weg, dies zu umgehen, indem sie Scraper einsetzten, die vorgaben, authentisch zu sein. Aus diesem Grund blockiert das neue Tool alle KI-Crawler, auch solche, die sich an das korrekte Protokoll für das Scrapen halten.

Im Juni 2024 griffen KI-Bots auf rund 39 Prozent der eine Million „Internet- Angebote“ zu, die Cloudflare nutzen, so das Unternehmen. Weniger als 3 Prozent dieser Websites hätten Maßnahmen ergriffen, um KI-Bots zu blockieren. Nach Angaben von Cloudflare waren die vier wichtigsten Bots, die Websites scrapen, Bytespider, Amazonbot, ClaudeBot und GPTBot.

Bytespider gehört zu Bytedance, dem Unternehmen, dem auch TikTok gehört, und wird verwendet, um Trainingsdaten für seine großen Sprachmodelle zu sammeln, einschließlich des ChatGPT-Rivalen Doubao. Amazonbot wird verwendet, um die Fragebeantwortungsseite von Alexa zu trainieren, ClaudeBot trainiert Claude AI, und GPTBot trainiert ChatGPT.

Das Tool ist ab sofort über das Dashboard von Cloudflare aktivierbar. Das Unternehmen kündigte an, die Funktion stetig weiterzuentwickeln und auf Anpassungen auf Seiten der KI-Bots zu reagieren.

Stefan Beiersmann

Stefan unterstützt seit 2006 als Freier Mitarbeiter die ZDNet-Redaktion. Wenn andere noch schlafen, sichtet er bereits die Nachrichtenlage, sodass die ersten News des Tages meistens von ihm stammen.

Recent Posts

Baseus Bowie 30 Max: Erste Bluetooth-Kopfhörer mit Head-Tracking-Spatial-Audio

Neue Over-Headset-Kopfhörer von Baseus bieten Raumklang-Audio und unterdrücken Störgeräusche um rund 96 Prozent.

1 Stunde ago

Apple schließt zwei Sicherheitslücken in iOS 18 und iPadOS 18

Die neue OS-Version gibt unter Umständen Kennwörter preis. Das Update soll aber auch die Leistung…

4 Stunden ago

Studie: Sorge über Cyberangriff auf eigenes Auto

Laut CAM-Studie sehen 40 Prozent der Autofahrer vernetzte Fahrzeuge mit Software-Updates als Bedrohung an.

3 Tagen ago

Wahlen in Gefahr: KI ermöglicht maßgeschneiderte Desinformation im großen Stil

Wahlen in mehr als 60 Ländern und rund 2 Milliarden potenziellen Wählern, ist ein gefundenes…

3 Tagen ago

Firefox 131 führt temporäre Website-Berechtigungen ein

Sie verfallen spätestens nach einer Stunde. Firefox 131 enthält zudem Fixes für 13 Anfälligkeiten, die…

5 Tagen ago

Malware-Kampagne gefährdet Smartphones und Bankkonten

Mobile Malware-Kampagne richtet sich gezielt gegen Banking-Apps.

5 Tagen ago