Perplexity umgeht Zugriffsbeschränkungen mit verschleierten Crawlern

Das KI-Such-Startup Perplexity steht unter schweren Vorwürfen des Internetinfrastruktur-Anbieters Cloudflare. Perplexity soll systematisch Zugriffsbeschränkungen auf Websites umgehen und dabei seine Crawling-Identität verschleiern. Die im August 2025 veröffentlichten Erkenntnisse zeigen ein koordiniertes Vorgehen zur Datengewinnung trotz expliziter Blockaden. Das Unternehmen ändert nach Cloudflares Angaben seine User-Agent-Kennungen und rotiert IP-Adressen, wenn sein offizieller Crawler blockiert wird. Zusätzlich ignoriert oder ruft Perplexity robots.txt-Dateien teilweise nicht ab, die Webseitenbetreibern seit Jahrzehnten als Standard zur Kontrolle automatisierter Zugriffe dienen.

Cloudflare dokumentierte die Verstöße durch eigene Tests mit neu registrierten Domains, die robots.txt-Dateien mit vollständigen Crawling-Verboten enthielten. Trotz dieser Sperren konnte Perplexity detaillierte Informationen zu den Inhalten bereitstellen. Das Unternehmen nutzt nach den Untersuchungen neben seinem deklarierten Crawler „PerplexityBot“ einen nicht gekennzeichneten Stealth-Crawler, der sich als Google Chrome auf macOS ausgibt. Diese Tarnung ermöglicht den Zugriff auf blockierte Inhalte durch Imitation regulärer Browser. Die verdeckten Aktivitäten erstrecken sich auf zehntausende Domains mit mehreren Millionen Anfragen täglich. Perplexitys deklarierte Crawler generieren 20-25 Millionen tägliche Anfragen, während die Stealth-Crawler zusätzliche 3-6 Millionen Anfragen verursachen.

Das Verhalten widerspricht etablierten Web-Crawling-Standards gemäß RFC 9309 und verletzt die ungeschriebenen Regeln des Internets. Andere KI-Anbieter wie OpenAI respektieren robots.txt-Direktiven und stellen Crawling-Versuche ein, wenn sie blockiert werden. OpenAIs ChatGPT-User holt robots.txt-Dateien ab und stoppt bei Untersagung ohne Umgehungsversuche. Diese Unterschiede verdeutlichen die Missachtung grundlegender Web-Etikette durch Perplexity.

Cloudflare reagierte mit technischen Gegenmaßnahmen und entfernte Perplexity aus der Liste verifizierter Bots. Das Unternehmen implementierte neue Erkennungsmuster in seine Schutzsysteme, um verdecktes Crawling automatisiert zu blockieren. Die Maßnahmen stehen allen Cloudflare-Kunden kostenfrei zur Verfügung. CEO Matthew Prince verglich Perplexitys Vorgehen mit dem Verhalten nordkoreanischer Hacker und kritisierte die Praktiken als nicht nachhaltig für das Internet-Ökosystem.

Die Vorwürfe reihen sich in eine längere Kontroverse um Perplexitys Datensammlung ein. Im Jahr 2024 beschuldigten bereits Medienunternehmen wie Wired und Forbes das Startup des unerlaubten Content-Scrapings und Plagiats. Bei einer Konferenz konnte Perplexitys CEO Aravind Srinivas keine Definition von Plagiat liefern, was die Bedenken verstärkte. Das Unternehmen bestreitet die aktuellen Vorwürfe und bezeichnet Cloudflares Bericht als Verkaufsstrategie. Ein Sprecher erklärte, die genannten Crawler gehörten nicht zu Perplexity.

Die rechtliche Bewertung des Web-Crawlings in Deutschland zeigt ein differenziertes Bild. Web-Scraping ist grundsätzlich legal, wenn öffentlich zugängliche Daten betroffen sind und keine Gesetze verletzt werden. Das Urheberrechtsgesetz regelt Text- und Data-Mining in § 44b UrhG und erlaubt Vervielfältigungen rechtmäßig zugänglicher Werke. Rechteinhaber können jedoch Vorbehalte erklären, die bei Online-Werken in maschinenlesbarer Form erfolgen müssen. Die Umgehung technischer Schutzmaßnahmen wie robots.txt-Dateien gilt als Verletzung von Betreiberrechten und ist unzulässig.

Website-Betreiber verfügen über verschiedene Schutzmechanismen gegen unerwünschtes Crawling. Die robots.txt-Datei im Hauptverzeichnis teilt Bots mit, welche Bereiche nicht durchsucht werden sollen. Serverseitige IP-Blockierungen und Web Application Firewalls können verdächtige Zugriffe filtern. Ratelimiting beschränkt die Anzahl der Anfragen pro Zeitraum und verhindert Serverüberlastung.

Der Konflikt spiegelt grundlegende Spannungen zwischen KI-Entwicklung und Content-Schutz wider. KI-Unternehmen benötigen große Datenmengen für Training und Verbesserung ihrer Modelle, während Publisher ihre Inhalte und Geschäftsmodelle schützen wollen. Cloudflare entwickelt Lösungen wie ein „KI-Labyrinth“, das nicht-konforme Bots in Fallen aus falschen Inhalten lockt, und einen „Pay-per-Crawl“-Marktplatz für die Monetarisierung von Content-Zugriff.

Die Nutzercommunity reagiert skeptisch auf Perplexitys Praktiken. Website-Betreiber berichten von anhaltenden Zugriffen trotz expliziter Blockaden und technischer Sperren. Diskussionen in Foren zeigen wachsende Frustration über die Missachtung etablierter Web-Standards. Entwickler und Sicherheitsexperten kritisieren die bewusste Verschleierung von Crawler-Identitäten als Vertrauensbruch.

Schlagwörter: Perplexity + CloudFlare + Crawler + KI
(pz)

Wie bewerten Sie den Schreibstil des Artikels?

4. August 2025