{"id":13914,"date":"2025-08-04T18:28:33","date_gmt":"2025-08-04T18:28:33","guid":{"rendered":"https:\/\/byte-bucket.com\/2025\/08\/04\/vorwuerfe-gegen-ki-such-startup-umgehung-von-zugriffsbeschraenkungen-auf-websites\/"},"modified":"2025-08-05T15:15:53","modified_gmt":"2025-08-05T15:15:53","slug":"vorwuerfe-gegen-ki-such-startup-umgehung-von-zugriffsbeschraenkungen-auf-websites","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=13914","title":{"rendered":"Perplexity umgeht Zugriffsbeschr\u00e4nkungen mit verschleierten Crawlern"},"content":{"rendered":"<p>Das KI-Such-Startup Perplexity steht unter schweren Vorw\u00fcrfen des Internetinfrastruktur-Anbieters Cloudflare. Perplexity soll systematisch Zugriffsbeschr\u00e4nkungen auf Websites umgehen und dabei seine Crawling-Identit\u00e4t verschleiern. Die im August 2025 ver\u00f6ffentlichten Erkenntnisse zeigen ein koordiniertes Vorgehen zur Datengewinnung trotz expliziter Blockaden. Das Unternehmen \u00e4ndert nach Cloudflares Angaben seine User-Agent-Kennungen und rotiert IP-Adressen, wenn sein offizieller Crawler blockiert wird. Zus\u00e4tzlich ignoriert oder ruft Perplexity robots.txt-Dateien teilweise nicht ab, die Webseitenbetreibern seit Jahrzehnten als Standard zur Kontrolle automatisierter Zugriffe dienen.<\/p>\n<p>Cloudflare dokumentierte die Verst\u00f6\u00dfe durch eigene Tests mit neu registrierten Domains, die robots.txt-Dateien mit vollst\u00e4ndigen Crawling-Verboten enthielten. Trotz dieser Sperren konnte Perplexity detaillierte Informationen zu den Inhalten bereitstellen. Das Unternehmen nutzt nach den Untersuchungen neben seinem deklarierten Crawler &#8222;PerplexityBot&#8220; einen nicht gekennzeichneten Stealth-Crawler, der sich als Google Chrome auf macOS ausgibt. Diese Tarnung erm\u00f6glicht den Zugriff auf blockierte Inhalte durch Imitation regul\u00e4rer Browser. Die verdeckten Aktivit\u00e4ten erstrecken sich auf zehntausende Domains mit mehreren Millionen Anfragen t\u00e4glich. Perplexitys deklarierte Crawler generieren 20-25 Millionen t\u00e4gliche Anfragen, w\u00e4hrend die Stealth-Crawler zus\u00e4tzliche 3-6 Millionen Anfragen verursachen.<\/p>\n<p>Das Verhalten widerspricht etablierten Web-Crawling-Standards gem\u00e4\u00df RFC 9309 und verletzt die ungeschriebenen Regeln des Internets. Andere KI-Anbieter wie OpenAI respektieren robots.txt-Direktiven und stellen Crawling-Versuche ein, wenn sie blockiert werden. OpenAIs ChatGPT-User holt robots.txt-Dateien ab und stoppt bei Untersagung ohne Umgehungsversuche. Diese Unterschiede verdeutlichen die Missachtung grundlegender Web-Etikette durch Perplexity.<\/p>\n<p>Cloudflare reagierte mit technischen Gegenma\u00dfnahmen und entfernte Perplexity aus der Liste verifizierter Bots. Das Unternehmen implementierte neue Erkennungsmuster in seine Schutzsysteme, um verdecktes Crawling automatisiert zu blockieren. Die Ma\u00dfnahmen stehen allen Cloudflare-Kunden kostenfrei zur Verf\u00fcgung. CEO Matthew Prince verglich Perplexitys Vorgehen mit dem Verhalten nordkoreanischer Hacker und kritisierte die Praktiken als nicht nachhaltig f\u00fcr das Internet-\u00d6kosystem.<\/p>\n<p>Die Vorw\u00fcrfe reihen sich in eine l\u00e4ngere Kontroverse um Perplexitys Datensammlung ein. Im Jahr 2024 beschuldigten bereits Medienunternehmen wie Wired und Forbes das Startup des unerlaubten Content-Scrapings und Plagiats. Bei einer Konferenz konnte Perplexitys CEO Aravind Srinivas keine Definition von Plagiat liefern, was die Bedenken verst\u00e4rkte. Das Unternehmen bestreitet die aktuellen Vorw\u00fcrfe und bezeichnet Cloudflares Bericht als Verkaufsstrategie. Ein Sprecher erkl\u00e4rte, die genannten Crawler geh\u00f6rten nicht zu Perplexity.<\/p>\n<p>Die rechtliche Bewertung des Web-Crawlings in Deutschland zeigt ein differenziertes Bild. Web-Scraping ist grunds\u00e4tzlich legal, wenn \u00f6ffentlich zug\u00e4ngliche Daten betroffen sind und keine Gesetze verletzt werden. Das Urheberrechtsgesetz regelt Text- und Data-Mining in \u00a7 44b UrhG und erlaubt Vervielf\u00e4ltigungen rechtm\u00e4\u00dfig zug\u00e4nglicher Werke. Rechteinhaber k\u00f6nnen jedoch Vorbehalte erkl\u00e4ren, die bei Online-Werken in maschinenlesbarer Form erfolgen m\u00fcssen. Die Umgehung technischer Schutzma\u00dfnahmen wie robots.txt-Dateien gilt als Verletzung von Betreiberrechten und ist unzul\u00e4ssig.<\/p>\n<p>Website-Betreiber verf\u00fcgen \u00fcber verschiedene Schutzmechanismen gegen unerw\u00fcnschtes Crawling. Die robots.txt-Datei im Hauptverzeichnis teilt Bots mit, welche Bereiche nicht durchsucht werden sollen. Serverseitige IP-Blockierungen und Web Application Firewalls k\u00f6nnen verd\u00e4chtige Zugriffe filtern. Ratelimiting beschr\u00e4nkt die Anzahl der Anfragen pro Zeitraum und verhindert Server\u00fcberlastung. <\/p>\n<p>Der Konflikt spiegelt grundlegende Spannungen zwischen KI-Entwicklung und Content-Schutz wider. KI-Unternehmen ben\u00f6tigen gro\u00dfe Datenmengen f\u00fcr Training und Verbesserung ihrer Modelle, w\u00e4hrend Publisher ihre Inhalte und Gesch\u00e4ftsmodelle sch\u00fctzen wollen. Cloudflare entwickelt L\u00f6sungen wie ein &#8222;KI-Labyrinth&#8220;, das nicht-konforme Bots in Fallen aus falschen Inhalten lockt, und einen &#8222;Pay-per-Crawl&#8220;-Marktplatz f\u00fcr die Monetarisierung von Content-Zugriff. <\/p>\n<p>Die Nutzercommunity reagiert skeptisch auf Perplexitys Praktiken. Website-Betreiber berichten von anhaltenden Zugriffen trotz expliziter Blockaden und technischer Sperren. Diskussionen in Foren zeigen wachsende Frustration \u00fcber die Missachtung etablierter Web-Standards. Entwickler und Sicherheitsexperten kritisieren die bewusste Verschleierung von Crawler-Identit\u00e4ten als Vertrauensbruch. <\/p>\n<p>Schlagw\u00f6rter: Perplexity + CloudFlare + Crawler + KI<br \/>(pz)<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Das KI-Such-Startup Perplexity steht unter schweren Vorw\u00fcrfen des Internetinfrastruktur-Anbieters Cloudflare. Perplexity soll systematisch Zugriffsbeschr\u00e4nkungen auf Websites umgehen und dabei seine Crawling-Identit\u00e4t verschleiern. Die im August 2025 ver\u00f6ffentlichten Erkenntnisse zeigen ein koordiniertes Vorgehen zur Datengewinnung trotz expliziter Blockaden. Das Unternehmen \u00e4ndert nach Cloudflares Angaben seine User-Agent-Kennungen und rotiert IP-Adressen, wenn sein&#46;&#46;&#46;<\/p>\n","protected":false},"author":6,"featured_media":13913,"comment_status":"closed","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-13914","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/13914","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=13914"}],"version-history":[{"count":2,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/13914\/revisions"}],"predecessor-version":[{"id":13927,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/13914\/revisions\/13927"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/13913"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=13914"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=13914"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=13914"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}