Die jüngste Ausfallzeit von Cloudflare, die laut CEO Matthew Prince als „schlimmster seit 2019“ klassifiziert wird, unterstrich die Verwundbarkeit zentralisierter Infrastrukturen im Internet. Der Ausfall, der am 18. August 2023 erfolgte und für mehrere Stunden weltweit Webseiten und Anwendungen lahmlegte, hatte seinen Ursprung nicht in einem klassischen Cyberangriff oder einer DNS-Problematik, wie zunächst vermutet, sondern in einem unerwarteten Fehler innerhalb des Bot-Management-Systems von Cloudflare.
Im Kern ging es um eine Änderung im Berechtigungssystem einer Datenbank, die für die Identifizierung automatisierter Anfragen verwendet wird. Ein Update im Abfrageverhalten der ClickHouse-Datenbank führte dazu, dass sie übermäßige Duplikate von Daten generierte (Feature-Zeilen). Diese duplizierten Informationen wuchsen exponentiell in der Konfigurationsdatei, die die Bot-Identifizierung steuert, und überstiegen dabei die vorgegebenen Speicherkapazitäten. Die Konsequenz: Ein Ausfall des zentralen Proxysystems, das für die Verkehrsverarbeitung von Cloudflare-Kunden zuständig ist, insbesondere für alle Datenströme, die vom Bot-Modul beeinflusst wurden.
Als Folge dieser Systemstörung erhielten Unternehmen, die Cloudflares Regeln zur Blockierung spezifischer Bots nutzten, fehlerhafte Positivmeldungen und schnitten legitimen Traffic ab. Im Gegensatz dazu blieben Kunden, die den generierten Bot-Wert in ihren Regeln nicht nutzten, online. Prince erklärte in seinem Blogpost detailliert, wie das maschinelle Lernmodell hinter dem Bot-Management durch die veränderte Datenverarbeitung seine Bot-Bewertungen für eingehende Anfragen fehlerhaft erzeugte und so zu diesem Kettenausfall führte. Die Ursache lag nicht in der neu implementierten KI-Technologie zur Bot-Erkennung, sondern in einem unerwarteten Systemverhalten aufgrund einer Änderung in der Datenbankkonfiguration.
Um zukünftige Ausfälle dieser Art zu verhindern, hat Cloudflare vier konkrete Maßnahmen angekündigt:
1. Verbesserung der Verarbeitung von Cloudflare-generierten Konfigurationsdateien: Diese sollen mit dem gleichen Grad an Sicherheit wie benutzergenerierte Eingaben behandelt werden.
2. Globale Notabschaltungen für Funktionen aktivieren: Um schnelles Ausblenden kritischer Funktionen im Notfall zu ermöglichen.
3. Verhinderung von Systemüberlastung durch Fehlermeldungen: Maßnahmen zur Kontrolle von Kern-Dumps oder ähnlichen Fehlermeldungen, die Ressourcen verzehren könnten.
4. Überprüfung der Fehlerbehandlung in wichtigen Systemen: Stärkung des Failover-Mechanismus und Verbesserung der Fehlertoleranz.
Dieser Vorfall verdeutlicht die Komplexität und gleichzeitig die Verwundbarkeit zentralisierter Infrastrukturen im Internet. Es zeigt, dass auch hochentwickelte Systeme anfällig für unerwartete Fehler sind und kontinuierliche Aufmerksamkeit sowie Anpassungen erforderlich sind, um solche Ausfälle zu minimieren.
Schlagwörter: Matthew Prince + August + Bots
Wie bewerten Sie den Schreibstil des Artikels?
