Neuartiger Computerwurm nutzt KI-Assistenten zur Verbreitung

Sicherheitsforscher der Cornell University und des israelischen Technion-Instituts haben einen neuen Ansatz entwickelt, wie ein Computerwurm mithilfe von KI-gestützten Assistenten verbreitet werden kann. Dieser Ansatz wurde Morris II genannt, in Anlehnung an den ersten Computerwurm Morris, der 1988 an der Cornell University freigesetzt wurde. Die Forscher nutzen das Prinzip der feindlichen, selbst replizierenden Aufforderungen, um den Wurm zu verbreiten.

Bei diesem Ansatz bringen die Angreifer das KI-Modell dazu, anstatt einer Antwort auf einen Prompt den Prompt selbst zu generieren. Dadurch können sie den Wurm replizieren und Schadcode verbreiten. Die KI-Modelle können entweder gängige große Sprachmodelle oder multimodale Modelle sein, die sowohl Sprache als auch Bilder oder Videos erzeugen können.

Besonders interessant ist, dass die replizierten Prompts auch in KI-generierte Bilder integriert werden können. Um den Wurm zu verbreiten, müssen jedoch zwei Voraussetzungen erfüllt sein. Erstens muss es einen Dienst geben, der ein KI-Modell verwendet, um Nutzereingaben zu interpretieren und entsprechende Aktionen auszuführen. Zweitens müssen weitere solcher Dienste oder Assistenten vorhanden sein, die auf diese Aktionen reagieren können.

Die Forscher bezeichnen solche Dienste und Assistenten als generative KI-Ökosysteme, unabhängig davon, ob die Sprachmodelle lokal oder in der Cloud betrieben werden. Als Beispiel für einen KI-gestützten E-Mail-Assistenten haben die Forscher gezeigt, wie solche selbstreplizierenden Prompts per E-Mail eingeschleust werden können.

Hierbei gibt es zwei Ansätze. Der erste Ansatz verwendet das Retrieval Augmented Generation (RAG) Verfahren, bei dem generelle Modelle vorübergehend mit Wissen aus lokalen Dokumenten angereichert werden. Die Modelle nutzen diese Informationen als Kontext, um weniger Fehlinformationen zu generieren. Die Informationen werden in Vektorstores oder Vektordatenbanken langfristig gespeichert. Wenn nun die aus einer manipulierten E-Mail generierten Informationen in den Vektorstore gelangen, dienen sie als Kontext für die Verarbeitung weiterer E-Mails und können den Schadcode replizieren.

Der alternative Ansatz besteht darin, KI-Agenten einzusetzen, die den Kontrollfluss einer Anwendung basierend auf den Antworten des Modells steuern. Es gibt eine Vielzahl von Frameworks, Bibliotheken und Beispielcode auf GitHub, um solche Agenten zu erstellen. Das Modell wird dann manipuliert, um potenziell schädliche Handlungen auszuführen, die den replizierenden Prompt beinhalten.

Die Forscher haben beide Methoden mit drei verschiedenen Modellen demonstriert: Gemini Pro von Google, ChatGPT 4.0 und dem multimodalen LLaVA. Im Fall der multimodalen Modelle haben sie auch gezeigt, wie man Prompts in Bilder integrieren kann. Allerdings haben sie kein bereits existierendes E-Mail-Assistenten-Programm verwendet, sondern ein eigenes Beispielprogramm entwickelt.

Mit ihrer Veröffentlichung wollen die Forscher die KI-Branche aufwecken und auf die potenzielle Gefahr hinweisen, die durch die Verbreitung und Verknüpfung von KI-Diensten entstehen kann. Der präsentierte Ansatz wird derzeit eher als Proof-of-Concept betrachtet. Allerdings könnte dieses Szenario zu einer realen Bedrohung werden, wenn KI-Assistenten weit verbreitet und miteinander verknüpft werden.

Schlagwörter: Cornell University + Morris + Morris II. Anzeige

Wie bewerten Sie den Schreibstil des Artikels?
1 Star2 Stars3 Stars4 Stars5 Stars
  • 3. März 2024