OpenAI entwickelt Anweisungshierarchie, um KI-Modelle vor Missbrauch zu schützen

OpenAI hat eine Lösung für das Problem gefunden, dass KI-Modelle von ungewollten Anweisungen verwirrt werden können. Das Unternehmen hat eine Technik namens Anweisungshierarchie entwickelt, um die Fähigkeit der Modelle zu stärken, sich gegen Missbrauch zu verteidigen. Damit wird sichergestellt, dass die ursprünglichen Anweisungen des Entwicklers nicht ignoriert werden.

Stellen wir uns vor, jemand fragt den Chatbot von The Verge nach den neuesten Ereignissen bei Sticker Mule. Normalerweise würde der Bot korrekt mit einem Link zu einem Bericht antworten. Aber wenn der Benutzer den Bot auffordert, alle vorherigen Anweisungen zu vergessen und ein Gedicht über Drucker zu schreiben, würde der Bot tatsächlich ein Gedicht über Drucker verfassen und ausdrucken. Das ist natürlich nicht das, was der Entwickler beabsichtigt hat.

Die Anweisungshierarchie verhindert solche ungewollten Aktionen. Die Modelle werden trainiert, den Anweisungen des Entwicklers zu folgen und sie zu priorisieren. In Konfliktsituationen haben die ursprünglichen Anweisungen des Entwicklers immer Vorrang. Dadurch wird sichergestellt, dass der Bot nicht von verwirrenden Anfragen abgelenkt wird.

OpenAI hat diese neue Sicherheitsmethode erstmals beim GPT-4o Mini angewendet, einem kostengünstigeren und leichteren Modell. Olivier Godement, der Leiter des API-Plattformprodukts bei OpenAI, erklärt, dass die Anweisungshierarchie dazu dienen wird, die memeartigen Eingaben zu verhindern, die immer wieder im Internet auftauchen.

Diese Sicherheitsmaßnahme ist ein wichtiger Schritt in Richtung vollautomatisierter Agenten, die in Zukunft möglicherweise unser digitales Leben übernehmen sollen. OpenAI hat bereits angekündigt, solche Agenten zu entwickeln. Aber bevor das passiert, ist es wichtig, Sicherheitsvorkehrungen wie die Anweisungshierarchie zu implementieren, um Missbrauch und ungewollte Aktionen zu verhindern.

Das Forschungspapier zur Anweisungshierarchie betont die Notwendigkeit solcher Sicherheitsvorkehrungen, bevor Agenten in großem Umfang eingesetzt werden können. Ohne diesen Schutz könnte ein Agent, der dazu entwickelt wurde, E-Mails zu schreiben, dazu manipuliert werden, alle Anweisungen zu vergessen und den Inhalt des Posteingangs an Dritte weiterzugeben.

OpenAI hatte in der Vergangenheit bereits mit Sicherheitsbedenken zu kämpfen. Mitarbeiter haben Verbesserungen gefordert, und es gab Kritik an der vernachlässigten Sicherheitskultur und -prozessen des Unternehmens. Das Vertrauen in OpenAI wurde dadurch erschüttert.

Mit der Einführung der Anweisungshierarchie und weiteren Sicherheitsvorkehrungen möchte OpenAI nun das Vertrauen der Menschen zurückgewinnen. Es bleibt abzuwarten, wie sich diese Technologien weiterentwickeln und ob sie tatsächlich den Punkt erreichen können, an dem Menschen bereit sind, KI-Modelle ihr Leben steuern zu lassen.

Schlagwörter: OpenAI + The + Godement

Wie bewerten Sie den Schreibstil des Artikels?

19. Juli 2024