{"id":9726,"date":"2024-07-19T17:15:15","date_gmt":"2024-07-19T17:15:15","guid":{"rendered":"https:\/\/byte-bucket.com\/2024\/07\/19\/openai-entwickelt-anweisungshierarchie-um-ki-modelle-vor-missbrauch-zu-schuetzen\/"},"modified":"2024-07-19T17:15:15","modified_gmt":"2024-07-19T17:15:15","slug":"openai-entwickelt-anweisungshierarchie-um-ki-modelle-vor-missbrauch-zu-schuetzen","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=9726","title":{"rendered":"OpenAI entwickelt Anweisungshierarchie, um KI-Modelle vor Missbrauch zu sch\u00fctzen"},"content":{"rendered":"<p>OpenAI hat eine L\u00f6sung f\u00fcr das Problem gefunden, dass KI-Modelle von ungewollten Anweisungen verwirrt werden k\u00f6nnen. Das Unternehmen hat eine Technik namens Anweisungshierarchie entwickelt, um die F\u00e4higkeit der Modelle zu st\u00e4rken, sich gegen Missbrauch zu verteidigen. Damit wird sichergestellt, dass die urspr\u00fcnglichen Anweisungen des Entwicklers nicht ignoriert werden.<\/p>\n<p>Stellen wir uns vor, jemand fragt den Chatbot von The Verge nach den neuesten Ereignissen bei Sticker Mule. Normalerweise w\u00fcrde der Bot korrekt mit einem Link zu einem Bericht antworten. Aber wenn der Benutzer den Bot auffordert, alle vorherigen Anweisungen zu vergessen und ein Gedicht \u00fcber Drucker zu schreiben, w\u00fcrde der Bot tats\u00e4chlich ein Gedicht \u00fcber Drucker verfassen und ausdrucken. Das ist nat\u00fcrlich nicht das, was der Entwickler beabsichtigt hat.<\/p>\n<p>Die Anweisungshierarchie verhindert solche ungewollten Aktionen. Die Modelle werden trainiert, den Anweisungen des Entwicklers zu folgen und sie zu priorisieren. In Konfliktsituationen haben die urspr\u00fcnglichen Anweisungen des Entwicklers immer Vorrang. Dadurch wird sichergestellt, dass der Bot nicht von verwirrenden Anfragen abgelenkt wird.<\/p>\n<p>OpenAI hat diese neue Sicherheitsmethode erstmals beim GPT-4o Mini angewendet, einem kosteng\u00fcnstigeren und leichteren Modell. Olivier Godement, der Leiter des API-Plattformprodukts bei OpenAI, erkl\u00e4rt, dass die Anweisungshierarchie dazu dienen wird, die memeartigen Eingaben zu verhindern, die immer wieder im Internet auftauchen. <\/p>\n<p>Diese Sicherheitsma\u00dfnahme ist ein wichtiger Schritt in Richtung vollautomatisierter Agenten, die in Zukunft m\u00f6glicherweise unser digitales Leben \u00fcbernehmen sollen. OpenAI hat bereits angek\u00fcndigt, solche Agenten zu entwickeln. Aber bevor das passiert, ist es wichtig, Sicherheitsvorkehrungen wie die Anweisungshierarchie zu implementieren, um Missbrauch und ungewollte Aktionen zu verhindern.<\/p>\n<p>Das Forschungspapier zur Anweisungshierarchie betont die Notwendigkeit solcher Sicherheitsvorkehrungen, bevor Agenten in gro\u00dfem Umfang eingesetzt werden k\u00f6nnen. Ohne diesen Schutz k\u00f6nnte ein Agent, der dazu entwickelt wurde, E-Mails zu schreiben, dazu manipuliert werden, alle Anweisungen zu vergessen und den Inhalt des Posteingangs an Dritte weiterzugeben.<\/p>\n<p>OpenAI hatte in der Vergangenheit bereits mit Sicherheitsbedenken zu k\u00e4mpfen. Mitarbeiter haben Verbesserungen gefordert, und es gab Kritik an der vernachl\u00e4ssigten Sicherheitskultur und -prozessen des Unternehmens. Das Vertrauen in OpenAI wurde dadurch ersch\u00fcttert.<\/p>\n<p>Mit der Einf\u00fchrung der Anweisungshierarchie und weiteren Sicherheitsvorkehrungen m\u00f6chte OpenAI nun das Vertrauen der Menschen zur\u00fcckgewinnen. Es bleibt abzuwarten, wie sich diese Technologien weiterentwickeln und ob sie tats\u00e4chlich den Punkt erreichen k\u00f6nnen, an dem Menschen bereit sind, KI-Modelle ihr Leben steuern zu lassen.<\/p>\n<p>Schlagw\u00f6rter: OpenAI + The + Godement<\/p>\n","protected":false},"excerpt":{"rendered":"<p>OpenAI hat eine L\u00f6sung f\u00fcr das Problem gefunden, dass KI-Modelle von ungewollten Anweisungen verwirrt werden k\u00f6nnen. Das Unternehmen hat eine Technik namens Anweisungshierarchie entwickelt, um die F\u00e4higkeit der Modelle zu st\u00e4rken, sich gegen Missbrauch zu verteidigen. Damit wird sichergestellt, dass die urspr\u00fcnglichen Anweisungen des Entwicklers nicht ignoriert werden. Stellen wir&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":9725,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-9726","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/9726","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=9726"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/9726\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/9725"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=9726"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=9726"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=9726"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}