{"id":6866,"date":"2024-04-18T14:50:33","date_gmt":"2024-04-18T14:50:33","guid":{"rendered":"https:\/\/byte-bucket.com\/2024\/04\/18\/studie-enthuellt-ueber-98-des-codes-sind-redundant-sprachmodelle-koennen-code-generieren\/"},"modified":"2024-04-18T14:50:33","modified_gmt":"2024-04-18T14:50:33","slug":"studie-enthuellt-ueber-98-des-codes-sind-redundant-sprachmodelle-koennen-code-generieren","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=6866","title":{"rendered":"Studie enth\u00fcllt: \u00dcber 98% des Codes sind redundant &#8211; Sprachmodelle k\u00f6nnen Code generieren"},"content":{"rendered":"<p>Eine neue Studie von Charles Glimm hat ergeben, dass etwa 98,3 Prozent der Codezeilen redundant sind. Das bedeutet, dass Programmiersprachen \u00fcber eine unkomplizierte Grammatik verf\u00fcgen. Die Realisierbarkeit von KI-generiertem Code war bereits vorhersehbar, jedoch waren viele \u00fcberrascht \u00fcber die F\u00e4higkeit von Sprachmodellen, Code zu generieren. Fr\u00fchere Studien hatten bereits darauf hingewiesen, dass dies m\u00f6glich w\u00e4re. Die Forschung hat gezeigt, dass Programmcode \u00e4hnliche Eigenschaften wie nat\u00fcrliche Sprache besitzt, was darauf hindeutet, dass Sprachmodelle gut f\u00fcr Aufgaben wie Codevervollst\u00e4ndigung geeignet sind.<\/p>\n<p>Die Studie mit dem Titel &#8222;Untersuchung der Einzigartigkeit von Quellcode&#8220; ergab, dass etwa 98,3 Prozent der einzelnen Codezeilen redundant sind. Dies legt nahe, dass Programmiersprachen eine unkomplizierte Grammatik aufweisen. Um die Wahrscheinlichkeitsverteilung der Sprache zu erlernen und vorherzusagen, wie \u00fcberraschend das Modell von Tokens ist, verwendeten die Forscher N-Gramm-Modelle. Dies deutet darauf hin, dass Sprachmodelle durchaus in der Lage sind, Code zu generieren.<\/p>\n<p>Die Forscher nutzten eine Sammlung von 420 Millionen Codezeilen und bereinigten den Datensatz, indem sie doppelte Dateien, verschiedene Bezeichnungen f\u00fcr Parameter und unterschiedliche Reihenfolgen der Parameter ausschlossen. Das Ergebnis f\u00fcr Java war besonders \u00fcberraschend. Etwa 98,3 Prozent der Zeilen Java-Code wiesen eine hohe \u00c4hnlichkeit zu anderen Zeilen auf. Mit 20 Tokens ergab sich dennoch eine Genauigkeit von 60 Prozent.<\/p>\n<p>Die Studie zeigte auch, dass gro\u00dfe Sprachmodelle (Large Language Models, LLMs) in der Lage sind, Code in verschiedenen Programmiersprachen zu erlernen und zu verarbeiten. Allerdings fehlen derzeit noch Mechanismen, um sicherzustellen, dass der Output eines LLM korrekt ist. Dies stellt eine erhebliche Einschr\u00e4nkung ihrer Anwendbarkeit im klinischen Umfeld dar.<\/p>\n<p>Die Ergebnisse dieser Studie werfen ein neues Licht auf die M\u00f6glichkeiten von KI-generiertem Code. Es bleibt abzuwarten, wie sich diese Erkenntnisse in der Praxis auswirken werden und ob es in Zukunft Mechanismen geben wird, um die Korrektheit des generierten Codes zu gew\u00e4hrleisten.<\/p>\n<p>Schlagw\u00f6rter: Charles Glimm + 18.04.2024 + Tokens<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Eine neue Studie von Charles Glimm hat ergeben, dass etwa 98,3 Prozent der Codezeilen redundant sind. Das bedeutet, dass Programmiersprachen \u00fcber eine unkomplizierte Grammatik verf\u00fcgen. Die Realisierbarkeit von KI-generiertem Code war bereits vorhersehbar, jedoch waren viele \u00fcberrascht \u00fcber die F\u00e4higkeit von Sprachmodellen, Code zu generieren. Fr\u00fchere Studien hatten bereits darauf&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":6865,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-6866","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/6866","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=6866"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/6866\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/6865"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=6866"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=6866"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=6866"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}