Eine neue Studie von Charles Glimm hat ergeben, dass etwa 98,3 Prozent der Codezeilen redundant sind. Das bedeutet, dass Programmiersprachen über eine unkomplizierte Grammatik verfügen. Die Realisierbarkeit von KI-generiertem Code war bereits vorhersehbar, jedoch waren viele überrascht über die Fähigkeit von Sprachmodellen, Code zu generieren. Frühere Studien hatten bereits darauf hingewiesen, dass dies möglich wäre. Die Forschung hat gezeigt, dass Programmcode ähnliche Eigenschaften wie natürliche Sprache besitzt, was darauf hindeutet, dass Sprachmodelle gut für Aufgaben wie Codevervollständigung geeignet sind.
Die Studie mit dem Titel „Untersuchung der Einzigartigkeit von Quellcode“ ergab, dass etwa 98,3 Prozent der einzelnen Codezeilen redundant sind. Dies legt nahe, dass Programmiersprachen eine unkomplizierte Grammatik aufweisen. Um die Wahrscheinlichkeitsverteilung der Sprache zu erlernen und vorherzusagen, wie überraschend das Modell von Tokens ist, verwendeten die Forscher N-Gramm-Modelle. Dies deutet darauf hin, dass Sprachmodelle durchaus in der Lage sind, Code zu generieren.
Die Forscher nutzten eine Sammlung von 420 Millionen Codezeilen und bereinigten den Datensatz, indem sie doppelte Dateien, verschiedene Bezeichnungen für Parameter und unterschiedliche Reihenfolgen der Parameter ausschlossen. Das Ergebnis für Java war besonders überraschend. Etwa 98,3 Prozent der Zeilen Java-Code wiesen eine hohe Ähnlichkeit zu anderen Zeilen auf. Mit 20 Tokens ergab sich dennoch eine Genauigkeit von 60 Prozent.
Die Studie zeigte auch, dass große Sprachmodelle (Large Language Models, LLMs) in der Lage sind, Code in verschiedenen Programmiersprachen zu erlernen und zu verarbeiten. Allerdings fehlen derzeit noch Mechanismen, um sicherzustellen, dass der Output eines LLM korrekt ist. Dies stellt eine erhebliche Einschränkung ihrer Anwendbarkeit im klinischen Umfeld dar.
Die Ergebnisse dieser Studie werfen ein neues Licht auf die Möglichkeiten von KI-generiertem Code. Es bleibt abzuwarten, wie sich diese Erkenntnisse in der Praxis auswirken werden und ob es in Zukunft Mechanismen geben wird, um die Korrektheit des generierten Codes zu gewährleisten.
Schlagwörter: Charles Glimm + 18.04.2024 + Tokens
Wie bewerten Sie den Schreibstil des Artikels?
