AI-Codiertool GPT-4 Turbo enttäuscht bei Coding-Benchmarks: Aider empfiehlt Alternativen

Der neueste Bericht des KI-gestützten Codiertool-Anbieters Aider hat einige interessante Erkenntnisse über das brandneue GPT-4 Turbo mit Vision-Funktion zu Tage gefördert. Und leider sind es keine guten Neuigkeiten.

Es scheint, als hätte das neue Modell einige Schwierigkeiten mit der Codequalität. Die Analyse zeigt, dass im Vergleich zu früheren GPT-4-Modellen die Leistung bei Coding-Benchmarks deutlich nachgelassen hat. Das ist natürlich etwas enttäuschend.

Besonders auffällig ist, dass das Modell anscheinend anfälliger für schlampiges Codieren ist. Statt wichtige Codeabschnitte zu schreiben, werden stattdessen Kommentare mit hausaufgabenähnlichen Anweisungen hinterlassen. Na, das ist ja mal eine interessante Taktik!

Bei einem Vergleichstest mit 133 Exercism-Python-Übungen erreichte das GPT-4 Turbo mit Vision-Modell gerade einmal eine Erfolgsquote von 62 Prozent. Das ist der niedrigste Wert unter allen GPT-4-Modellen. Die anderen Modelle schnitten mit 63 bis 66 Prozent nur minimal schlechter ab. Statistisch betrachtet mag das nicht viel ausmachen, aber in Aiders Faulheits-Benchmark sieht die Sache schon anders aus. Hier musste das neue Modell eine Erfolgsquote von mickrigen 34 Prozent hinnehmen – der niedrigste Wert von allen GPT-4 Turbo-Modellen.

Trotz dieser erschütternden Ergebnisse möchte Aider weiterhin das neue GPT-4 Turbo mit Vision unterstützen. Allerdings empfehlen sie standardmäßig die Verwendung des GPT-4-1106-Preview-Modells, da es über deutlich verbesserte Coding-Fähigkeiten verfügt. Na, das ist doch mal ein guter Tipp!

Aider selbst ist übrigens ein ziemlich cooles Befehlszeilentool. Es ermöglicht Entwicklern, Programme mit GPT-3.5/GPT-4 zu verbinden und Code in ihrem lokalen Git-Repository zu bearbeiten. Das Beste daran ist, dass Aider die Bearbeitung direkt in den lokalen Quelldateien durchführt und die Änderungen mit aussagekräftigen Commit-Nachrichten an Git überträgt. Das spart Zeit und Nerven!

Das Tool bietet außerdem die Möglichkeit, entweder ein neues Projekt zu starten oder mit einem bestehenden Git-Repository zu arbeiten. Aber das wirklich Beeindruckende ist die Fähigkeit von Aider, Änderungen an bereits bestehenden, umfangreichen Codebasen vornehmen zu können. Das ist eine echte Erleichterung für Entwickler, die es leid sind, sich durch tonnenweise Code zu wühlen.

Also, auch wenn das neue GPT-4 Turbo mit Vision vielleicht nicht ganz das Gelbe vom Ei ist, gibt es immer noch Alternativen wie das GPT-4-1106-Preview-Modell, das von Aider empfohlen wird. Und mit Aider selbst hast du ein mächtiges Werkzeug an der Hand, um deine Coding-Aufgaben effizienter zu erledigen.

Schlagwörter: Aiders + Faulheits-Benchmark

Wie bewerten Sie den Schreibstil des Artikels?

17. April 2024