Der große Wechsel: Anthropic zieht den Stecker bei SWE-bench Verified und bringt SWE-bench Pro ins Spiel

Der KI-Benchmark SWE-bench Verified, einst ein prominenter Indikator für den Fortschritt bei autonomer Programmierung, wird vom Entwickler Anthropic zurückgezogen und durch seinen Nachfolger SWE-bench Pro ersetzt. Diese Entscheidung gründet auf der Erkenntnis zweier signifikanter Schwächen in SWE-bench Verified: Erstens identifizierte Anthropic systematische Fehler, die korrekte Lösungen fälschlicherweise als falsch klassifizierten, was die Validierung der Modellleistung beeinträchtigte. Zweitens stellte sich heraus, dass das Open-Source-Material des Benchmarks häufig im Trainingsprozess von KI-Modellen genutzt wurde. Dies führte zu einer sogenannten Kontamination, bei der Modelle die Aufgaben nicht durch eigentliche Problemlösungskompetenz meistern konnten, sondern lediglich auswendig gelerntes Wissen anwendeten. Anthropic argumentiert, dass diese Faktoren die Ergebnisse von SWE-bench Verified inkorrekt spiegeln und den tatsächlichen Fortschritt im autonomen Softwareentwicklungsprozess verzerrt darstellen. Die Benchmark-Ergebnisse zeigten stattdessen vorwiegend, wie stark ein Modell dem Benchmark während seiner Trainingsphase exponiert war, anstatt dessen intrinsische Fähigkeiten im Bereich der selbstständigen Programmierung. Aufgrund dieser Einsicht empfiehlt Anthropic die Abschaffung von SWE-bench Verified und fordert andere Entwicklergemeinschaften ebenfalls dazu auf, den bisherigen Benchmark nicht mehr zu verwenden. Dieser Schritt erfolgte in einem Kontext, in dem KI-Modelle bei SWE-bench Verified bereits nahezu 80 Prozent Leistung erreicht hatten und sich kaum noch unterschieden. Das Tempo des Fortschritts hatte deutlich abgenommen, was auf eine Sättigung hinwies. Der ursprüngliche Benchmark SWE-bench, eingeführt im Jahr 2023, fokussierte auf die Aufgabe, Softwarefehler in Python-Code zu identifizieren und zu korrigieren, ohne dabei die Funktionalität des Codes zu beeinträchtigen. Im Jahr 2024 wurde der Benchmark zu seiner verbesserten Variante SWE-bench Verified weiterentwickelt. Dabei wurden mithilfe von Softwareexperten zahlreiche problematische Testfälle eliminiert, sodass ein selektives Set von 500 Tests übrig blieb. Der neue Champion, SWE-bench Pro, wird nun empfohlen und zeichnet sich durch den Einsatz von Code aus proprietären Repositories aus. Diese Codes waren garantiert nicht Teil der Trainingsdaten der Modelle, wodurch jegliche Kontamination ausgeschlossen ist. Durch diese strategische Veränderung verfolgt Anthropic die Verbesserung der Genauigkeit und Objektivität bei der Bewertung des Fortschritts in der autonomen Programmierung.

Schlagwörter: SWE-bench + Anthropic + SWE-bench Verified

Wie bewerten Sie den Schreibstil des Artikels?
1 Star2 Stars3 Stars4 Stars5 Stars
  • 24. Februar 2026