{"id":15650,"date":"2026-02-24T10:50:14","date_gmt":"2026-02-24T10:50:14","guid":{"rendered":"https:\/\/byte-bucket.com\/2026\/02\/24\/der-grosse-wechsel-anthropic-zieht-den-stecker-bei-swe-bench-verified-und-bringt-swe-bench-pro-ins-spiel\/"},"modified":"2026-02-24T10:50:14","modified_gmt":"2026-02-24T10:50:14","slug":"der-grosse-wechsel-anthropic-zieht-den-stecker-bei-swe-bench-verified-und-bringt-swe-bench-pro-ins-spiel","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=15650","title":{"rendered":"Der gro\u00dfe Wechsel: Anthropic zieht den Stecker bei SWE-bench Verified und bringt SWE-bench Pro ins Spiel"},"content":{"rendered":"<p>Der KI-Benchmark SWE-bench Verified, einst ein prominenter Indikator f\u00fcr den Fortschritt bei autonomer Programmierung, wird vom Entwickler Anthropic zur\u00fcckgezogen und durch seinen Nachfolger SWE-bench Pro ersetzt. Diese Entscheidung gr\u00fcndet auf der Erkenntnis zweier signifikanter Schw\u00e4chen in SWE-bench Verified: Erstens identifizierte Anthropic systematische Fehler, die korrekte L\u00f6sungen f\u00e4lschlicherweise als falsch klassifizierten, was die Validierung der Modellleistung beeintr\u00e4chtigte. Zweitens stellte sich heraus, dass das Open-Source-Material des Benchmarks h\u00e4ufig im Trainingsprozess von KI-Modellen genutzt wurde. Dies f\u00fchrte zu einer sogenannten Kontamination, bei der Modelle die Aufgaben nicht durch eigentliche Probleml\u00f6sungskompetenz meistern konnten, sondern lediglich auswendig gelerntes Wissen anwendeten. Anthropic argumentiert, dass diese Faktoren die Ergebnisse von SWE-bench Verified inkorrekt spiegeln und den tats\u00e4chlichen Fortschritt im autonomen Softwareentwicklungsprozess verzerrt darstellen. Die Benchmark-Ergebnisse zeigten stattdessen vorwiegend, wie stark ein Modell dem Benchmark w\u00e4hrend seiner Trainingsphase exponiert war, anstatt dessen intrinsische F\u00e4higkeiten im Bereich der selbstst\u00e4ndigen Programmierung. Aufgrund dieser Einsicht empfiehlt Anthropic die Abschaffung von SWE-bench Verified und fordert andere Entwicklergemeinschaften ebenfalls dazu auf, den bisherigen Benchmark nicht mehr zu verwenden. Dieser Schritt erfolgte in einem Kontext, in dem KI-Modelle bei SWE-bench Verified bereits nahezu 80 Prozent Leistung erreicht hatten und sich kaum noch unterschieden. Das Tempo des Fortschritts hatte deutlich abgenommen, was auf eine S\u00e4ttigung hinwies. Der urspr\u00fcngliche Benchmark SWE-bench, eingef\u00fchrt im Jahr 2023, fokussierte auf die Aufgabe, Softwarefehler in Python-Code zu identifizieren und zu korrigieren, ohne dabei die Funktionalit\u00e4t des Codes zu beeintr\u00e4chtigen. Im Jahr 2024 wurde der Benchmark zu seiner verbesserten Variante SWE-bench Verified weiterentwickelt. Dabei wurden mithilfe von Softwareexperten zahlreiche problematische Testf\u00e4lle eliminiert, sodass ein selektives Set von 500 Tests \u00fcbrig blieb. Der neue Champion, SWE-bench Pro, wird nun empfohlen und zeichnet sich durch den Einsatz von Code aus propriet\u00e4ren Repositories aus. Diese Codes waren garantiert nicht Teil der Trainingsdaten der Modelle, wodurch jegliche Kontamination ausgeschlossen ist. Durch diese strategische Ver\u00e4nderung verfolgt Anthropic die Verbesserung der Genauigkeit und Objektivit\u00e4t bei der Bewertung des Fortschritts in der autonomen Programmierung.<\/p>\n<p>Schlagw\u00f6rter: SWE-bench + Anthropic + SWE-bench Verified<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Der KI-Benchmark SWE-bench Verified, einst ein prominenter Indikator f\u00fcr den Fortschritt bei autonomer Programmierung, wird vom Entwickler Anthropic zur\u00fcckgezogen und durch seinen Nachfolger SWE-bench Pro ersetzt. Diese Entscheidung gr\u00fcndet auf der Erkenntnis zweier signifikanter Schw\u00e4chen in SWE-bench Verified: Erstens identifizierte Anthropic systematische Fehler, die korrekte L\u00f6sungen f\u00e4lschlicherweise als falsch klassifizierten,&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":15649,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-15650","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/15650","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=15650"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/15650\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/15649"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=15650"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=15650"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=15650"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}