Apple verbessert Spracherkennung: Schneller, aber noch mit Optimierungsbedarf

Apple setzt verstärkt auf Spracherkennung in kommenden Betriebssystemen und rüstet seine Live-Audio- und Aufnahmen-Transkription deutlich auf. Die nächsten Versionen von iOS, iPadOS und macOS, die als Tahoe bezeichnet werden, werden mit einer neuen, verbesserten API für Spracherkennung ausgestattet sein. In diversen Tests wurde Apples Leistung im Vergleich zu etablierten Spracherkennungsmodellen wie OpenAIs Whisper untersucht. Die Ergebnisse zeigen ein interessantes Bild: Während sich Apple in Sachen Geschwindigkeit klar durchsetzt, gibt es noch Verbesserungspotenzial bei der Genauigkeit.

Ein praktisches Beispiel liefert das Technologie-Blog MacStories. Dort wurde Apples neues Speech-Framework mit einer 34-minütigen Videodatei getestet. Die Transkription dieser Datei erfolgte mithilfe des auf GitHub verfügbaren Tools Yap, das speziell für Apples API entwickelt wurde. Die Geschwindigkeit war bemerkenswert: In nur 45 Sekunden hatte Yap die vollständige Transkription abgeschlossen. Im Vergleich dazu benötigten Tools wie MacWhisper mit seinen Large-Modellen deutlich mehr Zeit – zwischen 1:41 Minuten und sogar bis zu 3:55 Minuten. Diese Ergebnisse verdeutlichen, wie viel schneller Apple im Bereich der Echtzeit-Spracherkennung arbeitet. Dennoch bleibt die Frage nach der Genauigkeit bestehen.

Obwohl Apple Fortschritte erzielt hat, zeigen Tests, dass es noch Raum für Optimierung gibt, um mit den etablierten Spracherkennungsmodellen in puncto Präzision mithalten zu können. Es ist davon auszugehen, dass Apple diese Lücke in kommenden Updates und Weiterentwicklungen seiner API schließen wird, um ein umfassendes und konkurrenzfähiges Angebot im Bereich der Spracherkennung zu bieten.

Schlagwörter: Apples API + Apple + Apples

Wie bewerten Sie den Schreibstil des Artikels?

4. Juli 2025