Neues Headset ermöglicht gezieltes Zuhören in Menschenmengen dank künstlicher Intelligenz (KI)

Ein Team von schlauen Köpfen der University of Washington (UW) hat ein neues Headset entwickelt, das mit Hilfe von künstlicher Intelligenz (KI) gezielt einer einzelnen Person in einer Menschenmenge zuhören kann. Das ist echt der Wahnsinn! Das coole daran ist, dass dieses fantastische Feature in Echtzeit funktioniert und sowohl in Bewegung als auch in lauten Umgebungen einsetzbar ist.

Die Wissenschaftler haben diese bahnbrechende Entwicklung in einer Studie mit dem Titel „Look Once to Hear: Target Speech Hearing with Noisy Examples“ beschrieben, die in den Proceedings of the CHI Conference on Human Factors in Computing Systems veröffentlicht wurde. Das klingt vielleicht kompliziert, aber im Grunde genommen beschreiben sie einfach das innovative Headset. Das KI-System kann einer sprechenden Person etwa drei bis fünf Sekunden lang zuhören und deren Stimme aufzeichnen. Danach blendet das System, das Target Speech Hearing (TSH) genannt wird, alle anderen Geräusche aus und gibt nur noch die Stimme der aufgezeichneten Person in Echtzeit wieder. Ist das nicht der Hammer?

Shyam Gollakota, Professor an der Paul G. Allen School of Computer Science & Engineering, erklärt begeistert: „Unabhängig davon, ob sich die Person bewegt, sichtbar ist oder ob die Umgebung laut ist, ermöglichen unsere Geräte nun das klare und deutliche Hören eines einzelnen Sprechers, selbst in einer lauten Umgebung, in der viele andere Menschen sprechen.“

Um das Headset zu benutzen, muss man es einfach tragen und den Kopf auf die sprechende Person ausrichten. Mit einem simplen Knopfdruck kann das KI-System dann seine Aufmerksamkeit auf den Sprecher richten und ihn erkennen. Wie das funktioniert, ist eigentlich ganz simpel: Die Schallwellen der Stimme des Sprechers erreichen gleichzeitig beide Mikrofone auf beiden Seiten des Kopfhörers. Ein bisschen Abweichung von 16 Grad ist auch noch in Ordnung.

Das aufgefangene Audiosignal wird an einen Computer im Headset übertragen. Dort analysiert eine Software mit Hilfe von maschinellem Lernen das Stimmmuster des gewünschten Sprechers und kann sich die Stimme merken. Dann wird die Stimme in Echtzeit über den Kopfhörer vom System wiedergegeben. Läuft!

Die Forscher sind der Meinung, dass das System auch dann noch gut funktioniert, wenn sich der Sprecher oder der Zuhörer bewegen. Je länger das System dem aufgezeichneten Sprecher zuhört und dabei Trainingsdaten sammelt, desto besser wird die Erkennungsleistung. Das ist ja echt super!

Um das Headset zu testen, haben die Wissenschaftler 21 Personen ausprobiert. Im Durchschnitt haben sie die Klarheit der Stimme des Sprechers doppelt so gut bewertet wie bei den ungefilterten Audiodaten. Die Forscher geben zu, dass das System noch ein paar kleine Probleme hat. Es kann im Moment nur einen einzigen Sprecher erkennen, solange keine andere laute Stimme aus derselben Richtung kommt. Aber hey, man kann das System einfach nochmal registrieren, um die Klangqualität zu verbessern. Das ist doch kein Ding!

Das Forschungsteam plant, diese bahnbrechende Technologie auch auf Hörgeräte anzuwenden, um Menschen mit Hörproblemen das gezielte Hören einzelner Sprecher zu ermöglichen. Das klingt echt super, denn das könnte das Leben vieler Menschen mit Hörproblemen verbessern und ihnen eine bessere Kommunikation in lauten Umgebungen ermöglichen. Daumen hoch für solch geniale Entwicklungen!

Schlagwörter: University of Washington + UW + Target Speech

Wie bewerten Sie den Schreibstil des Artikels?
1 Star2 Stars3 Stars4 Stars5 Stars
  • 27. Mai 2024