Max-Planck-Institut entwickelt KI-Methode zur Emotionserkennung in Audioaufnahmen

Das Max-Planck-Institut für Bildungsforschung in Berlin hat eine neue Methode entwickelt, um Emotionen anhand von kurzen Audioaufnahmen zu erkennen. Die Entwicklungspsychologen des Instituts setzen dabei auf Künstliche Intelligenz (KI), um emotionale Nuancen in Stimmausschnitten zu identifizieren.

Das Forschungsteam unter der Leitung von Hannes Diemerling verglich die Präzision von drei verschiedenen maschinellen Lernmodellen miteinander. Dabei stellten sie fest, dass die Modelle eine vergleichbare Genauigkeit wie menschliche Bewertungen erreichen konnten.

Für die Studie wurden Schauspieler engagiert, die nichtssagende Sätze mit einer emotionalen Komponente versehen haben. Die Wissenschaftler extrahierten diese Sätze aus zwei verschiedenen Datensätzen, einem aus Kanada und einem aus Deutschland. Dadurch konnte überprüft werden, ob maschinelles Lernen unabhängig von Sprache, kulturellen Feinheiten und semantischem Inhalt in der Lage ist, Gefühle korrekt zu erkennen.

Jeder Audioausschnitt wurde auf eine Dauer von 1,5 Sekunden reduziert, da dies die Zeit ist, die Menschen benötigen, um das Gefühl beim Sprechen zu erkennen. Dies ist auch die geringste Länge, bei der eine Vermischung von Emotionen vermieden werden kann.

Die Experten analysierten KI-Modelle, die auf drei verschiedenen Arbeitsweisen basieren. Tiefe neuronale Netze (DNNs) analysieren verschiedene Aspekte von Klängen wie Frequenz oder Tonhöhe, um die zugrundeliegenden Emotionen zu erkennen. Konvolutionale neuronale Netzwerke (CNNs) hingegen suchen nach visuellen Mustern in der Darstellung von Tonspuren, um Emotionen zu identifizieren. Das hybride Modell (C-DNN) kombiniert beide Ansätze, um Emotionen vorherzusagen.

Anschließend wurden diese Modelle anhand beider Datensätze auf ihre Leistung getestet. Dabei zeigte sich, dass die Genauigkeit der DNNs und C-DNNs höher war als die der CNNs. Unabhängig vom verwendeten Modell war die Erkennung von Emotionen mit größerer Wahrscheinlichkeit korrekt als durch reines Raten, was mit der Genauigkeit des menschlichen Urteils vergleichbar ist.

Die Forscher legten großen Wert darauf, ihre Modelle in einem realistischen Umfeld zu testen und die Vorhersagefähigkeiten von Menschen als Referenz heranzuziehen. Wenn die Modelle besser abgeschnitten hätten als die Menschen, wäre dies laut Diemerling ein Hinweis darauf gewesen, dass es Muster gibt, die für uns nicht erkennbar sind.

Die Studie wurde in der Fachzeitschrift “Frontiers in Psychology” veröffentlicht und zeigt, dass es möglich ist, Systeme zu entwickeln, die emotionale Signale sofort interpretieren können. Dies könnte in verschiedenen Situationen, wie beispielsweise in der Therapie oder anderen zwischenmenschlichen Kontexten, in denen Kommunikationstechnologien eingesetzt werden, verwendet werden.

Schlagwörter: Hannes Diemerling + KI + Kanada

Wie bewerten Sie den Schreibstil des Artikels?
1 Star2 Stars3 Stars4 Stars5 Stars
  • 28. März 2024