Meta präsentiert neue Forschungsprojekte: Revolutionäre KI-Technologien für Lernen, Kommunikation und Audio

Das Unternehmen Meta, das hinter Facebook steht, hat kürzlich drei neue Forschungsprojekte seines Fundamental AI Research (FAIR) Teams vorgestellt. Diese Projekte, Ego-Exo4D, Seamless Communication und Audiobox, sollen die KI-Forschung auf verschiedenen Gebieten vorantreiben.

Ego-Exo4D ist ein Datensatz und ein Benchmarkset, das die KI-Forschung im Bereich des Video-Lernens und der multimodalen Wahrnehmung unterstützen soll. Über einen Zeitraum von zwei Jahren haben das FAIR-Team von Meta, Project Aria und 15 Universitätspartner Material gesammelt. Dieses Material enthält sowohl subjektive Ansichten aus der Kamera einer Person, die die Project Aria-Brille trägt, als auch objektive Ansichten aus den Kameras der Umgebung. Der Fokus des Datensatzes liegt auf anspruchsvollen menschlichen Aktivitäten wie Sport, Musik, Kochen, Tanzen und Fahrradreparaturen. Meta sieht potenzielle Einsatzmöglichkeiten für Ego-Exo4D, insbesondere in Augmented Reality (AR) Systemen. Durch das Tragen einer intelligenten Brille könnte eine Person mit Hilfe eines virtuellen KI-Trainers, der sie durch ein Anleitungsvideo führt, schnell neue Fähigkeiten erwerben. Auch in der Robotik könnte ein Roboter, der Menschen in seiner Umgebung beobachtet, neue Handhabungsfertigkeiten lernen, selbst wenn er nur über begrenzte physische Erfahrung verfügt. Darüber hinaus könnten sich in den Weiten der sozialen Netzwerke neue Gemeinschaften bilden, deren Grundlage das Teilen von Wissen und komplementären Fähigkeiten in Form von Videos ist. Im Dezember wird der Datensatz als Open Source zur Verfügung stehen und im nächsten Jahr ist ein öffentlicher Benchmark-Wettbewerb für Ego-Exo4D geplant.

Seamless Communication ist ein Projekt, das auf dem multimodalen Übersetzungsmodell SeamlessM4T aufbaut. Im August wurde SeamlessM4T von Meta vorgestellt und ermöglicht eine natürlichere und authentischere Kommunikation über Sprachgrenzen hinweg. Das Projekt umfasst vier Modelle, darunter SeamlessExpressive, das die Ausdruckskraft und Nuancen der Sprache über Sprachgrenzen hinweg bewahrt. SeamlessStreaming ermöglicht Sprach- und Textübersetzungen mit einer Verzögerung von etwa zwei Sekunden. SeamlessM4T v2 ist ein mehrsprachiges und multitasking-fähiges Modell, das mühelose Kommunikation durch Sprache und Text ermöglicht. Seamless vereint die Fähigkeiten von SeamlessExpressive, SeamlessStreaming und SeamlessM4T v2 in einem Modell. Meta bietet eine Demo von SeamlessExpressive an, mit der Nutzer ihre Stimme in Echtzeit übersetzen lassen können.

Audiobox ist das neue Audiogenerierungsmodell von Meta. Es ermöglicht die Erstellung von maßgeschneiderten Audiodateien für verschiedene Anwendungsbereiche, indem es Spracheingabe und natürlichsprachliche Textprompts kombiniert. Im Vergleich zu seinem Vorgänger, Voicebox, bietet Audiobox eine verbesserte Kontrollierbarkeit, da Benutzer natürlichsprachliche Prompts verwenden können, um den gewünschten Klang oder die gewünschte Art von Sprache zu erzeugen. Um den Fortschritt der Forschung zur Audiogenerierung voranzutreiben und eine verantwortungsvolle Entwicklung von künstlicher Intelligenz sicherzustellen, wird das Modell zunächst einer spezifischen Gruppe von Forschern und akademischen Einrichtungen zugänglich gemacht.

Mit diesen neuen Forschungsprojekten zeigt Meta einmal mehr sein Engagement für die Weiterentwicklung von KI-Technologien. Die Projekte Ego-Exo4D, Seamless Communication und Audiobox haben das Potenzial, die Art und Weise, wie wir lernen, kommunizieren und Audioinhalte erstellen, zu revolutionieren. Es bleibt abzuwarten, wie sich diese Projekte weiterentwickeln und welche neuen Anwendungsmöglichkeiten sie in der Zukunft bieten werden.

Schlagwörter: Metas FAIR-Team + Ego-Exo4D + Seamless Communication + SeamlessStreaming + SeamlessM4T v2

Wie bewerten Sie den Schreibstil des Artikels?
1 Star2 Stars3 Stars4 Stars5 Stars
  • 20. Dezember 2023