Roboter navigieren mit Hilfe von Textbeschreibungen statt visueller Informationen

Das Massachusetts Institute of Technology (MIT) hat in Zusammenarbeit mit dem MIT-IBM Watson AI Lab eine Methode zur Navigation entwickelt, bei der visuelle Informationen in Text umgewandelt werden. Dies ermöglicht es einem Roboter, sprachgesteuert in seiner Umgebung zu navigieren, ohne auf komplexe visuelle Verfahren angewiesen zu sein. Die Methode wurde in einem wissenschaftlichen Paper mit dem Titel “LangNav: Language as a Perceptual Representation for Navigation” beschrieben und als Preprint auf Arxiv veröffentlicht.

Wenn ein Haushaltsroboter beispielsweise angewiesen wird, eine Waschmaschine im Keller zu befüllen, muss er die sprachliche Anweisung in mehrere Einzelschritte aufteilen und nacheinander ausführen. Hierbei ist es wichtig, dass der Roboter die Anweisungen mit den visuellen Informationen kombiniert, die er erfasst. Normalerweise erfordert dies eine große Menge an visuellen Trainingsdaten, die oft schwer zu beschaffen sind. Die Methode des MIT verwendet stattdessen eine textbasierte Repräsentation der visuellen Daten. Diese Textbeschreibungen werden in ein umfangreiches Sprachmodell eingespeist, das die Handlungen des Roboters prognostiziert.

Ein Vorteil dieser Methode besteht darin, dass mithilfe des Sprachmodells eine große Menge an synthetischen Trainingsdaten erzeugt werden kann. Im Gegensatz dazu ist es für visuelle Methoden oft schwierig, genügend Trainingsdaten zu erhalten. Die Wissenschaftler des MIT haben die Herausforderung der Umwandlung visueller Daten in Textbeschreibungen erfolgreich bewältigt, indem sie ein einfaches Beschriftungsmodell verwendet haben. Die sprachbasierten Anweisungen des Nutzers werden mit den Beschriftungen kombiniert und in das Sprachmodell eingespeist, das dann entscheidet, welchen nächsten Navigationsbefehl der Roboter ausführen soll.

Das Sprachmodell gibt eine Beschreibung der Szene aus, die der Roboter nach Abschluss eines Navigationsbefehls wahrnehmen sollte. Dadurch entsteht eine Art Aufzeichnung der Bewegungsbahn des Roboters. Die textbasierte Methode hat sich in Tests als ähnlich effektiv erwiesen wie rein visuelle Verfahren, bietet jedoch mehrere Vorteile. Sie erfordert weniger Rechenleistung zur Generierung synthetischer Trainingsdaten und ermöglicht eine einfachere Analyse im Vergleich zu computergenerierten visuellen Trainingsinformationen. Darüber hinaus ist die textbasierte Methode für den Menschen leichter verständlich. (pz)

Schlagwörter: LLM + Bowen Pan + MIT

Wie bewerten Sie den Schreibstil des Artikels?
1 Star2 Stars3 Stars4 Stars5 Stars
  • 12. Juni 2024