Google entwickelt KI-Modell ScreenAI zur Verbesserung der Verständlichkeit und Anwendung bildlicher Sprache

Google hat ein KI-Modell namens ScreenAI entwickelt, das darauf abzielt, bildliche Sprache besser zu verstehen und anzuwenden. Das Modell analysiert visuelle Elemente wie Benutzeroberflächen, Symbole, Tabellen, Infografiken und Layouts und stellt diese Informationen großen Sprachmodellen zur Verfügung. Dadurch können die Sprachmodelle Webseiten, Infografiken und andere visuelle Elemente verstehen, Fragen dazu beantworten und auf der Oberfläche navigieren. Das Modell basiert auf der PaLI-Architektur und wurde um pix2struct erweitert. Es wurde mit Hilfe eines multimodalen Encoder-Blocks und eines autoregressiven Decoders trainiert. Ein Vision-Transformer generiert eine semantische Beschreibung der Bilder, die dem Encoder als Eingabe dient. Das Modell wurde verschiedenen Benchmark-Tests unterzogen, um seine Leistung zu überprüfen. Weitere Informationen sind in einem wissenschaftlichen Paper und einem Blogbeitrag von Google verfügbar. Mit dieser Entwicklung möchte Google die Verbindung zwischen bildlicher Sprache und KI stärken und die Anwendbarkeit von visuellen Elementen verbessern.

Schlagwörter: Google + ScreenAI + ViT

Wie bewerten Sie den Schreibstil des Artikels?

20. März 2024