{"id":5825,"date":"2024-03-20T15:01:35","date_gmt":"2024-03-20T15:01:35","guid":{"rendered":"https:\/\/byte-bucket.com\/2024\/03\/20\/google-entwickelt-ki-modell-screenai-zur-verbesserung-der-verstaendlichkeit-und-anwendung-bildlicher-sprache\/"},"modified":"2024-03-20T15:01:35","modified_gmt":"2024-03-20T15:01:35","slug":"google-entwickelt-ki-modell-screenai-zur-verbesserung-der-verstaendlichkeit-und-anwendung-bildlicher-sprache","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=5825","title":{"rendered":"Google entwickelt KI-Modell ScreenAI zur Verbesserung der Verst\u00e4ndlichkeit und Anwendung bildlicher Sprache"},"content":{"rendered":"<p>Google hat ein KI-Modell namens ScreenAI entwickelt, das darauf abzielt, bildliche Sprache besser zu verstehen und anzuwenden. Das Modell analysiert visuelle Elemente wie Benutzeroberfl\u00e4chen, Symbole, Tabellen, Infografiken und Layouts und stellt diese Informationen gro\u00dfen Sprachmodellen zur Verf\u00fcgung. Dadurch k\u00f6nnen die Sprachmodelle Webseiten, Infografiken und andere visuelle Elemente verstehen, Fragen dazu beantworten und auf der Oberfl\u00e4che navigieren. Das Modell basiert auf der PaLI-Architektur und wurde um pix2struct erweitert. Es wurde mit Hilfe eines multimodalen Encoder-Blocks und eines autoregressiven Decoders trainiert. Ein Vision-Transformer generiert eine semantische Beschreibung der Bilder, die dem Encoder als Eingabe dient. Das Modell wurde verschiedenen Benchmark-Tests unterzogen, um seine Leistung zu \u00fcberpr\u00fcfen. Weitere Informationen sind in einem wissenschaftlichen Paper und einem Blogbeitrag von Google verf\u00fcgbar. Mit dieser Entwicklung m\u00f6chte Google die Verbindung zwischen bildlicher Sprache und KI st\u00e4rken und die Anwendbarkeit von visuellen Elementen verbessern.<\/p>\n<p>Schlagw\u00f6rter: Google + ScreenAI + ViT<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Google hat ein KI-Modell namens ScreenAI entwickelt, das darauf abzielt, bildliche Sprache besser zu verstehen und anzuwenden. Das Modell analysiert visuelle Elemente wie Benutzeroberfl\u00e4chen, Symbole, Tabellen, Infografiken und Layouts und stellt diese Informationen gro\u00dfen Sprachmodellen zur Verf\u00fcgung. Dadurch k\u00f6nnen die Sprachmodelle Webseiten, Infografiken und andere visuelle Elemente verstehen, Fragen dazu&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":5824,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-5825","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/5825","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=5825"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/5825\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/5824"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=5825"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=5825"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=5825"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}