Apple-Mitarbeiter entwickeln multimodales Sprachmodell Ferret-UI zur Erkennung von App-Bedienoberflächen

Apple-Mitarbeiter haben ein multimodales Sprachmodell namens Ferret-UI entwickelt, um die Schwierigkeiten von Sprachmodellen bei der Erkennung spezifischer Elemente von App-Bedienoberflächen zu überwinden. In einem kürzlich veröffentlichten wissenschaftlichen Artikel wurde beschrieben, wie das Sprachmodell darauf trainiert wurde, die Benutzeroberfläche von mobilen Apps zu verstehen.

Ferret-UI wurde speziell darauf trainiert, grundlegende Elemente wie Icons, Beschreibungen und Listen zu erkennen und daraus die zugrunde liegenden Funktionen abzuleiten. Darüber hinaus kann das Sprachmodell Fragen zur App oder zur Benutzeroberfläche beantworten. Wenn der Nutzer eine spezifische Aktion ausführen möchte, ist es das Ziel von Ferret-UI, das entsprechende Bedienelement in der App hervorzuheben.

Die Apple-Mitarbeiter haben bereits mehrere wissenschaftliche Artikel zu Sprachmodellen veröffentlicht. Allerdings ist derzeit unklar, ob und auf welche Weise diese Fähigkeiten in iOS 18 integriert werden. Es bleibt also abzuwarten, ob Ferret-UI in zukünftigen Versionen des Betriebssystems Einzug halten wird.

Multimodale Sprachmodelle haben in den letzten Jahren große Fortschritte gemacht und sind in der Lage, komplexe Aufgaben wie Bilderkennung und Sprachverständnis zu bewältigen. Dennoch stoßen sie immer noch auf Schwierigkeiten, wenn es darum geht, spezifische Elemente von App-Bedienoberflächen zu verstehen. Ferret-UI könnte hier einen wichtigen Schritt nach vorn bedeuten und die Interaktion mit mobilen Apps erleichtern.

Schlagwörter: Ferret-UI + LLM + Apple

Wie bewerten Sie den Schreibstil des Artikels?

10. April 2024