{"id":7189,"date":"2024-04-29T11:01:42","date_gmt":"2024-04-29T11:01:42","guid":{"rendered":"https:\/\/byte-bucket.com\/2024\/04\/29\/lost-in-the-middle-forscher-entwickeln-neue-methode-zur-verbesserung-von-large-language-models\/"},"modified":"2024-04-29T11:01:42","modified_gmt":"2024-04-29T11:01:42","slug":"lost-in-the-middle-forscher-entwickeln-neue-methode-zur-verbesserung-von-large-language-models","status":"publish","type":"post","link":"https:\/\/byte-bucket.com\/?p=7189","title":{"rendered":"Lost in the Middle: Forscher entwickeln neue Methode zur Verbesserung von Large Language Models"},"content":{"rendered":"<p>Da haben wir es wieder, das altbekannte Problem der Large Language Models (LLMs): das sogenannte &#8222;Lost in the Middle&#8220;. Diese Modelle neigen dazu, den Mittelteil eines Textes oder Kontextes zu \u00fcbersehen. W\u00e4hrend Informationen am Anfang und Ende eines langen Kontextes bekannt und verarbeitet werden k\u00f6nnen, fehlen einfach Informationen aus der Mitte. Das ist ja fast so, als ob man in einem Buch nur die Anfangs- und Schlusss\u00e4tze liest. Neben den Halluzinationen, also der Generierung von erfundenen Informationen, stellt dieses Ph\u00e4nomen eine der gr\u00f6\u00dften Herausforderungen f\u00fcr gro\u00dfe Sprachmodelle dar.<\/p>\n<p>Bisher gibt es noch keine wirkliche L\u00f6sung f\u00fcr dieses Problem. Aber nun haben Forscher von Microsoft in Zusammenarbeit mit Wissenschaftlern der Universit\u00e4t Peking einen Ansatz entwickelt, um das Problem zumindest teilweise zu reduzieren. Sie haben sich gedacht: Das Training der Sprachmodelle ist das Problem! Man \u00fcberwacht nicht ausreichend, ob bei langen Kontexten an allen Stellen entscheidende Informationen vorhanden sind und ob diese verarbeitet werden. Deshalb haben sie das INformation-INtensive (IN2) Training entwickelt.<\/p>\n<p>Die Idee dahinter ist, dass ein umfangreiches, synthetisches Datenset verwendet wird, das aus zuf\u00e4llig verteilten kurzen Segmenten (128 Tokens) besteht und eine Gr\u00f6\u00dfe von 4K bis 32K Tokens hat. Durch diese Methode wird ein Modell trainiert, das auch die relevanten Informationen in den kurzen Passagen ber\u00fccksichtigt. So wird das Problem des &#8222;Lost in the Middle&#8220; angegangen. Dabei haben die Forscher festgestellt, dass manche Fragen sich nur auf ein einzelnes kurzes Segment bezogen, w\u00e4hrend andere Fragen gestellt wurden, bei denen mehrere Segmente von Bedeutung waren, um sie korrekt zu beantworten. Das erinnert mich ein bisschen an einen Detektiv, der verschiedene Puzzleteile zusammensetzen muss, um den Fall zu l\u00f6sen.<\/p>\n<p>Die Forscher haben das Open-Source-Modell Mistral-7B als Grundlage f\u00fcr ihre Untersuchungen verwendet. Nachdem sie es mit IN2-Training weiterentwickelt hatten, nannten sie das resultierende Modell FILM-7B (FILI-in-the-middle). Klingt fast wie ein Hollywood-Film, oder? Die F\u00e4higkeiten des Modells wurden anhand von Aufgaben aus den Bereichen Dokumente, Code und strukturierter Datenkontext sowie Informationsabfragemuster \u00fcberpr\u00fcft.<\/p>\n<p>Und was haben die Forscher herausgefunden? Nun, FILM-7B ist in der Lage, Informationen aus einem 32K-Kontextfenster deutlich effektiver abzurufen und l\u00e4ngere Texte besser zusammenzufassen. Das klingt schon mal vielversprechend! Im Vergleich zum urspr\u00fcnglichen Modell verschlechtern sich dabei Aufgaben, bei denen nur ein kurzer Kontext erforderlich ist, nicht. Also keine Sorge, FILM-7B vergisst nicht das Wesentliche, wenn es nur um ein kurzes St\u00fcck Text geht.<\/p>\n<p>Trotzdem bleibt das Problem des &#8222;Lost in the Middle&#8220; ungel\u00f6st. Das wird auch in den Benchmark-Ergebnissen, die in dem Paper ver\u00f6ffentlicht wurden, deutlich. Es bleibt vorerst nahezu illusorisch, bei jeglichen Aufgaben eine hundertprozentige Genauigkeit der Antworten zu erreichen. Aber hey, das IN2-Training ist ein vielversprechender Ansatz, um die Leistung von Large Language Models zu verbessern und das Problem des &#8222;Lost in the Middle&#8220; zumindest teilweise zu l\u00f6sen. Wir d\u00fcrfen gespannt sein, ob weitere Forschungen und Entwicklungen zu einer vollst\u00e4ndigen L\u00f6sung f\u00fchren k\u00f6nnen. Vielleicht wird es ja bald ein Happy End f\u00fcr die LLMs geben!<\/p>\n<p>Schlagw\u00f6rter: FILM-7B + Large + LLMs<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Da haben wir es wieder, das altbekannte Problem der Large Language Models (LLMs): das sogenannte &#8222;Lost in the Middle&#8220;. Diese Modelle neigen dazu, den Mittelteil eines Textes oder Kontextes zu \u00fcbersehen. W\u00e4hrend Informationen am Anfang und Ende eines langen Kontextes bekannt und verarbeitet werden k\u00f6nnen, fehlen einfach Informationen aus der&#46;&#46;&#46;<\/p>\n","protected":false},"author":4,"featured_media":7188,"comment_status":"","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1],"tags":[],"class_list":["post-7189","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"_links":{"self":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/7189","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/users\/4"}],"replies":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=7189"}],"version-history":[{"count":0,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/posts\/7189\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=\/wp\/v2\/media\/7188"}],"wp:attachment":[{"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=7189"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=7189"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/byte-bucket.com\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=7189"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}