Lost in the Middle: Forscher entwickeln neue Methode zur Verbesserung von Large Language Models

Da haben wir es wieder, das altbekannte Problem der Large Language Models (LLMs): das sogenannte „Lost in the Middle“. Diese Modelle neigen dazu, den Mittelteil eines Textes oder Kontextes zu übersehen. Während Informationen am Anfang und Ende eines langen Kontextes bekannt und verarbeitet werden können, fehlen einfach Informationen aus der Mitte. Das ist ja fast so, als ob man in einem Buch nur die Anfangs- und Schlusssätze liest. Neben den Halluzinationen, also der Generierung von erfundenen Informationen, stellt dieses Phänomen eine der größten Herausforderungen für große Sprachmodelle dar.

Bisher gibt es noch keine wirkliche Lösung für dieses Problem. Aber nun haben Forscher von Microsoft in Zusammenarbeit mit Wissenschaftlern der Universität Peking einen Ansatz entwickelt, um das Problem zumindest teilweise zu reduzieren. Sie haben sich gedacht: Das Training der Sprachmodelle ist das Problem! Man überwacht nicht ausreichend, ob bei langen Kontexten an allen Stellen entscheidende Informationen vorhanden sind und ob diese verarbeitet werden. Deshalb haben sie das INformation-INtensive (IN2) Training entwickelt.

Die Idee dahinter ist, dass ein umfangreiches, synthetisches Datenset verwendet wird, das aus zufällig verteilten kurzen Segmenten (128 Tokens) besteht und eine Größe von 4K bis 32K Tokens hat. Durch diese Methode wird ein Modell trainiert, das auch die relevanten Informationen in den kurzen Passagen berücksichtigt. So wird das Problem des „Lost in the Middle“ angegangen. Dabei haben die Forscher festgestellt, dass manche Fragen sich nur auf ein einzelnes kurzes Segment bezogen, während andere Fragen gestellt wurden, bei denen mehrere Segmente von Bedeutung waren, um sie korrekt zu beantworten. Das erinnert mich ein bisschen an einen Detektiv, der verschiedene Puzzleteile zusammensetzen muss, um den Fall zu lösen.

Die Forscher haben das Open-Source-Modell Mistral-7B als Grundlage für ihre Untersuchungen verwendet. Nachdem sie es mit IN2-Training weiterentwickelt hatten, nannten sie das resultierende Modell FILM-7B (FILI-in-the-middle). Klingt fast wie ein Hollywood-Film, oder? Die Fähigkeiten des Modells wurden anhand von Aufgaben aus den Bereichen Dokumente, Code und strukturierter Datenkontext sowie Informationsabfragemuster überprüft.

Und was haben die Forscher herausgefunden? Nun, FILM-7B ist in der Lage, Informationen aus einem 32K-Kontextfenster deutlich effektiver abzurufen und längere Texte besser zusammenzufassen. Das klingt schon mal vielversprechend! Im Vergleich zum ursprünglichen Modell verschlechtern sich dabei Aufgaben, bei denen nur ein kurzer Kontext erforderlich ist, nicht. Also keine Sorge, FILM-7B vergisst nicht das Wesentliche, wenn es nur um ein kurzes Stück Text geht.

Trotzdem bleibt das Problem des „Lost in the Middle“ ungelöst. Das wird auch in den Benchmark-Ergebnissen, die in dem Paper veröffentlicht wurden, deutlich. Es bleibt vorerst nahezu illusorisch, bei jeglichen Aufgaben eine hundertprozentige Genauigkeit der Antworten zu erreichen. Aber hey, das IN2-Training ist ein vielversprechender Ansatz, um die Leistung von Large Language Models zu verbessern und das Problem des „Lost in the Middle“ zumindest teilweise zu lösen. Wir dürfen gespannt sein, ob weitere Forschungen und Entwicklungen zu einer vollständigen Lösung führen können. Vielleicht wird es ja bald ein Happy End für die LLMs geben!

Schlagwörter: FILM-7B + Large + LLMs

Wie bewerten Sie den Schreibstil des Artikels?

29. April 2024