Gutachter haben Probleme, menschen- und ChatGPT-Artikel zu unterscheiden: Studie

Ist es ein Mensch oder ein ChatGPT? Diese Frage beschäftigt Gutachterinnen und Gutachter von tiermedizinischen Fachartikeln. Insbesondere für Nicht-Experten wird es schwierig zu erkennen, ob ein wissenschaftlicher Artikel von einem Menschen oder von einem Chatbot erstellt wurde.

Ein Team von Tiermedizinerinnen und Tiermedizinern der Klinik für Kleintiere an der Stiftung Tierärztliche Hochschule Hannover hat gemeinsam mit Forschenden aus verschiedenen europäischen Institutionen eine Studie durchgeführt, um dieses Problem zu untersuchen. Ihr Fokus lag dabei auf dem Fachgebiet der Neurologie. Die Ergebnisse dieser Untersuchung wurden unter dem lustigen Titel „ChatGPT und wissenschaftliche Artikel in der tierärztlichen Neurologie: Ist der Geist aus der Flasche?“ in der Fachzeitschrift „Frontiers in Veterinary Science“ veröffentlicht.

In der Studie wurde die Leistungsfähigkeit von ChatGPT bei der Generierung veterinärmedizinischer neurologischer Forschungsarbeiten bewertet. Es wurden Abstracts und Einleitungen erstellt und anschließend einer Analyse unterzogen. Dabei wurden drei spezifische Forschungsbereiche ausgewählt: entzündliche Erkrankungen des Gehirns, Epilepsie und die Geruchserkennung bei Hunden. Zusätzlich wurden die Texte mit KI- und Plagiatserkennungssoftware überprüft.

Dr. Samira Abani, die Erstautorin der Studie und Mitglied der Klinik für Kleintiere, erklärt, dass ihre Untersuchung Licht auf die Vor- und Nachteile von ChatGPT im Bereich der Tiermedizin wirft. Ein negativer Aspekt ist zum Beispiel, dass ChatGPT dazu neigt, Halluzinationen zu haben und Dinge zu erfinden, wenn es ausschließlich für das Verfassen wissenschaftlicher Dokumente eingesetzt wird. Aber es gibt auch positive Beispiele, bei denen die Anwendung von ChatGPT dazu genutzt werden kann, Dokumente für Nicht-Muttersprachler des Englischen zu überarbeiten und somit die Nachteile nicht englischsprachiger Forschender zu überwinden.

Dr. Jasmin Nessler, wissenschaftliche Mitarbeiterin in der Klinik für Kleintiere, fügt hinzu, dass die Ergebnisse äußerst aufschlussreich waren. Selbst erfahrene Neurologinnen und Neurologen hatten Schwierigkeiten, zwischen von ChatGPT generierten und von Menschen verfassten Abstracts zu unterscheiden, insbesondere wenn ihre Fachkenntnisse abnahmen. Das zeigt, wie gut ChatGPT menschliche Schreibstile nachahmen und zusammenhängende und plausible Texte generieren kann.

Professor Holger Volk, der Leiter der Klinik für Kleintiere, betont, dass selbst erfahrene Gutachterinnen und Gutachter leicht getäuscht werden können, da Sprachmodelle wie ChatGPT darauf spezialisiert sind, menschliche Schreibstile perfekt zu imitieren. Das hat weitreichende Folgen für die wissenschaftliche Gemeinschaft und erfordert eine Überprüfung der herkömmlichen Kriterien zur Bewertung von Fachartikeln.

Die Originalpublikation mit dem Titel „ChatGPT and Scientific Papers in Veterinary Neurology; Is the Genie Out of the Bottle?“ von Samira Abani, Holger Andreas Volk und vielen anderen ist in der Fachzeitschrift „Frontiers in Veterinary Science“ erschienen.

Schlagwörter: Gutachter + ChatGPT + Neurologie

Wie bewerten Sie den Schreibstil des Artikels?

19. Oktober 2023