Studie: KI-Techniken könnten vermehrt bei Vorabbegutachtung von wissenschaftlichen Arbeiten eingesetzt werden
KI-Techniken wie ChatGPT und ähnliche Modelle könnten in Zukunft vermehrt bei der Vorabbegutachtung von wissenschaftlichen Arbeiten eingesetzt werden, so eine Studie. Diese Untersuchung deutet darauf hin, dass in englischsprachigen Peer Reviews häufiger Vokabeln verwendet werden, die von KI-Systemen bevorzugt werden. Dies wurde durch die Analyse der Häufigkeit dieser Vokabeln festgestellt. Unabhängige Gutachter von Arbeiten, die bei verschiedenen KI-Konferenzen eingereicht wurden, verwenden seit der Verfügbarkeit von ChatGPT vermehrt Wörter wie “commendable”, “innovative”, “meticulous”, “intricate”, “notable” und “versatile”. In den Peer Reviews für das Forschungsmagazin Nature hingegen wurde kein solcher Anstieg festgestellt.
Gleichzeitig wurde ein Fall von 404 Media aufgedeckt, bei dem ein Forscher vermutet, dass seine Begutachtung von einer KI durchgeführt wurde. Er kann dies jedoch nicht beweisen. Das Peer-Review-Verfahren umfasst die Überprüfung von Forschungsarbeiten durch Fachexperten aus dem entsprechenden Fachgebiet, bevor sie in wissenschaftlichen Fachzeitschriften veröffentlicht werden. Das System leidet seit langem unter Überlastung und befindet sich in einer Krise. Die Verwendung von KI-Sprachmodellen könnte hier eine ideale Lösung sein. Die Technologie ermöglicht nicht nur das Generieren von Zusammenfassungen, sondern auch gezielte Verbesserungsvorschläge. Es ist jedoch nicht immer offensichtlich, ob ein Text von einem solchen System generiert wurde, und Texte können fälschlicherweise als KI-Erzeugnisse eingestuft werden.
Laut 404 Media zitiert der italienische Linguist Nicholas LoVecchio, der glaubt, dass zwei anonyme Peer Reviews zu seiner Forschungsarbeit größtenteils von einer KI erstellt wurden. Er kommt zu diesem Schluss, indem er feststellt, dass die Gutachten oberflächlich waren und sich nicht wirklich mit seiner Arbeit auseinandergesetzt haben. Das Magazin hat die Vorwürfe zurückgewiesen und auch die Gutachter haben dem widersprochen. LoVecchio stützt sich nicht nur auf sein eigenes Gefühl, sondern auch auf die Ergebnisse mehrerer KI-Detektoren, die übereinstimmend angegeben haben, dass die Gutachten höchstwahrscheinlich generiert wurden. Es ist jedoch bekannt, dass diese Detektoren häufig falsch liegen.
Eine umfangreichere Analyse wurde von einem Forschungsteam der Universität Stanford durchgeführt. Sie haben eine große Anzahl von Gutachten nach bestimmten Begriffen durchsucht, die bei Textgeneratoren häufiger vorkommen als bei Menschen. Die Ergebnisse zeigen, dass in letzter Zeit eine signifikante Zunahme dieser Begriffe festgestellt wurde. Schätzungsweise 6,5 bis 16,9 Prozent aller Peer Reviews wiesen eine deutliche Veränderung auf, die auf den Einsatz von Sprachmodellen zurückzuführen war. Es wurde auch festgestellt, dass vermutlich KI-generierte Peer Reviews besonders häufig kurz vor Ablauf der Frist eingereicht wurden. Dies legt nahe, dass Gutachter unter Zeitdruck vermehrt auf die neue Technologie zurückgreifen.
Es ist wichtig zu beachten, dass die in dieser Arbeit auf Arxiv.org veröffentlichten Ergebnisse bisher noch keiner Begutachtung unterzogen wurden. Es bedarf weiterer Untersuchungen, um die Auswirkungen von KI-Techniken auf das Peer-Review-Verfahren genauer zu betrachten.
Schlagwörter: Peer Reviews + ChatGPT + KI
Wie bewerten Sie den Schreibstil des Artikels?