Verbesserung der KI-Black Box: Potenzial von GNNs in der Arzneimittelforschung, aber überbewertete Vorhersagen!
KI-Programme in der Arzneimittelforschung: Neue Erkenntnisse enthüllen undurchsichtige Prognosemethoden
Die Verbreitung von Künstlicher Intelligenz (KI) schreitet unaufhaltsam voran. Bisher waren die Anwendungen oft undurchsichtig, doch nun wird das Geheimnis gelüftet: Prof. Dr. Jürgen Bajorath, Chemieinformatiker an der Universität Bonn, hat mit seinem Team eine Methode entwickelt, die aufzeigt, wie bestimmte KI-Anwendungen in der Arzneimittelforschung agieren. Die Ergebnisse sind überraschend: Die KI-Programme basierten weitgehend auf bereits bekannten Daten und vernachlässigten bei der Vorhersage von Arzneimittelwirksamkeiten die spezifischen chemischen Wechselwirkungen. Die Ergebnisse wurden nun in Nature Machine Intelligence veröffentlicht.
Forschende sind intensiv auf der Suche nach wirksamen Wirkstoffen, um Krankheiten effektiv zu behandeln. Oft binden diese Medikamente an ein Protein. Dabei handelt es sich meistens um Enzyme oder Rezeptoren, die eine spezifische Wirkungskette auslösen. Manchmal sollen bestimmte Moleküle auch unerwünschte Reaktionen im Körper verhindern, wie beispielsweise eine übermäßige Entzündungsreaktion. Aufgrund der Vielzahl an verfügbaren chemischen Verbindungen scheint diese Forschung auf den ersten Blick einer Suche nach der sprichwörtlichen Nadel im Heuhaufen ähnlich.
Um herauszufinden, welche Moleküle am effektivsten an das Zielprotein binden und eine starke Bindung eingehen, bemüht sich die Arzneimittelforschung, mithilfe wissenschaftlicher Modelle Vorhersagen zu treffen. Im Anschluss werden diese potenziellen Wirkstoffe in experimentellen Studien einer detaillierten Untersuchung unterzogen. Seitdem Künstliche Intelligenz immer mehr an Bedeutung gewinnt, greift auch die Arzneimittelforschung vermehrt auf Anwendungen des Maschinellen Lernens zurück.
Eine Option für derartige KI-Anwendungen sind Graph-Neuronale-Netzwerke (GNNs). Sie haben zum Ziel, beispielsweise die Bindungsstärke eines bestimmten Moleküls an ein Zielprotein vorherzusagen. Hierfür erfolgt das Training von GNN-Modellen mit Graphen, welche komplexe Strukturen von Proteinen und chemischen Verbindungen (Liganden) repräsentieren. Im Allgemeinen bestehen Graphen aus Knoten, die als Objekte fungieren, und Kanten, die die Beziehungen zwischen den Objekten darstellen. In den molekularen Graphen von Protein-Liganden-Komplexen existieren Verbindungen, die entweder Protein- oder Liganden-Knoten repräsentieren und die Struktur von Protein und Ligand erfassen. Darüber hinaus gibt es weitere Verbindungen, die Protein- und Liganden-Knoten verbinden und spezifische Wechselwirkungen darstellen.
Prof. Dr. Jürgen Bajorath erklärt, dass es wie eine undurchsichtige Black Box ist, wie GNNs zu ihren Prognosen gelangen und man keinen Einblick in den Vorgang hat. Der Chemieinformatiker vom LIMES-Institut der Universität Bonn, vom Bonn-Aachen International Center for Information Technology (B-IT) und vom Lamarr-Institut für Maschinelles Lernen und Künstliche Intelligenz in Bonn hat gemeinsam mit Forschern der Sapienza Universität in Rom eine detaillierte Analyse durchgeführt. Dabei wurde untersucht, ob die Graph Neuronalen Netze tatsächlich in der Lage sind, Protein-Liganden-Wechselwirkungen zu erlernen und vorherzusagen, wie stark ein Wirkstoff an ein Zielprotein bindet.
Die Funktionsweise der KI-Anwendungen wurde von den Forschenden untersucht. Sie analysierten insgesamt sechs verschiedene GNN-Modelle mithilfe ihrer eigens entwickelten Methode namens EdgeSHAPer und verglichen sie mit einer konzeptionell unterschiedlichen Methode. Diese Computerprogramme analysieren, ob die GNNs tatsächlich die wichtigsten Interaktionen zwischen Wirkstoff und Protein erlernen und somit die Wirksamkeit wie von den Forschern beabsichtigt und erwartet vorhersagen – oder ob die KI lediglich Teilprozesse untersucht und auf alternative Weise zu den Vorhersagen gelangt.
Laut Doktorand Andrea Mastropietro von der Sapienza Universität in Rom, der während eines Teils seiner Doktorarbeit in der Arbeitsgruppe von Prof. Bajorath in Bonn tätig war, sind die GNNs stark von den Trainingsdaten abhängig. Die Forscher haben sechs GNNs mit Graphen trainiert, die aus Strukturdaten von Komplexen stammten, bei denen bereits aus Experimenten bekannt war, wie chemische Verbindungen an ihre Zielproteine binden und wirken. Anschließend wurden die trainierten GNNs mit anderen Komplexen getestet. Aufgrund dessen konnten die Forscher verstehen, wie die KI arbeitet, um auf den ersten Blick vielversprechende Vorhersagen in diesen Berechnungen zu erzeugen.
Laut Prof. Bajorath sollten die GNNs, wenn sie wie erwartet funktionieren, hauptsächlich die Wechselwirkungen zwischen Wirkstoff und Zielprotein erlernen und die Vorhersagen sollten durch die Priorisierung spezifischer Wechselwirkungen bestimmt werden. Die Auswertungen des Forscherteams ergaben jedoch, dass die sechs KI-Programme ihr Ziel verfehlen. Die Mehrheit der GNNs (Graph Neural Networks) erfasst lediglich eine begrenzte Anzahl von Protein-Wirkstoff-Wechselwirkungen und konzentriert sich hauptsächlich auf bestimmte Regionen der Wirkstoffmoleküle.
Bajorath erklärt, dass die Modelle hauptsächlich auf chemisch ähnliche Moleküle zurückgreifen, die sie während des Trainings kennengelernt haben, um die Bindungsstärke eines Moleküls an ein Zielprotein vorherzusagen. Dabei berücksichtigen sie die Bindungsdaten unabhängig vom spezifischen Zielprotein. Die Vorhersagen werden im Wesentlichen durch diese erlernten chemischen Ähnlichkeiten bestimmt. Gemäß der Auffassung der Forscher verhält es sich hier größtenteils ähnlich wie beim Klugen-Hans-Phänomen. Dabei handelt es sich um eine Situation, in der ein Pferd angeblich rechnen konnte. Das Rechenergebnis sollte anzeigen, wie häufig Hans den Huf geklopft hat. Später stellte sich heraus, dass das Rechenpferd nicht wirklich rechenkundig war. Stattdessen konnte es anhand subtiler Nuancen in Mimik und Gestik seines Begleiters erkennen, um welches Ergebnis es sich handelte.
Welche Auswirkungen haben die Ergebnisse auf die Anwendung von Graph Neuronalen Netzen in der Arzneimittelstudie? Der Chemieinformatiker stellt fest, dass es generell nicht haltbar ist, dass die GNNs das chemische Zusammenspiel von Wirkstoffen und Proteinen erlernen können. Daher sind ihre Vorhersagen weitgehend überbewertet, da ähnlich qualitativ hochwertige Prognosen mit chemischem Wissen und einfachen Methoden erstellt werden können.
Dennoch gibt es auch hier weitere Möglichkeiten für die KI. Zwei der untersuchten GNN-Modelle zeigten eine klare Neigung, mehr Wechselwirkungen zu erlernen, wenn die Wirksamkeit bekannter Wirkstoffe zunahm. Bajorath betont, dass es hier von Vorteil ist, einen genaueren Blick darauf zu werfen. Es besteht die Möglichkeit, dass durch angepasste Trainingsmethoden diese GNNs weiterhin in die gewünschte Richtung verbessert werden könnten. Dennoch sollte man vorsichtig sein, wenn man annimmt, dass physikalische Eigenschaften aufgrund von molekularen Graphen erlernt werden können. Künstliche Intelligenz ist kein Zauberwerk, betont Bajorath.
Der Chemieinformatiker sieht vielversprechende Möglichkeiten, um das Geheimnis der Künstlichen Intelligenz zu lüften. Mit dem open access publizierten EdgeSHAPer und anderen eigens entwickelten Analysetools können neue Ansätze gefunden werden, um Licht in die undurchsichtige Natur der KI zu bringen. Aktuell konzentriert sich das Team auf den Einsatz von GNNs und neuen chemischen Sprachmodellen. Die Entwicklung von Erklärungsmethoden für Vorhersagen komplexer Modelle ist ein bedeutendes Forschungsgebiet im Bereich der Künstlichen Intelligenz. Es gibt auch Ansätze für andere Netzwerkarchitekturen wie Textverarbeitungs-KI, die dazu beitragen, ein besseres Verständnis dafür zu erlangen, wie maschinelles Lernen zu seinen Ergebnissen gelangt, erklärt Bajorath.
Schlagwörter: Arzneimittelforschung + Künstliche Intelligenz KI + Graph Neuronale Netze GNNs
Wie bewerten Sie den Schreibstil des Artikels?