Wie eXXcellent solutions mit KI die Erforschung von Schlangentoxinen unterstützt

6. Oktober 2021 von David Jenkins

Künstliche Intelligenz (KI) ist mehr und mehr auf dem Vormarsch und wird in immer mehr Bereichen eingesetzt, ob in der Produktion zur Sicherstellung einer hohen Produktqualität und zur Weiterentwicklung der Produktionseffizienz oder im Online-Handel beim Einsatz von Empfehlungsdiensten. KI ist aus vielen unserer Lebensbereiche nicht mehr wegzudenken.

 

Gewöhnliche Sandrasselotter - Echis Carinatus

© Abbildung 1: Gewöhnliche Sandrasselotter / Echis carinatus eine der gefährlichsten Giftschlangen der Welt. Urheber: Saleem Hameed, Bannerghatta, India (Quelle: Wikipedia, Stand Oktober 2021)

 

Und auch in der Medizin hat KI längst Einzug gehalten. In der Neurologie werden beispielsweise Veränderungen im Hirnstoffwechsel bei Alzheimer mittels KI frühzeitig erkannt, wodurch wertvolle Jahre für die Therapie gewonnen werden und sich infolge dessen der Krankheitsverlauf verzögern lässt.

Auch wenn es darum geht, günstigere und effektivere Medikamente für verschiedenste Krankheiten zu entwickeln, kann KI einen wertvollen Beitrag leisten.

So ist z.B. die Entwicklung von Gegengiften, die auf die Auswirkungen von Schlangentoxinen abzielen, sehr aufwendig und teuer und meist auch ethisch fragwürdig - z.B. bei der Methode, die Antikörper von mit Schlangengift injizierten Pferden zu "ernten".

Auch hat sich der größte Hersteller von entsprechend günstigen Gegengiften für die Süd-Sahara in Afrika aus dem Geschäft vollständig zurückgezogen, um für sich profitablere Märkte zu erschließen.

Das Tropical Pharmacology Lab (TPL) an der Danmarks Tekniske Universitet (DTU) in Kopenhagen forscht nach besseren und günstigeren therapeutischen Lösungen. In unserem letzten Blogartikel "Die Erforschung von Schlangengiften mit KI" berichteten wir bereits darüber, wie Schlangentoxine auf den menschlichen Körper wirken. In diesem Blogartikel möchten wir zeigen, wie wir eine neue KI-Lösung auf Basis der Forschung von DeepMind umgesetzt haben, um die Forscher bei der Entwicklung von Gegengiften zu unterstützen.

 

Antikörper & Giftproteine = Schlüssel & Schlüsselloch

Genauso spezifisch wie die Schlangentoxine selbst, zielen umgekehrt auch die Antikörper auf die einzelnen Wirkproteine eines Schlangengifts ab. Mit einer neu entwickelten Herstellungsmethode werden Millionen von produzierten Antikörpern gegen die Schlangentoxine getestet, ob sie genau an eine kritische Stelle des entsprechenden Giftproteins andocken und ihn so deaktivieren können. Es werden sozusagen Schlüssel gesucht, die in das Schlüsselloch passen und mit denen die Auswirkungen von Schlangengiften gemindert oder gar Menschenleben gerettet werden können.

Dieses Verfahren ist wesentlich günstiger und auch ethischer als die herkömmlichen Methoden und ermöglicht außerdem die Herstellung deutlich temperaturstabilere Medikamente, was den Transport und die Lagerung vereinfacht.

Oft gibt es genügend Stellen am Toxin, an die ein Antikörper sich binden kann. Bei den schwierigen Fällen hilft ein Verständnis des Schlüssellochs - also die räumliche Struktur des jeweiligen Schlangengiftes - um zu sehen, wie ein Antikörper andocken könnte und um entsprechende Kandidaten zu selektieren.

 

target-ligand-complex-schluessel

 

© Abbildung 2: Schematic illustration of docking a small molecule ligand (green) to a protein target (black) producing a stable complex (Quelle: Scigenis - Wikipedia.org, Stand Oktober 2021)

 

Das Proteinstrukturproblem

Welche Aminosäuren in einem Protein enthalten sind und in welcher Reihenfolge, kann man relativ einfach bestimmen. Was sich bisher allerdings nur mit massivem Einsatz von Ressourcen ermitteln lässt, ist die räumliche Struktur des Proteins, welches die Aminosäuren bildet.

Jede Aminosäure hat andere atomare Eigenschaften. Sie können eine positive oder negative Ladung tragen oder elektrisch neutral sein. Sie können Wassermoleküle anziehen oder abweisen. Die größte Aminosäure, die unsere Zellen herstellen, das Tryptophan, hat eine Masse 130-mal größer als die Kleinste, das Glycin. Aminosäuren besitzen sogenannten Seitenketten. Das sind Ketten von Molekülen, die maßgeblich das Verhalten der Aminosäure in den Peptid- und auch andere Bindungen bestimmen.

Wenn zwei Aminosäuren eine Peptidbindung eingehen, ziehen diese verschiedene Kräfte in verschiedene Richtungen mit verschiedenen Stärken. Die Bindung wird gewölbt und um die eigene Achse gedreht. So werden die Seitenketten aus ihrer neutralen Position gezogen und das Ergebnis ist ein neues Molekül mit anderen elektrostatischen Eigenschaften, mit anderer Hydrophilizität und mit doppelt so viele Seitenketten.

Nun müssten wir eigentlich berechnen, was passiert, wenn wir die nächste Aminosäure in der Kette andocken. Für die Diamant-Klapperschlange würde das jedoch bedeuten: 1.652 Rechnungen! Und genau das ist das Proteinstrukturproblem.

Lange Zeit bestand die einzige Möglichkeit, die Proteinstruktur zu bestimmen darin, ein Krystal davon zu erzeugen und es mit Röntgenstrahlen zu beschießen. Erst seit der Jahrtausendwende wurden Computer leistungsfähig genug, um das molekulare Verhalten auch virtuell simulieren zu können.

Die Ergebnisse blieben zunächst hinter den Erwartungen zurück. Das hat sich jedoch geändert, denn die Computerleistungen sind inzwischen so hoch, dass KI-Methoden zur Simulation eingesetzt werden können.

 

Das Proteinstrukturproblem und AlphaFold

Mit dem Aufkommen der Computerbiologie wurde das CASP-Programm ins Leben berufen. Alle zwei Jahre versammeln sich Forschergruppen rund um den Globus, um bisher unbekannte, aber kürzlich entschlüsselte Proteinstrukturen rechnerisch zu ermitteln.

 

template-based-modeling-targets

 

 

© Abbildung 3: Protein Structure Prediction Center (Quelle: Protein Structure Prediction Center - Template-based Modeling, Stand Oktober 2021)

Ein berechnetes Struktur-Modell muss eine 90%-ige Genauigkeit aufweisen, um einer experimentell ermittelten Struktur gleichwertig zu sein. Die Abbildung zeigt: Seit dem ersten CASP verbesserten sich die Resultate von 26% im Jahr 1994 bis 55% im Jahr 2014. Das war zu diesem Zeitpunkt immer noch zu ungenau, aber ein langsamer und deutlicher Fortschritt.

Vier Jahre später hat DeepMind, inzwischen ein Konzernunternehmen von Google, zwei neuronale Netzwerke trainiert: eins für die Entfernungen zwischen den Paaren gebundener Aminosäuren und eins für die Ausrichtung oder den Winkel der Peptid-Bindung im Raum. Mit diesem Ansatz schaffte es die erste Iteration ihrer Software (i.e. AlphaFold) auf Anhieb auf einen Spitzenplatz.

 

AlphaFold und NLP

Google war im Jahr 2018 sehr umtriebig. Ein Team um Lukasz Kaiser (von Google Brain) entwickelte das Transformer-Modell, welches die Welt des Natural Language Processing auf dem Kopf stellte. Darüber berichteten wir bereits in unserem Blog-Artikel „Was haben Ernie und Bert mit NLP zu tun?“.

Transformer sind eine hervorragende Wahl, um Textsequenzen zu verarbeiten. Und es hat sich herausgestellt, dass sie auch für andere Sequenzen sehr gute Ergebnisse liefern. Das AlphaFold-Team hat daraufhin ihre Architektur umgebaut, um die Vorteile der Transformer auszunutzen. Das Ergebnis:

 

diagramm-alphafold

© Abbildung 4: Jumper et al. "Highly accurate protein structure prediction with AlphaFold (Quelle: nature.com, Stand Oktober 2021)

 

eXXcellent solutions und AlphaFold

Als DeepMind am 22. Juli 2021 beschloss, AlphaFold samt Code und Modellen zu veröffentlichen, bekamen wir endlich ein Werkzeug in die Hand, mit dem wir die ca. 2000 bekannten Schlangengiftsequenzen analysieren können.

Der veröffentlichte Code ist allerdings eher für die Online-Bearbeitung einzelner Sequenzen gedacht. Wir haben es jedoch so umgebaut, dass wir beliebig viele Sequenzen nacheinander abarbeiten können und dabei:

  • Verbesserungen von Mirdita et al. angewandt;
  • den Umgang mit Alpha-Relaxation für optimale Strukturergebnisse verbessert;
  • robuste Fehlerbehandlung und andere Optimierungen umgesetzt und
  • die Verarbeitung auf Cloud- und TPL- Ressourcen verteilt.

 

Die Gemeine Sandrasselotter (Echis carinatus) ist eine Viper-Art, die über weite Gebiete Asiens verbreitet ist. Als Lauerjäger fliehen Sandrasselottern nicht. Sie schlagen zu, wenn man versehentlich auf sie tritt und ohne festes Schuhwerk ist der Biss der Schlange oft tödlich. Abbildung 5 zeigt fünf AlphaFold-Modelle für einen der Gift-Bestandteile der Sandrasselotter - wobei Blau ist ein guter Wert ist. (Sequenz: UniProtKB - Q9PRP8).

Die nächsten Abbildungen zeigen beispielhaft unsere Ergebnisse für einen wichtigen Bestandteil ihres Toxins, der sogenannte Snaclec.

 

 

predicted-average-error

 

© David Jenkins - Abbildung 5: PredictedAverage Error über den fünf AlphaFold-Modellen für einen Gift-Bestandteil der Sandrasselotter

 

 

sequence-matching

 

© David Jenkins - Abbildung 6: Sequenz-Matching und lokale Entfernungsmetrik (lDDT).

Im Sequenz-Matching und der lokale Entfernungsmetrik (IDDT, Abbildung 6) ist deutlich erkennbar, dass die höchste Ungenauigkeit bei der ersten und letzten Aminosäure in der Sequenz liegt. Dazwischen wird eine Genauigkeit über 85% erreicht.

 

 

struktur-sandrasselotter

© David Jenkins - Abbildung 7: Räumliche Struktur der Sandrasselotter-Sequenzen

Abbildung 7 zeigt die räumliche Struktur von Sandrasselotter-Sequenzen im Vergleich: links das Homologie-Modell von SWISS-MODEL; rechts unser erzieltes Ergebnis mit AlphaFold, bei dem die Pfeile in der Darstellung oben - rechts zusätzlich die Richtung der Sequenz anzeigen. Das bedeutet, unsere ermittelten Sandrasselotter-Sequenzen sind deutlich genauer.

 

Bis zum heutigen Zeitpunkt haben wir 100% der Sequenzen bearbeitet.

Sobald die Qualitätssicherung durch TPL und die Validierung gegen andere Modelle erfolgreich durchgeführt wurden, erfolgt auch die akademische Veröffentlichung.

 

Fazit

eXXcellent solutions war in der Lage, binnen kurzer Zeit die neue Technologie so anzupassen, dass es für die Forschung des Tropical Pharmacology Laboratorys einen wichtigen Beitrag liefert. Die dabei gewonnenen Erkenntnisse unterstützen das TPL auf der Suche nach kostengünstigen und effektiven therapeutischen Lösungen für eine Welt, die gleichermaßen Platz für Mensch und Schlange bietet.

 

 

Weiterführendes Material:

video-clip-1Instituto Butantan with Timothy Jenkins for International Snakebite Awareness Day.

 

Danksagungen:

Diese Arbeit wäre ohne die Bereitschaft mehrere Gruppen und Personen, ihre eigene Forschung zur Verfügung zu stellen, nicht möglich. Unser Dank geht daher an Mirdita et al. (2021) und das Münchener Söding Labor vom Max Planck-Institut for Biophysical Chemistry, sowie natürlich DeepMind. An der TPL haben Prof. Andreas Laustsen und Dr. Timothy Jenkins die TPL-Ressourcen bereitgestellt und die Forschungsidee maßgeblich gestaltet.

 

Quellenverzeichnis:

Jumper et al. "Highly accurate protein structure prediction with AlphaFold."
Nature (2021) doi: 10.1038/s41586-021-03819-2

Minkyung et al. "Accurate prediction of protein structures and interactions using a three-track neural network." Science (2021) doi: 10.1126/science.abj8754

Mirdita M, Ovchinnikov S and Steinegger M. ColabFold - Making protein folding accessible to all.
bioRxiv (2021) doi: 10.1101/2021.08.15.456425

Mol* Bilder von Q9PRP8: Mol*: D. Sehnal, S. Bittrich, M. Deshpande, R. Svobodová, K. Berka, V. Bazgier, S. Velankar, S.K. Burley, J. Koča, A.S. Rose (2021) Mol* Viewer: modern web app for 3D visualization and analysis of large biomolecular structures. Nucleic Acids Research. doi: 10.1093/nar/gkab314).

RCSB PDB: H.M. Berman, J. Westbrook, Z. Feng, G. Gilliland, T.N. Bhat, H. Weissig, I.N. Shindyalov, P.E. Bourne. (2000) The Protein Data Bank Nucleic Acids Research, 28: 235-242. rcsb.org

The UniProt Consortium: UniProt: the universal protein knowledgebase in 2021
Nucleic Acids Res. 49:D1 (2021)

 

 

Weitere Informationen

Wünschen Sie weitere Informationen zum Thema KI, Data & Analytics?

Schreiben Sie mir E-Mail. Ich freue mich auf Ihre Kontaktaufnahme!

emaildavid.jenkins@exxcellent.de

 

Lernen Sie unser gesamtes Portfolio unter exxcellent.de kennen.

bubble-chat-information-2-1Die Erforschung von Schlangengiften mit KI

bubble-chat-information-2-1Was haben Ernie und Bert mit NLP zu tun?

bubble-chat-information-2-1Künstliche Intelligenz: Wo und wie sich der Einsatz in Ihrem Unternehmen lohnt.

bubble-chat-information-2-1Der AI Design Sprint ™ – Erfolgreiche AI-Lösungen im Team konzipieren.

Über David Jenkins

Inselflüchtig wurde David Jenkins bereits 1985 - seitdem lebt er mit seiner Familie in und um München. Seine Laufbahn umfasste alles von Echtzeit-Embedded-Programmen, CAD-Software, Preismodellen für Finanzinstrumente bis hin zur Fahrzeugteileprognose. Seit dem Studium mathematisch interessiert, treibt er die KI-Aktivitäten von eXXcellent solutions in München voran. Und dass sein Sohn Gegengifte für Schlangentoxine erforscht, findet er cool.

Tags: Alle Blogbeiträge, Technologien, KI & Analytics

Newsletteranmeldung.