Direkt zum Seiteninhalt springen

von

Künstliche Intelligenz (KI) und maschinelles Lernen (ML) sind die aktuellen Hoffnungsträger der biotechnologischen Arzneimittelentwicklung. Diese neuen Ansätze revolutionieren den Prozess der Entdeckung und Entwicklung von Proteinwirkstoffen, indem künstliche Intelligenz und maschinelles Lernen mit automatisierten Hochdurchsatzverfahren im Labor vereint werden. Damit soll die Arzneimittelentwicklung in der Zukunft deutlich verkürzt werden. Dieser Beitrag ist Teil unserer Reihe zur Nano- und Biotechnologie und ist entstanden in Zusammenarbeit mit der Amgen GmbH. Das Biotechnologieunternehmen mit Sitz in München unterstützt als Partner den Bereich Nano- und Biotechnologie im Deutschen Museum. In der Forschung bei Amgen werden diese Methoden der sogenannten generativen Biologie bereits erfolgreich eingesetzt.

Therapeutische Proteine

In der „klassischen“ Pharmakologie, also der Arzneimittellehre, werden zum Großteil niedermolekulare Wirkstoffe eingesetzt. Dabei handelt es sich um vergleichsweise einfache, kleine Moleküle, so zum Beispiel das Virostatikum Aciclovir zur Behandlung von Herpes oder auch die allseits bekannte Acetylsalicylsäure in Form von Aspirin. Seit den 1980er Jahren gibt es darüber hinaus eine stetig ansteigende Zahl an Biopharmazeutika auf dem Markt. Dabei handelt es sich vereinfacht gesagt um Arzneimittel, die zumindest teilweise aus biologischen Quellen stammen und in lebenden Zellen produziert werden. Dazu zählen unter anderem tierisches Gewebe, Blutbestandteile, Stammzellen, sowie Produkte, die aus Zellen gewonnen werden. Der Großteil davon sind therapeutische Antikörper und andere Proteine. Bekannte Beispiele sind Insulin oder auch rekombinantes Somatropin, besser bekannt als „Human Growth Hormone“ HGH (deutsch: Menschliches Wachstumshormon). Antikörper finden insbesondere in der Immunonkologie breiten Einsatz, hier werden zum Beispiel Krebserkrankungen mithilfe des körpereigenen Immunsystems therapiert. Mehr zum Thema Biopharmazeutika finden Sie unter anderem in unseren vergangenen Blogbeiträgen, zum Beispiel 5 Fakten über Biopharmazeutika.

Die Struktur therapeutischer Proteine orientiert sich meistens an natürlich vorkommenden Proteinen, oder gleicht diesen sogar vollständig. Die Struktur eines Proteins ist maßgeblich für dessen Eigenschaften und Wirksamkeit. Diese Eigenschaften vorherzusagen beziehungsweise eine Struktur mit den gewünschten Eigenschaften zu finden, ist jedoch alles andere als trivial. Es gibt unzählige mögliche Proteinfaltungen und Wechselwirkungen, die sich auf die Struktur auswirken. Viele natürlich vorkommende Proteine eignen sich nicht als Arzneimittel, weil sie zum Beispiel vom Körper sehr schnell abgebaut würden oder allergische Reaktionen auslösen könnten. Oft muss auch die Wirkung spezifiziert oder verstärkt werden, was eine Anpassung der Struktur notwendig macht. Um die richtige Struktur für die gewünschte Eigenschaft zu finden, sind oft viele Versuche nötig. Die verschiedenen Kandidaten müssen schrittweise hergestellt, getestet und anschließend entsprechend der Testergebnisse verbessert werden, ehe sie in klinischen Studien erprobt werden. Fehlschläge und Irrwege kosten also viel Zeit und Geld. Dies schränkt die Entwicklung neuer Medikamente ein. Helfen könnte hier der Einsatz von künstlicher Intelligenz (KI) beziehungsweise maschinellen Lernens (ML).

Machine Learning in der Bioinformatik

Machine Learning Algorithmen (deutsch: Maschinelles Lernen) sind Computermodelle, welche in der Lage sind, Muster in meist sehr großen Datensätzen zu finden und diese zu erlernen. Deep Learning wiederum ist eine Methode maschinellen Lernens, bei dem sogenannte neuronale Netze genutzt werden. Solche Modelle werden schon seit mehreren Jahren genutzt, zum Beispiel um sehr große Datenmengen auszuwerten. Das Programm AlphaFold, für welches jüngst der Chemienobelpreis 2024 an Demis Hassabis und John Jumper verliehen wurde, nutzt Machine Learning, oder genauer Deep Learning, um die Struktur eines Proteins auf Basis von dessen Aminosäuresequenz sowie bereits bekannten Sequenzen und Strukturen vorherzusagen – mit einer Genauigkeit, die praktisch alle früheren Methoden in den Schatten stellt. Möglich wurde dies dank einer enormen Anzahl bereits bekannter Strukturen. Gemäß den Zahlen der „Protein Data Bank“ PDB überschritt die Anzahl eingereichter 3D-Strukturen die 200 000er Marke im Jahr 2023. Seit 2016 wurden jedes Jahr über 10 000 neue Strukturen eingereicht, Tendenz steigend. Dem Erfolg von AlphaFold folgten verwandte Modelle wie OmegaFold oder RoseTTAFold, und Projekte wie OpenFold bemühen sich, die Fortschritte möglichst breit zugänglich zu machen. Und auch wenn die experimentelle Bestimmung einer Proteinstruktur weiterhin eine große Rolle spielt, so können Wissenschaftlerinnen und Wissenschaftler weltweit selbst bei bis dahin unbekannten Proteinen nun quasi auf Knopfdruck ein relativ zuverlässiges Modell ihrer Struktur bekommen.

Doch die KI kann mehr: Gefüttert mit ausreichend Daten wird es möglich, zahlreiche Eigenschaften eines Proteins vorherzusagen, zum Beispiel die Viskosität oder wie gut es an eine Zielstruktur bindet. Dies ist insbesondere hilfreich beim „Protein Engineering“, dem Anpassen einer Proteinstruktur (und damit dessen Eigenschaften) durch Veränderung der Aminosäuresequenz.

Beispielsweise kann die Stabilität und somit auch die Wirkdauer eines therapeutischen Proteins durch den gezielten Austausch einzelner Aminosäuren deutlich erhöht werden, wofür normalerweise aber ein fundiertes Wissen über die Proteinstruktur nötig wäre. Lässt sich die Stabilität am Computer einigermaßen verlässlich vorhersagen, wird es zu einem einfachen Trial-and-Error Spiel: Alle Änderungen, die in der Simulation die Stabilität erhöhen, werden übernommen. Auch bei der Optimierung von Antikörpern greift dieses Prinzip. Wie gut ein Antikörper an ein Antigen bindet, also seine Affinität, hängt von verschiedenen Faktoren wie der spezifischen Struktur oder der Größe der Kontaktfläche ab. Früher wurde also eine sehr große Zahl verschiedener Antikörper hergestellt und die Affinität zur Zielstruktur im Labor getestet. Die besten Strukturen wurden anschließend immer wieder modifiziert und erneut getestet. Eine solche iterative Verbesserung des Antikörpers ist auch beim Einsatz von Deep Learning Methoden nötig, am Computer geht die Sache allerdings um einiges schneller als im Labor.

Generative Biologie

Bisher ist es nicht möglich, einen Algorithmus direkt ein neues Protein mit den gewünschten Eigenschaften generieren zu lassen, die bisher beschriebenen Fortschritte bei der Datenauswertung und Vorhersage sind jedoch bereits jetzt enorm wertvoll. Nichtsdestotrotz lassen sich nicht alle Arbeiten am Computer durchführen. Kombiniert man die algorithmische Vorhersage mit modernen Hochdursatzverfahren, bei denen große Mengen an Experimenten automatisiert und parallel durchgeführt werden können, so spricht man von generativer Biologie. Dabei werden Wirkstoffkandidaten mithilfe der KI-Modelle ausgewählt und modifiziert, und anschließend im Labor hergestellt und getestet. Die so generierten Daten werden nun zur Verbesserung der Modelle genutzt – ihnen sozusagen „Feedback“ zu den generierten Proteinen gegeben – woraus sich ein Kreislauf ergibt. Ein so entwickelter Wirkstoff kann um einiges schneller realisiert werden und wird mit besserer Wahrscheinlichkeit durch die klinischen Studien bestätigt. Die Firma Amgen zum Beispiel konnte die Entwicklungszeit eines Wirkstoffkandidaten bis zu den klinischen Studien im Vergleich zu vor fünf Jahren bereits um 60% verkürzen.

Um die KI-Modelle soweit zu bringen, benötigen sie wie beschrieben große Mengen an experimentellen Daten, um die nötigen Muster und Zusammenhänge zwischen der Aminosäuresequenz und den Eigenschaften des daraus entstehenden Proteins zu erlernen.

Ein solches Vorhaben wurde im Projekt MELODDY, welches zu über 40% durch die EU finanziert wurde, verwirklicht. Dafür wurde auf das Konzept von Federated Learning (deutsch: Föderiertes Lernen, FL) zurückgegriffen: Ein zentrales ML-Modell wird mithilfe der (streng geheimen) Forschungsdaten trainiert. Das so verbesserte Modell wird an das nächste Unternehmen weitergegeben, welches wiederum die eigenen Daten einspeist und so weiter. Das Besondere dabei ist, dass sich aus dem schrittweise verbesserten Modell keine Rückschlüsse auf die jeweiligen Trainingsdaten ziehen lassen, wodurch die Betriebsgeheimnisse (und damit auch die Geschäftsgrundlage) der beteiligten Firmen gewahrt bleiben. MELODDY bezog sich auf die Entwicklung niedermolekularer Wirkstoffe, ein ähnliches Projekt für Biopharmazeutika ist jedoch denkbar. Da einzelne pharmazeutische Unternehmen in aller Regel über deutlich weniger Daten für erfolgreiche Biopharmazeutika verfügen als für niedermolekulare Wirkstoffe, wäre der erhoffte Mehrwert eines solchen Austausches nochmal deutlich größer.

Design neuartiger Proteine

Wohin die Reise gehen könnte zeigt Prof. David Baker, Direktor des Institute for Protein Design, IPD. Er ist ebenfalls mit dem Chemienobelpreis 2024 ausgezeichnet worden. Das IPD beschäftigt sich mit der Entwicklung komplett neuartiger Proteine, unabhängig von aus der Natur bekannten Vorlagen. Dass es sich hierbei in Zukunft um eine Revolution im Feld der Biopharmazeutika handeln könnte, zeigen Kollaborationen des IPD mit großen Unternehmen wie Amgen.

Da es für neuartige Strukturen keine Vorlagen geben kann, müssen Forscherinnen und Forscher wie David Baker sich an den grundlegenden Gesetzen der Proteinfaltung orientieren: Den physikalischen Interaktionen zwischen den Aminosäuren. Dabei kommt auch das Programm Rosetta zum Einsatz, Vorgänger des bereits erwähnten RoseTTAFold. Es wurde ursprünglich 1998 entwickelt, um die Struktur eines Proteins anhand physikalischer Berechnungen vorherzusagen – noch ganz ohne KI also. Um die dafür nötige enorme Rechenleistung zu stemmen, wurde 2005 das Projekt Rosetta@Home entwickelt, damit Menschen auf der ganzen Welt mithilfe ihres Computers zur Forschung beitragen können. Das Programm wird übrigens bis heute genutzt und half auch bei der Bekämpfung von Covid-19. Das etwas neuere Computerspiel „Foldit“ wiederum erlaubt Nutzerinnen und Nutzern sich quasi direkt zu beteiligen, indem sie händisch Proteine und Moleküle anpassen, um eine möglichst perfekt passende Form zu erhalten. Eine solche Struktur kann schließlich als Ausgangspunkt für ein Biopharmazeutikum oder einen niedermolekularen Wirkstoff dienen. Eines Tages kann mit diesen Daten vielleicht wiederum ein Computermodell trainiert werden, und die nächste Revolution in der Medikamentenentwicklung steht vor der Tür.

Weitere Beiträge zum Thema Nano- und Biotechnologie

Autor/in

Georg Zagelmair

Georg Zagelmair studiert Molekulare Biotechnologie an der Technischen Universität München. Dazu unterstützt er das Team des DNA-Besucherlabors als Kursleiter und bringt Interessierten alles über DNA, Genetik und molekularbiologische Labormethoden bei.

Das könnte Sie auch interessieren: