Künstliche Intelligenz

Eine Künstliche Intelligenz speziell entwickelt für die Analyse biomedizinischer Daten

Marco F. Schmidt
biotx.ai GmbH c/o TechCode Jägerallee 16 14469 Potsdam, Germany
schmidt@biotx.ai

Aufgrund der langen, kostenintensiven und der hohen Ausfallraten in klinischen Studien (insbesondere der Phasen II und III) läuft die Entwicklung von Arzneimitteln Gefahr, ihre Rentabilität zu verlieren.1 Klinische Studien scheitern hauptsächlich daran, dass a) sich das adressierte Wirkstoffziel sich für den Krankheitsmechanismus nicht als zentral erweist und b) die falschen Patienten für klinische Studien ausgewählt werden.2

Eine Möglichkeit, die Erfolgsraten deutlich zu verbessern, bieten genetische Biomarker, die aus der Analyse vorhandener biomedizinischer Daten für die Validierung des Wirkstoffziels und, noch wichtiger, für die Stratifizierung der richtigen Patienten besteht.3 Biomedizinische Daten sind jedoch aufgrund ihrer Struktur mit kleinen Stichprobengrößen und vielen Merkmalen (sogenannte Hochdimensionalität) schwierig zu analysieren.

Die meisten aktuellen genetischen Biomarker beruhen auf einzelnen Genvarianten und sind daher in ihrer Vorhersagekraft begrenzt. Da viele Krankheiten durch komplexe Wechselwirkungen mehrerer Genvarianten entstehen, erscheint es sinnvoll, polygene Biomarker (bestehend aus mehreren Genvarianten) zu suchen. Die Problematik biomedizinischer Daten (kleine Probengröße, viele Merkmale) macht die Entdeckung polygener Marker jedoch sehr schwierig.

Maschinelle Lernen

Abb. 1. Das Maschinelle Lernen von biotx.ai identifiziert komplexe Wechselwirkungen in biomedizinischen Daten und liefert Biomarker der nächsten Generation mit hervorragender Genauigkeit und Empfindlichkeit im Vergleich zu vorhandenen monovarianten Biomarkern.

Im Gegensatz zu bisherigen Verfahren zur Identifizierung von Biomarkern wurde das Verfahren der biotx.ai entwickelt, um komplexe Wechselwirkungen in hochdimensionalen biomedizinischen Daten zuverlässig zu finden (siehe Abb. 1). Dies ermöglicht die Entdeckung von polygenen Biomarkern der nächsten Generation, die weitaus leistungsfähiger sind als die derzeitigen Biomarker, die auf einer einzigen Genvariante beruhen: Für komplexe Krankheiten wie die spät-einsetzende Alzheimer-Krankheit zeigt der derzeit verwendete (monogene) Biomarker APOE4 nur eine Genauigkeit von unter 60% (50% ist zufällig). Im Gegensatz dazu verwendet der Alzheimer Biomarker von biotx.ai polygene Wechselwirkungen und hat eine Genauigkeit von 85%.

Durch die Verwendung von Biomarkern der nächsten Generation von biotx.ai mit ihrer deutlich besseren Sensitivität und Spezifität bei der Vorhersage können die richtigen Patienten für die klinischen Studien der Phasen II und III ausgewählt werden, wodurch der Medikamentenentwicklungsprozess schneller, teurer und vor allem erfolgreicher wird.

Wie bereits erwähnt, zeigen biomedizinische Daten die problematische Struktur kleiner Patientenzahlen von oft weniger als 500 in Bezug auf die untersuchten Merkmale, die im Genomzeit alter oft über 1 Million und mehr liegen. Die Analyse solcher hochdimensionalen Daten, insbesondere beim Testen auf Interaktionen, neigt aufgrund des multiplen Testproblems in der Statistik zu einer hohen Rate falsch positiver Ergebnisse: Je mehr Hypothesen man auf einem Datensatz testet, desto höher wird die Wahrscheinlichkeit, dass eine davon (fehlerhaft) als zutreffend angenommen wird.

Die Einzigartigkeit unseres Verfahrens ist die Fähigkeit, das Problem des mehrfachen Testens abzumildern, d. H. die tatsächlichen Auswirkungen beizubehalten, aber die Falsch-Positiven auszuschließen. Dazu werden strukturelle und mathematische Eigenschaften biomedizinischer Daten sowie kontextuelle Informationen aus biomedizinischen Zeitschriften und Datenbanken genutzt. Der Ansatz funktioniert und jeder gefundene, polygene Biomarker wird anhand von bis zu 5 unabhängigen Datensätzen (Out-of-Sample Prediction) derselben Krankheit unter Verwendung von statistischen Beurteilungen wie Genauigkeit, Sensitivität und Spezifität validiert.

Die Verwendung dieser Metriken (siehe Erläuterung und Beispiel in Tab. 1) ermöglicht auch den objektiven Vergleich unserer polygenen Biomarker mit anderen Biomarkern..

Tab. 1. Die Vorhersagequalität eines Biomarkers kann durch Präzisions- und Rückrufanalyse nach den genannten Gleichungen bestimmt werden.

TRUE STATE”

VORHERSAGE

Gesund

Krank

Gesund

Wahr Negativ (WN)

Falsch Positiv (FP)

Krank

Falsch Negativ (FN)

Wahr Positiv (WP)

Präzision = TP / (FP + TP)

biotx.ai AD Biomarker: 85% im Vergleich 60% von APOE4

Sensitivität = TP / (FN + TP)

biotx.ai AD Biomarker: 57% im Vergleich 12% von APOE4

Zusammengefasst identifizierte biotx.ai aus biomedizinischen Daten Gen-Gen-Wechselwirkungen, die zu einem mathematischen Modell führen, das die spät einsetzende Alzheimer-Krankheit mit einer Genauigkeit von bis zu 85% vorhersagt. Mit anderen Worten: Unser Ansatz sagt den Krankheitsstatus von 9 von 10 Patienten richtig voraus, während der bisherige APOE4-Standardtest nur 6 von 10 richtig vorhersagt. In den letzten 12 Monaten haben wir mehrere Datensätze aus der pharmazeutischen Industrie, unseren eigenen oder von akademischen Kooperationen analysiert, was zu einem Portfolio von sieben polygenen Biomarkern für verschiedene Krankheiten geführt hat. Jeder einzelne bietet eine Verbesserung gegenüber dem entsprechenden monogenen Biomarker, der derzeit im klinischen Einsatz ist.

Literaturverzeichnis

Deloitte: A new future for R&D? Measuring the return from pharmaceutical innovation 2017
Cook et al., Nat Rev Drug Discov, 2014,13, 419-431
Nelson MR et al.,Nat Genetics,2015,47,856-860

marcoschmidt
de_DEGerman
en_GBEnglish de_DEGerman