Medizindatenbank

"Big Data" aus Potsdam macht künftig schneller gesund

Foto: Tizian Nemeth / HPI/K. Herschelmann

Potsdamer Forscher vom Hasso-Plattner-Institut analysieren riesige Mengen medizinischer Daten, um für Patienten künftig schnell eine individuelle passende Behandlung zu finden.

Wenn ein Arzt in Berlin bei seinem Patienten unschlüssig nach der richtigen Therapie sucht, könnte es sein, dass es in Peking schon einmal einen exakt gleich gelagerten Fall gab: Krankheitsstadium, Alter, genetische Anlagen, Blutwerte, Lebensumstände – alles identisch. Und es könnte sein, dass dieser Fall in online verfügbaren Fachzeitschriften oder Akten von klinischen Studien dokumentiert ist. Also muss der Berliner Arzt nur nachschlagen, wie und mit welchem Erfolg in Peking therapiert wurde.

Das Problem steckt im Wörtchen "nur". Das Nachschlagen kann Wochen der Arbeit bedeuten, kein Arzt hat Zeit dafür. Schuld ist eine geradezu babylonische Sprachverwirrung. Zwar gibt es unzählige Datenbanken, doch die digitalen Daten sind in unterschiedlichsten Formaten und Protokollen gespeichert. Zudem haben Wissenschaftler wahre Datengebirge aufgetürmt. Was der eine entdeckt hat, muss ein anderer wie die Nadel im digitalen Heuhaufen suchen.

Potsdamer Forscher verfolgen nun einen neuen Ansatz, um die Recherche rascher als bisher zu schaffen. Er soll den Weg zur individualisierten (oder personalisierten) Medizin ebnen. Denn längst ist klar, dass nicht jeder Patient auf eine bestimmte Therapieoption gleich gut anschlägt. Der Erfolg hängt von vielen individuellen Faktoren ab. Im Idealfall findet der Berliner Arzt am Krankenbett zukünftig in Echtzeit oder nach wenigen Minuten, welche Therapieoption seinem Patienten am ehesten gerecht wird. Von "Big Medical Data" sprechen die Forscher um Matthieu-Patrick Schapranow vom Hasso-Plattner-Institut (HPI) für Software-Systemtechnik. Das HPI ist ein an der Uni Potsdam angegliedertes Forschungsinstitut und wurde von der gemeinnützigen Stiftung von Hasso Plattner gegründet. Plattner ist Mitgründer des Softwarekonzerns SAP.

Die Therapiesuche steht auf zwei Beinen: Datenbankprogramme und leistungsfähige Rechnertechnik. Zunächst besteht die Möglichkeit, dass die DNA des Patienten bestimmt wird. Das eigentliche Sequenzieren übernimmt ein spezialisiertes Labor. Doch das liefert genetische Informationen stets in Form von vielen kleinen DNA-Schnipseln. Die Aufgabe besteht darin, diese Schnipsel unter anderem mit statistischen Methoden in der richtigen Abfolge aufzureihen. Ein zweiter Schritt ist, Auffälligkeiten zu finden: Haben bei diesem Patienten Veränderungen, etwa Mutationen, stattgefunden, die im Zusammenhang mit seiner Krankheit stehen könnten? Die eine bestimmte Therapie gut anschlagen lassen? Oder sie wirkungslos machen?

Weltweit analoge Fälle suchen

Dann sucht die Software in den weltweit verteilten Datenbanken nach Fällen, die dem Berliner Patienten ähneln – mit dessen individuellen Details wie Alter, Ernährungsverhalten, genetische Auffälligkeiten und Biomarker, also etwa spezielle Substanzen im Blut, die Auskunft über das Geschehen im Körper geben. Schwierig war es, der Software die Auswertung von komplexen Schaubildern beizubringen. "Solche Graphen illustrieren zum Beispiel Signalwege in Körperzellen, also wie sie etwa auf bestimmte Medikamente reagieren", sagt Schapranow. Die Datenausgabe besitze Ähnlichkeiten mit Internet-Suchmaschinen, denn die Software erstelle ein Ranking, sie "priorisiert". "So stehen die Ergebnisse mit höchster Relevanz ganz oben."

Damit die gigantischen Datenmengen verarbeitet werden können, bedarf es einer leistungsfähigen Hardware. Einen großen Sprung brachte die sogenannte Hauptspeicher-Datenbanktechnologie (In-Memory-Datenbank-Technologie). Bisherige Rechner laden bei ihrer Arbeit kleine Datenpakete von der Festplatte in den Arbeitsspeicher und speisen sie in den Daten verarbeitenden Prozessor ein. Der Nachteil bei großen Informationsmengen: "Andauernd müssen Zwischenergebnisse auf der Festplatte gespeichert und von dort wieder geladen werden. Das kostet immens viel Zeit", erklärt Hans-Joachim Allgaier, Pressesprecher des HPI.

Bei der Hauptspeicher-Datenbank-Technologie hingegen sind alle benötigten Daten in einem gigantischen Arbeitsspeicher von mehreren Terabyte (mehrere Tausend Gigabyte) geladen – das entspricht über fünf Milliarden DIN A4-Seiten. So sinkt der Austausch mit der Festplatte auf fast null. "Statt dass der Prozessor dauernd auf Daten zur Verarbeitung wartet, kann er die Berechnungen extrem beschleunigen", sagt HPI-Direktor Professor Christoph Meinel.

Bis zu 1000 Mal schneller

"Eine Faustregel besagt, dass die am HPI miterforschte Datenbanktechnologie bis zu 1000 Mal schneller arbeitet." Weitere Verbesserungen kommen hinzu: In jedem der verwendeten Rechner stecken viele Prozessorkerne. Während ein üblicher Desktop-PC acht "Cores" enthält, sind es im HPI-Labor zum Beispiel je 40 Kerne pro Server. Wobei wiederum 25 Server zusammengeschaltet sind. Macht zusammen 1000 Prozessoren. Die arbeiten parallel an derselben Aufgabe. "So wird beispielsweise eine Riesentabelle in viele Teile aufgeteilt und parallel bearbeitet", sagt Schapranow.

Erstes Arbeitsfeld der neuen Technologie war ab 2006 die Unternehmensplanung. "Heute können große Konzerne ihre Unternehmensdaten im Umfang von Hunderten Millionen Datensätzen in einen Arbeitsspeicher laden und mit hoher Geschwindigkeit unternehmerische Entscheidungen durchrechnen", sagt Allgaier. "Die Analyse dessen, welche Folgen eine kaufmännische Veränderung bringen würde, kann in Minuten durchgerechnet werden, statt dass man eine Woche darauf warten muss", ergänzt Meinel. Diese Forschung mündete in die SAP-Software HANA.

Als zukünftige Anwendung nennt Christoph Meinel die Echtzeitsuche nach Eindringlingen in Rechnernetzen. "Wenn sich ein Hacker in einen Rechner einschleicht, hinterlässt das Angriffsmuster in den 'Logdateien', in denen Rechner alle Aktivitäten dokumentieren. Die Logdateien müssen also ausgewertet werden." Doch das ist aufwendig, "zumal, wenn es sich um ein Rechnernetzwerk handelt und der Eindringling einen gestuften Angriff über mehrere Einfallspforten startet". In diesem Fall explodieren die Datenmengen. Mit der Hauptspeicher-Datenbank-Technologie soll das in Echtzeit gelingen, dann können Gegenmaßnahmen starten, bevor Sabotage oder Datendiebstahl gelungen sind.

Ein weiteres Feld ist das Verständnis von meinungsbildenden Prozessen im Internet. "Blog intelligence" nennt Meinel die Analyse von Themen, die von Bloggern aufgegriffen und weitergedacht werden. Wer sind die Akteure? Welche Trends entstehen? "Firmen interessieren sich beispielsweise, ob und in welcher Form ihre Produkte im Gespräch sind. Das sind komplexe Prozesse, und zugleich handelt es sich um flüchtige Daten." Über die Website http://blog-intelligence.com kann jeder Blog-Autor bereits sein Ranking bestimmen.

Teure Technik wird schnell billiger

"Im Laufe der Zeit werden sich weitere Anwendungsgebiete zeigen", sagt Meinel. Dazu stellt sein Institut Wissenschaftlern Rechenleistung an den Computern zur Verfügung. Die gehören dem HPI gar nicht – die Institutsmittel würden nicht reichen. Vielmehr kooperiert das Institut mit Herstellern wie Intel und NEC. "Die stellen uns die neuesten Rechner hin. Und wir laden die wissenschaftliche Gemeinde ein, zu rechnen und die Erfahrungen zur Verfügung zu stellen." So bekommen die Wissenschaftler Forschungsergebnisse, und die Hardware-Hersteller Anregungen für neue Geschäftsfelder. In Kooperation mit Firmen sollen dann marktfähige neue Software-Produkte entwickelt werden. Noch ist die Big-Data-Analyse sehr teuer, doch der Preisverfall wird für die Verbreitung der Technologie sorgen, ist Meinel überzeugt: "Jetzt ist machbar, was vor 20 Jahren nur denkbar war."

Bleiben Sie informiert:
Die Berliner Morgenpost in sozialen Netzwerken.
Folgen Sie uns auf Twitter