Big Data braucht Supercomputer-Power für effektive Analysen


Aus Daten können durch Analyse Informationen und Wissen extrahiert werden, doch bei Big Data ist diese Aufgabe mit einer doppelten Herausforderung verknüpft. Neben Expertise in Sachen Data Science ist massive Rechenpower notwendig. Die Konvergenz zwischen Supercomputern und Big Data wird für einen enormen Sprung nach vorn sorgen.

Daten mögen „das Öl des 21. Jahrhunderts“ sein, doch im Unterschied zum begrenzten Vorkommen von Erdöl ertrinkt die Welt förmlich in einem Meer von Daten, dessen Pegel kontinuierlich steigt. Das Forbes Magazin hat beispielsweise prognostiziert, dass etwa ab 2020 in jeder Sekunde eines Tages 1,7 MByte an Informationen sowohl über als auch für jeden Erdbewohner produziert werden. Big Data ist die Wissenschaft, die zum Ziel hat, die diesen Wust an unstrukturierten Daten in nutzbare Informationen und Wissen zu transformieren – leichter gesagt als getan!

Technisch betrachtet ist Big Data die Fortsetzung des Data-Warehouse-Konzepts in Zeiten der weltweiten Vernetzung. Doch während in einem herkömmlichen Data-Warehouse überwiegend strukturierte und für die Analyse aufbereitete Daten aus verschiedenen Quellen vorgehalten werden, sieht das bei Big Data etwas anders aus. Neben großer Mengen strukturierter Daten hat man es hier mit noch größeren Mengen unstrukturierten Daten wie Beiträgen aus sozialen Netzwerken, Internet-Klickströmen oder Sensorsignalen aus dem Internet der Dinge zu tun. Zudem handelt es sich bei Big Data selten um statische Daten, sondern um kontinuierlich fließende Datenströme.

Das relevante Thema heißt ‚Big Data Analytics‘

Das Thema Big Data hat nicht nur etwas mit dem Sammeln und Speichern von Daten zu tun. So richtig spannend wird es erst, wenn die erfassten Daten analysiert und in einen relevanten Kontext gesetzt werden. Die Möglichkeit, nützliche Informationen aus einem Meer unstrukturierter Daten zu gewinnen, subsummiert sich unter dem Oberbegriff „Big Data Analytics“. Diese Disziplin weist gravierende Unterschiede zur herkömmlichen Datenanalyse auf. Der größte besteht darin, dass die eigentliche Fragestellung der Analyse im Vorfeld selten bekannt ist. Sie ergibt sich erst durch die Beobachtung der Daten und der Entdeckung von versteckten Mustern, bislang noch unbekannten Korrelationen und weiteren Gesetzmäßigkeiten.

Die Software-Tools für die Datenanalyse sind hingegen schon seit Jahren bekannt. Auch Analyse-Algorithmen für Data Mining oder Predictive Analytics gehörten bereits zu den Data-Warehouse-Konzepten. Damals wie heute standen die Verantwortlichen vor dem Problem, dass nicht alle Daten in einer für die Analyse strukturierten Form vorliegen. Beim Aufbau von Data-Warehouses wurde deshalb viel Aufwand in die Datenaufbereitung gesteckt.

Bei den heute vorliegenden Datenmengen und der Anforderung, Ergebnisse schnell oder sogar in Echtzeit zu haben, stößt diese Vorgehensweise jedoch an ihre Grenzen. Neue Technologien wie NoSQL-Datenbanken (Not only SQL), die – vereinfacht gesagt – auf die strenge Strukturierung von Daten verzichten, und Hadoop, mit dem sich rechenintensive Prozesse mit großen Datenmengen auf Server-Clustern abarbeiten lassen, leisten Abhilfe. Ihre Nutzung setzt allerdings ein hohes Maß an Expertise voraus.

Konvergenz von Big Data und Supercomputing

Egal welche Tools zum Einsatz kommen: Wenn Daten schnell analysiert werden sollen, benötigt man sehr viel Rechenleistung – und das trifft bei Big Data erst recht zu. Die Nutzung massiver Cloud-Ressourcen, wie sie beispielsweise von Amazon oder Google angeboten werden, hat den Nachteil, dass die Latenzzeiten zu hoch sind und die Daten zunächst in die Cloud bewegt werden müssen. Auch im Hinblick auf den Schutz geschäftskritischer Daten sind Cloud-Lösungen nur die zweitbeste Option.

Je ausgeprägter der Wunsch nach Echtzeitauswertung aufkeimt, desto näher kommen sich die Themen Big Data und Supercomputing. Analysten sprechen in diesem Zusammenhang von „High Performance Data Analytics“ (HPDA) oder auch von der „Konvergenz von Big Data und Supercomputing“.

Profitieren werden von dieser Konvergenz beispielsweise die Wissenschaftler des Human Brain Project, das in Zusammenarbeit zwischen dem Jülich Supercomputing Center und der Eidgenössischen Technischen Hochschule in Lausanne durchgeführt wird. Dieses auf zehn Jahre angelegte Projekt hat zum Ziel, das gesamte verfügbare Wissen über das menschliche Gehirn zusammenzufassen und die im Gehirn ablaufenden Prozesse über computerbasierte Modelle und Simulationen nachzubilden. Eine andere interessante Anwendung ist die Analyse von Genomdaten und die Genomsequenzierung, wie sie beispielsweise vom Broad Institute in der Krebsforschung genutzt wird.

„Supercomputing as a Service“ ist im Kommen

Im Fall des Human Brain Project zeigt sich auch die Überlegenheit von Hochleistungsrechnern gegenüber Cloud-Lösungen recht deutlich. Im Rahmen eines Benchmark-Tests übertrug das Institut sein Genom-Analyse-Toolkit GATK4 (das zuvor in der Cloud lief) auf die Analyseplattform Urika-GX von Cray und erhielt die Recalibration-(QSR-)Ergebnisse aus dem Analyse-Toolkit und der Spark-Pipeline mehr als viermal schneller als vorher.

Ulrika-GX wurde speziell für anspruchsvolle Analyse-Workflows entwickelt. Das für die Hortonworks Data Platform getestete und integrierte System bietet neben Hadoop- und Apache Spark-Support auch die Vorteile der Cray Graph Engine, die auch umfangreiche, komplexe Graphenanalysen problemlos bewältigen kann. Eine interessante Funktionalität der Cray Urika-GX ist die Cray Graph Engine für die schnelle und komplexe iterative Tiefensuche. Sie ist 10 bis 100 Mal schneller als bisherige graphenbasierte Lösungen für komplexe Analyseoperationen und unterstützt jedes Szenario vom Einzelprozessor bis hin zu Tausenden von Prozessoren.  Mit ihr lassen sich mehrere Terabyte große Datensätze verarbeiten, die Milliarden von Objekten umfassen.

Die Urika-GX-Systeme stehen auch im Mittelpunkt eines neuen Angebots von Cray: Supercomputing as a Service. Auf diese Weise sollen Kunden Rechenleistung mieten können, beispielsweise für wissenschaftliche Projekte. Hierzu verbindet Cray seine Maschinen mit der Infrastruktur ihres Partners Markley, eines US-amerikanischen Betreibers von Hochleistungs-Rechenzentren und Anbieter von Cloud-Services. Die angebotenen Systeme sollen beispielsweise Apache-Spark- und Hadoop-Datenbanken durchsuchen und analysieren können.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.