Grafikprozessoren bescheren Künstlicher Intelligenz einen Leistungssprung


Deep Learning ist ein wesentlicher Bestandteil bei der Entwicklung von Anwendungen mit künstlicher Intelligenz. Praktikabel wird der Einsatz von Deep Learning allerdings erst durch die Verfügbarkeit massiver Rechenpower. Grafikprozessoren spielen eine entscheidende Rolle bei ihrer Bereitstellung.

Schachcomputer, mit denen das Thema Künstliche Intelligenz zum ersten Mal ins Blickfeld der breiten Öffentlichkeit kam, basierten auf Logik und Regeln. Ihre Aufgabe bestand darin, möglichst alle verfügbaren Zugvarianten einer bestimmten Situation zu analysieren und sich dann für den Zug zu entscheiden, der die meisten Vorteile versprach. Die Analyse basierte auf der Auswertung von Erfahrungswerten, die im System gespeichert waren. Mit wirklicher Intelligenz hatte das allerdings nur wenig zu tun. Es ging einzig und allein um die möglichst schnelle Auswertung von Erfahrungswerten – was letztlich eine Frage der verfügbaren Rechenleistung ist.

Im technischen Sinn „intelligent“ werden Computersysteme erst, wenn sie eigenständig Sachverhalte erfassen, Muster erkennen oder Funktionsweisen analysieren können, die nicht zuvor von menschlicher Hand in mathematischen Formeln beschrieben wurden. Die Konzepte dazu sind von der Natur inspiriert und basieren auf der menschlichen Lernweise: Beobachtung, Analyse, Erkennung und Nachahmung. Ein Paradebeispiel für diese Art von maschinellem Lernen („Machine Learning“) war 2015 das Programm „Giraffe“, das innerhalb von 72 Stunden Schach auf dem Niveau eines internationalen Großmeisters zu spielen lernte. Notwendig waren zahlreiche Spiele gegen sich selbst, bei denen Millionen von Stellungen auf dem Schachbrett analysiert wurden.

Deep Learning stellt hohe Ansprüche

Technologisch betrachtet beruht maschinelles Lernen auf künstlichen neuronalen Netzen, die nach dem Vorbild des menschlichen Gehirns aufgebaut sind. Demzufolge sind die Rechner in der Lage, relevante Regeln zu lernen (und unsinnige wieder zu verwerfen), Schlussfolgerungen zu ziehen und Prioritäten zu setzen. Je nachdem wie komplex die Funktionalität ist, spricht man entweder vom eher oberflächlichen „Shallow Learning“ oder eben vom tiefergehenden „Deep Learning“.

In der Praxis ist der Einsatz von „Deep Learning“ überall dort interessant, wo in großen Datenmengen nach Mustern gesucht werden muss, wie bei der Gesichts-, Objekt- oder Spracherkennung. So ist es bei der Spracherkennung inzwischen möglich, dass die eingesetzten Systeme ihren Wortschatz selbstständig erweitern. Ein Beispiel hierfür sind die digitalen Assistenten von Apple (Siri), Microsoft (Cortana) oder Amazon (Alexa). Weitere Anwendungsfelder finden sich beim autonomen Fahren oder bei Vorhersagen des Konsumverhaltens von Verbrauchern.

Um die Praxistauglichkeit – die schnelle Reaktionsfähigkeit – solcher Anwendungen zu gewährleisten, ist jedoch eine enorme Rechenleistung erforderlich. Herkömmliche Prozessoren sind in der Lage, eine Rechenleistung von mehreren Gigaflops (Milliarden Rechenoperationen pro Sekunde) zur Verfügung zu stellen. Für Deep Learning-Anwendungen reicht das bei weitem nicht aus. Der Sprachassistent der chinesischen Suchmaschine Baidu beispielsweise benötigte für den gesamten Lernprozess seiner Spracherkennung 4 TByte an Lerndaten und eine kumulierte Rechenleistung von etwa 20 Trillionen Rechenoperationen (20 Exaflop). Ein Intel Xeon-Prozessor neuester Baureihe würde für diese Aufgabe etwa 3.700 Stunden brauchen.

Grafikprozessoren sind der Turbo für Supercomputer

Deep Learning ist ebenso einer der größten Treiber für die zuletzt starke Nachfrage nach Supercomputern. Letztere konnten durch den Einsatz von Grafikprozessoren (Graphic Processing Units, GPUs) in den letzten Jahren einen entscheidenden Sprung für sich verbuchen, sowohl bei der Leistungsfähigkeit als auch bei der Energieeffizienz.

GPU Computing wurde von Nvidia eingeführt und hat sich inzwischen zum Industriestandard entwickelt. Dabei werden Grafikprozessoren gemeinsam mit der CPU zur Beschleunigung wissenschaftlicher und technischer Anwendungen eingesetzt. Die hohe Leistung kommt zustande, indem die rechenintensivsten Teile einer Anwendung an den Grafikprozessor ausgelagert werden, während der übrige Code auf der CPU läuft. Grafikprozessoren besitzen Tausende von Recheneinheiten und weisen im Vergleich zu reinen CPU-basierten Rechnern einen um den Faktor 10–100 höheren Anwendungsdurchsatz auf. Daher sind sie bei Datenwissenschaftlern inzwischen die erste Wahl, wenn es um die Verarbeitung umfangreicher Daten geht. microstaxx ist als einer der wenigen Nvidia Preferred Partner für Accellerated Computing und Deep Learning in Deutschland im Stande, den Kunden im Rahmen komplexer High-Performance-Lösungen attraktive Bezugskonditionen für Tesla Grafikprozessoren anzubieten.

Titan beispielsweise, der von Cray entwickelte, seit 2012 am Oak Ridge National Laboratory stehende Supercomputer, erzielt seine hohe Rechenleistung von mehr als 20 Petaflops (20 Billiarden Rechenoperationen pro Sekunde) zu etwa 90 Prozent durch seine 18.688 Tesla K20 GPUs von Nvidia. Mit Hilfe von Titan ist es für Forscher aus Hochschulen, staatlichen Labors und einem breiten Spektrum von Unternehmen möglich, physikalische und biologische Phänomene zu modellieren und Erkenntnisse wesentlich schneller als durch physisches Experimentieren zu erreichen.

Leistungsstark und energiesparend

Titan stellt einen wichtigen Meilenstein auf dem Weg zum Exascale-Computing dar, dessen Ziel der Aufbau eines 1.000-Petaflop-Supercomputers ist. Dabei ist neben dem attraktiven Preis-/Leistungsverhältnis vor allem die Energieeffizienz der Tesla K20 GPU ein wichtiger Faktor. So konnte es gelingen, den Titan Supercomputer über zehnmal schneller und gleichzeitig fünfmal sparsamer im Stromverbrauch als seinen Vorgänger (einem Jaguar-System mit 2,3 Petaflops bei gleicher Baugröße) zu konstruieren.

Das Ende der GPU-Entwicklung ist noch lange nicht erreicht. Erst kürzlich hat Nvidia mit „Volta“ die neue GPU-Generation vorgestellt, die für den Einsatz im Umfeld der Künstlichen Intelligenz und damit auch im Deep Learning optimiert ist. Die Volta-GPU erreicht eine Rechenleistung von 7,5 Teraflops bei HPC-Anwendungen (High-Performance Computing) und dank der neuen Tensor-Kerne bis zu 120 Teraflops bei Deep Learning-Anwendungen.

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.