IBM GPFS: Verteilte Storage-Systeme für vierfache Weltmeister [Upd]

By | 11. November 2013

Auch dank IBM Platform Computing ist Infiniti Red Bull Racing so erfolgreich

Erst kürzlich haben wir darüber gebloggt, dass Sebastian Vettel auch dank IBM zum vierten Mal Formel-1-Weltmeister geworden ist. Das hat unter anderem damit zu tun, dass auf den HPC-Clustern von Infiniti Red Bull Racing IBM-Softwarelösungen installiert sind, die sich um ein perfektes Zusammenspiel der Hardware kümmern.

Dabei handelt es sich einerseits um IBM Platform LSF und IBM Platform Symphony, und andererseits um IBM GPFS. Allen drei Lösungen ist gemein, dass sie mit Hochleistungssystemen bestens klar kommen, LSF und Symphony auf der Prozessor- und GPFS auf der Storage-Seite. Und genau dieses Datenspeichersystem ist Gegenstand unseres heutigen Blogbeitrags.

In so einem HPC-Cluster kommen nicht nur Dutzende Prozessoren zum Einsatz, sondern auch zahlreiche Festplatten, auf denen riesigen Datenmengen abgelegt werden. Okay, Festplatte trifft es nicht ganz, denn es handelt sich um Hochgeschwindigkeits-Storagesysteme, die Terabyte und Petabyte an Daten aufnehmen können. Und die sollen möglichst alle in Echtzeit zur Verfügung stehen. Damit die Prozessoren, die sie verarbeiten, möglichst immer beschäftigt sind. Und damit die riesigen Datenmenge möglichst sicher und über Grenzen hinweg genutzt werden können.

Daher ist es immens wichtig, dass ein Dateiserversystem zum Einsatz kommt, dass dieses große Datenaufkommen bestmöglich im Griff hat und die Daten genau dort bereit stellt, wo sie gerade benötigt werden. Und das in Echtzeit. Solch ein Dateisystem nennt sich IBM GPFS (General Parallel File System) und kommt unter anderem bei Infiniti Red Bull Racing zum Einsatz.

IBM GPFSDer Trick dahinter: Der Zugriff auf die vorhandenen Datenspeicher erfolgt vollständig parallel, sodass es keine Rolle spielt, wie viele Anwender gerade auf den Storage-Pool gerade zugreifen. Dabei achtet GPFS peinlich genau darauf, dass sämtliche Daten konsistent bleiben.

Doch GPFS kann noch viel mehr: So lassen sich sämtliche Datenspeicher von einem einzigen Rechner aus verwalten, sodass der IT-Verantwortliche die erforderlichen Speicherressourcen genau dort platzieren kann, wo sie gerade benötigt werden. Dabei spielt es keine Rolle, ob sich der IT-Administrator innerhalb des Serverumgebung oder an einem beliebigen Ort auf der Welt befindet.

Doch  nicht nur das: Auch die Server selbst können über den gesamten Globus verteilt sein und lassen sich trotzdem so einbinden, als stünden sie alle im gleichen Raum. Das Zauberwort dahinter lautet Active File Management (AFM). AFM stellt virtuelle Speicher-Caches bereit, die dafür sorgen, dass Datenveränderungen auf einem Server ohne größere Verzögerungen automatisch auf allen anderen Servern sichtbar werden. Das ist vor allem für globale Projekte ein immenser Vorteil.

Aber natürlich beherrscht GPFS auch das Thema Virtualisierung. So lassen sich ganze Datenpools mit relativ geringem Aufwand von einem virtuellen Plattenspeicher auf einen anderen verschieben, ohne dass die Anwender davon etwas mitbekommen. Damit können beispielsweise Daten von einem schnelleren Datenspeicher auf einen langsameren transferiert werden, bevor die Highspeed-Festplatte zu voll wird und nicht mehr die erforderliche Leistung bringt.

IBM GPFSEine weitere wichtige Technik in Sachen IBM GPFS nennt sich GPFS Native RAID (GNR). GNR sorgt dafür, dass Daten zusätzlich beschleunigt und zudem redundant gespeichert werden. Außerdem sorgt diese Technik mithilfe geeigneter Algorithmen auf Prüfsummenbasis dafür, dass Daten zuverlässig gespeichert und gelesen werden können.

Darüber hinaus lassen sich mithilfe von GNR Snapshots und (a-)synchrone Replicas erstellen. Und das im laufenden Betrieb, falls beispielsweise ein Hardware-Fehler an einer Festplatte entsteht. Diese lässt sich dann in Echtzeit austauschen, ohne dass dadurch der gesamte IT-Betrieb lahmgelegt wird.

Ach ja: IBM GPFS gibt es bereites seit 1998, und in all den Jahren wurden regelmäßig neue Rekorde aufgestellt, wie das Scannen und Erfassen von 10 Milliarden Dateien auf einem einzigen System. Hierfür brauchte das GPFS-unterstützt HPC-Cluster gerade mal 43 Minuten – absoluter Rekord. Nur zum Vergleich: Die bis dahin beste Ergebnis lautete drei Stunden – für eine Milliarde Dateien!

Update: Mein Videointerview von der CeBIT 2014 zum Thema Red Bull Racing und IBM ist online.

Bitte folgen

Michael Hülskötter

Ich schreibe im Auftrag der IBM Deutschland GmbH auf dem Hightech Computing Blog.
Bitte folgen

4 thoughts on “IBM GPFS: Verteilte Storage-Systeme für vierfache Weltmeister [Upd]

  1. Pingback: IBM Workshops für mehr Wissen: Hardware, Software, Storage und GPFS

  2. Pingback: IBM Breakfast Briefings - Zusammenfassung des Dienstags

  3. Pingback: Videointerviews auf der ISC 2014 mit IBM, Intel, Mellanox und Co.

  4. Pingback: IBM Breakfast Briefings: Storage-basiertes Fazit - Hightech Computing Blog

Schreibe einen Kommentar