Monthly Archives: Dezember 2013

Alles über Supercomputing, HPC und IBM Technical Computing

IBM WatsonDas Weihnachtsfest steht vor die Tür, was traditionsgemäß auch auf dem Hightech Computing Blog zu einer – wenngleich eher kurzen – Rückschau führt. Denn obschon dieses Blog noch recht frisch und jung ist, hat sich in dieser kurzen Zeit bereits eine Menge getan. Ein guter Grund also, die knapp ersten zwei Monate Revue passieren zu lassen.

Standesgemäß startet man solch ein Blogprojekt mit einem aktuellen Anlass, und der ergab sich fast wie von selbst. Sebastian Vettel fuhr nämlich pünktlich und vorzeitig zum Erscheinen dieser Seite seinen vierten Weltmeistertitel ein, und das unter anderem mithilfe von IBM. Denn das Infiniti Red Bull Racing Team setzt bereits seit vielen Jahren auf die Kraft von Server-Lösungen aus dem Hause „Big Blue“, sodass wir diesen großen Erfolg gebührend gefeiert haben. Ach ja: Aufgrund des hohen Verteilungsgrads der zum Einsatz kommenden HPC-Server setzt Red Bull auf IBM GPFS, einem parallel arbeitenden Datensystem.

Nicht weniger aktuell, wenngleich schon ein klein bisschen älter, ist die IBM NeXtScale Architektur. Damit lassen sich platzsparende Hochleistungsmaschinen bauen, die dank der modularen Bauweise von NeXtScale beliebig mitwachsen können. Je nach Anwendungen und Ansprüchen, die solch ein System erhebt. Der IBM Businesspartner transtec hat in einem Interview über erste diesbezügliche Erfolge berichten können. Apropos Erfolge: Mit dem großen Projekt bei Bayer HealthCare hat der IBM-Partner aus Tübingen einen echten Meilenstein für sich selbst, aber auch für IBM feiern können. Dort geht es unter anderem um DNA-Analysen, die geradezu nach leistungsfähigen HPC-Clustern rufen.

Wenn es ein wenig größer sein soll, ist der SuperMUC genau das richtige Anschauungsobjekt in Sachen Supercomputing und High Performance Computing (HPC). Denn dieser warmwassergekühlte Superrechner, der im LRZ Garching seine Dienste verrichtet, schafft dank der verbauten IBM-Technik gut 3 PetaFLOPS und zählt damit immer noch zu den zehn schnellsten Supercomputern der Welt. Und wie der SuperMUC wieder unter die Top 3 der Top 500 kommen will, hat uns weniger Tage später Prof. Dr. Bode in einem exklusiven Interview erzählt.

Bei solch einem Superrechner geht es jedoch nicht nur um die Rechenleistung allein. Denn gerade in Zeiten unstrukturierter Daten wie Videos, Blogbeiträge und vielem mehr kommt es immer mehr darauf an, diese Daten mit den richtigen Werkzeugen bestmöglich zu analysieren, zu entschlüsseln und damit für seine eigenen Bedürfnisse nutzbar zu machen. Big Data eben.

Hadoop-LogoSolch ein Tool nennt sich Apache Hadoop, und da diese Software recht anspruchsvoll in der Handhabung und Implementierung ist, kam IBM auf die Idee, eines seiner Serversysteme standardmäßig mit Hadoop zu bespielen und als Komplettpaket zu verkaufen. Eine echte „Einsteigerlösung“ also, die von Anfang an funktioniert.

Dieses „Server von der Stange“-Konzept hat IBM bereits verfeinert und bietet unter dem Namen IBM Application Ready weitreichende Konzept an, mit denen Wissenschafter, Biochemiker und andere Menschen an ein HPC-System herankommen, auf dem ihre Software-Lösungen installiert sind.

Darüber hinaus haben wir noch eine ganze Menge über IBM Blue Gene erzählt, und das sowohl aus historischer Sicht als auch aus der Sicht eines äußerst erfolgreichen Supercomputers. JUQUEEN steht im Forschungszentrum Jülich und basiert auf Blue Gene/Q. Und klar, dass wir uns auch IBM Watson etwas genauer angesehen haben. Genau, das ist dieser Superrechner, der vor knapp drei Jahren die Quizshow Jeopardy gewinnen konnte und der ab 2014 als Cloud-Supercomputer gemietet werden kann.

Ansonsten bleibt mir nur noch, Ihnen schöne Weihnachten und ein gutes neues Jahr zu wünschen, obwohl bis dahin ja noch ein paar Tage vergehen. Natürlich geht es im nächsten Jahr hier weiter mit neuen und spannenden Geschichten aus der Welt von HPC, Supercomputing und IBM. Ich freue mich drauf!

Von TeraFLOPS zu PetaFLOPS: IBM Blue Gene HPC-Architektur

Der Supercomputer JUQUEEN in JülichWährend unseres Interviews zu JUQUEEN schwärmte Dr. Norbert Attig vom Forschungszentrum Jülich geradezu von IBM Blue Gene, dieser Rechnerarchitektur, die in „seinem“ Supercomputer zum Einsatz kommt.

Genauer gesagt, wird diese HPC-Architektur in Jülich bereits seit vielen Jahren verbaut, damals noch als Blue Gene/L-Rechnerverbund, von dem die Anwender vom ersten Tag an begeistert waren. Grund genug für das Hightech Computing Blog, Blue Gene etwas genauer zu beleuchten.

IBM Blue Gene sollte parallel sein und in PetaFLOPS-Bereiche vorstoßen

Mit der Blue Gene-Serverarchitektur wollte IBM um jeden Preis einen Missstand beheben, den „Big Blue“ nicht weiter tatenlos akzeptieren wollte. So sollten mit IBM Blue Gene HPC-Cluster möglich sein, die eines Tages Berechnungen im PetaFLOPS-Bereich durchführen können. Daraus entwickelte sich ein Gemeinschaftsprojekt, das auf fünf Jahre angelegt war und Ende 2004 seinen ersten großen Erfolg feiern durfte.

Der damals noch im Aufbau befindliche Supercomputer des Lawrence Livermore National Laboratory auf IBM Blue Gene/L-Basis fand sich in der November-Ausgabe der Top-500-Liste auf Platz 1 wieder – was einer Sensation gleichkam. Dieser HPC-Verbund bestand aus insgesamt 32.768 Prozessorkernen und bot eine Rechenleistung von fast 71 TeraFLOPS. Zum Vergleich: Der zweitplatzierte SGI-Supercomputer schaffte im LINPACK-Benchmark gerade mal 52 TeraFLOPS.

PowerPC-Prozessoren mit 700 MHz und 360 Tera-FLOPS: IBM Blue Gene/L

Die erste Blue Gene-Architektur mit dem Zusatz „L“ bestand aus einem Basisbaustein, der sich aus zwei Prozessoren vom Typ PowerPC Embedded 440 mit 700 MHz, zwei Co-Prozessoren, einem Cache und einem Kommunikationssubssystem zusammensetzte. Das Besondere daran: Diese Basiseinheit konnte beliebig kombiniert werden, woraus sich theoretisch ein HPC-Verbund ergeben konnte, der insgesamt aus 131.072 Prozessoren bestand, die eine Rechenleistung von 360 TeraFLOPS erreichten. Solch ein System verbrauchte 1,2 Megawatt pro Stunde.

1 PetaFLOPS mit 294.912 CPU-Kernen: IBM Blue Gene/P

2007 wurde auf der International Supercomputing in Dresden die Nachfolge-Architektur IBM Blue Gene/P vorgestellt. Im Vergleich zu Blue Gene/L kamen schnellere Prozessoren zum Einsatz, die sich PowerPC 450 nannten und mit 850 MHz getaktet wurden. Darüber hinaus saßen auf jedem Knoten nicht mehr zwei, sondern vier Prozessorkerne, was bei gleichbleibenden Baugrößen eine Verdoppelung der möglichen Prozessoren pro Serverschrank bedeutete. So kam jedes Rack auf eine theoretische Rechenleistung von 14 TeraFLOPS, die Bandbreite des Netzwerks wurde mehr als verdoppelt und leistete nun 5,1 GBit/s.

Am 26. Mai 2009 war es dann soweit: Der auf Blue Gene/P basierende JUGENE Supercomputer im Forschungszentrum Jülich kam auf eine maximale Rechenleistung von 1 PetaFLOPS, die sich in einer Prozessoransammlung von 294.912 CPU-Kernen begründete. Damit nahm JUGENE in der Juni-Liste 2009 der Top 500 den dritten Platz weltweit ein, und das mit einer beeindruckenden Energieeffizienz, die bei 2,3 Megawatt lag.

20 PetaFLOPS und hohe Energieeffizenz: IBM Blue Gene/Q

Am 18. Juni 2012 erklomm ein IBM-Rechner den ersten Platz der Top-500-Liste der schnellsten Supercomputer der Welt. Sein Name: IBM Sequoia. Seine Aufgabe: Das Erforschen neuer Energiequellen und das Abschaffen unterirdischer Atomtests. Sein Standort: Lawrence Livermore National Laboratory. Seine Konfiguration: 1.572.864 Prozessorkerne vom Typ IBM PowerPC A2, der mit 1,6 GHz getaktet wird. Seine Architektur: IBM Blue Gene/Q. Seine maximale Rechenleistung: 20 PetaFLOPS, und das bei einer Stromaufnahme von unter 8 Megawatt. Dieser Rechner steht übrigens immer noch ganz weit oben auf der Top-500-Liste, genauer gesagt auf Platz 3.

Zusammenfassend lässt sich also sagen, dass IBM Blue Gene schon lange im PetaFLOPS-Bereich angekommen ist, und damit Anwendungen ermöglicht, die vor eine paar Jahren noch nicht denkbar waren. Zudem bietet die HPC-Architektur eine sehr hohe Energieeffizienz, was sie für weitere Höchstleistungen geradezu prädestiniert.

„JUQUEEN ist ein hochparalleler und energieeffizienter Supercomputer“

Dr. Norbert Attig vomm Jülich Supercomputer CentreWer SuperMUC sagt, muss auch JUQUEEN sagen! Daher haben wir nach Prof. Dr. Arndt Bode vom LRZ Garching auch mit Dr. Norbert Attig vom Jülich Supercomputing Centre ein Interview geführt, in dem er uns seine Sicht der Dinge zum IBM Blue Gene/Q Supercomputer schildert, der im Forschungszentrum Jülich steht und der sich derzeit unter den Top 10 der schnellsten 500 Supercomputer der Welt befindet. Dabei erfahren wir eine Menge darüber, wer JUQUEEN einsetzt, warum sich ein IBM-Logo auf dem Rechner befindet und wohin es in Sachen Supercomputing im nächsten Jahr geht.

Herr Attig, wer nutzt JUQUEEN hauptsächlich?

Norbert Attig: JUQUEEN kommt immer dann zum Einsatz, wenn Wissenschaftler aus Deutschland und anderen europäischen Staaten computergestützte Grundlagenforschung betreiben und die hierfür erforderlichen Rechenkapazitäten bei uns nutzen wollen. Dabei handelt es sich häufig um Anwendungen aus den Bereichen Physik, Chemie und Biologie. Zunehmend wird JUQUEEN auch für Anwendungswissenschaften und das Bewältigen der „Grand Challenge“-Probleme eingesetzt, also für die Herausforderungen, die sich zum Beispiel aus der Gehirnforschung ergeben. Das hat vor allem damit zu tun, dass wir Partner im Human Brain-Projekt sind, in dessen Rahmen wir selber – gemeinsam mit unseren Kollegen aus den Neurowissenschaften – diverse Forschungs- und Entwicklungsarbeiten durchführen.

Warum ist JUQUEEN ein IBM-Rechner?

Das hat vor allem historische Gründe, denn die Vorgängersysteme des JUQUEEN-Rechners basierten auf der IBM Blue Gene/L- bzw. der Blue Gene/P-Architektur, die innovative Konzepte im Hinblick auf Skalierbarkeit und Energieeffizienz boten. Der Blue Gene/L Rechner erlaubte bereits 2005 Parallelberechnungen in einem Ausmaß, das wir so noch nicht kannten. Und das in Kombination mit einer Hardware- und Softwareausstattung, die es ermöglichte, dass viele Anwendungen ohne größere Anpassungen liefen. Damit war uns schon damals klar: der IBM Blue Gene, der ist es! Daran hat sich bis heute nichts geändert, wenngleich sich die Technik um diverse Ausbaustufen im Laufe der Zeit weiterentwickelt hat.

Heute betreiben wir mit JUQUEEN ein Blue Gene/Q System, das in 28 Serverschränken verbaut ist. Dieses System nutzt gut 458.000 Prozessorkerne, die gemäß des Linpack-Benchmarks auf eine gigantische Rechenleistung von fast 6 PetaFLOPS kommen. Und das alles mit einem Energieverbrauch, der trotz der enorm gestiegenen Leistungsfähigkeit gegenüber dem sechsmal langsameren Vorgängersystem auf Blue Gene/P-Basis nicht zugenommen, sondern abgenommen hat. Auch das war von Anfang an ein großes Plus der IBM Blue Gene-Architektur. Natürlich tragen dazu auch die verbesserten Kühlungssysteme bei, die sich im Laufe der letzten Jahre von einer reinen Luftkühlung zu einer Wasserkühlung entwickelt haben.

Was begeistert Sie am JUQUEEN besonders?

Der Supercomputer JUQUEEN in JülichMich begeistert vor allem die Fähigkeit von JUQUEEN, die sehr hohe Zahl an Mikroprozessoren vom Typ IBM PowerPC A2 für verschiedene Anwendungen optimal einsetzen zu können, also einen Großteil der über 458.000 CPU-Kerne parallel für eine Anwendung zu nutzen. Nur so kann die enorme Rechenleistung einzelnen Programmen zugute kommen.

Ein sehr gutes Beispiel hierfür ist der vom Jülich Supercomputing Centre gegründete High-Q Club, eine Sammlung unterschiedlicher Anwendungen, deren Entwickler es geschafft haben, den hohen Parallelisierungsgrad von JUQUEEN optimal auszunutzen. Dazu gehören derzeit zehn Programme, die aus den Bereichen Elementarteilchenphysik, Fusionsforschung, Laserplasma-Simulation, Strömungsmechanik, usw. stammen. Diese Software-Anwendungen haben das Zeug dazu, noch weiter zu skalieren, wenn uns künftig größere und leitungsfähigere Supercomputer mit noch mehr Prozessorkernen zur Verfügung stehen.

Wie wollen Sie JUQUEEN wieder unter die Top 5 bringen?

Natürlich ist es immer schön, wenn sich ein Supercomputer unter den schnellsten Rechnern der Welt und damit auf der Top-500-Liste ganz oben befindet. Uns ist es allerdings wichtiger, dass das System von unseren Wissenschaftlern angenommen wird. Das ist in einem hohen Maße der Fall und eine weitere Ausbaustufe von JUQUEEN ist nicht vorgesehen. Wir evaluieren jetzt lieber Nachfolgesysteme, die in drei oder vier Jahren zum Einsatz kommen können. Schließlich müssen wir auch sehen, dass unsere Rechner immer dem Stand der Technik im Hinblick auf Leistungsfähigkeit und Energieeffizienz entsprechen. Allerdings wird es sich beim nächsten Rechner nicht um ein Blue Gene/Q-Modell handeln, da dieses ja das letzte seiner Art sein wird.

Wohin bewegt sich das Supercomputing in Zukunft?

Einen der Trends im Supercomputing gibt JUQUEEN im Grund schon vor: die Zahl der maximal verfügbaren Prozessorkerne wird weiter steigen. Und das ist eine der großen Herausforderungen der nächsten Jahre: Wissenschaftliche Anwendungen müssen fit für eine noch höhere Parallelität gemacht werden.

Das andere große Thema ist der Energieverbrauch der Supercomputer, der mit der Leistungsfähigkeit ansteigt. Immer größere Anstrengungen sind notwendig, um die Energieeffizienz zu verbessern. Darüber hinaus sollte der Energieverbrauch des Supercomputers nicht Probleme verschärfen, zu deren Lösung er herangezogen wird, wie beispielsweise die Durchführung von Klimasimulationen bei der Untersuchung des Klimawandels.

Ein drittes großes Thema des kommenden Jahres wird das Rechnen mit Beschleunigerprozessoren sein, die maßgeblich von NVIDIA und Intel entwickelt werden. Allerdings ist hier noch viel Arbeit erforderlich, damit die bestehenden Anwendungen vorhandene Beschleuniger wie NVIDIA Kepler und Intel Phi optimal nutzen können. In Jülich haben wir damit zwei kleinere HPC-Cluster aufgebaut, um eigene Erfahrungen zu sammeln, sind uns aber noch nicht ganz sicher, ob diese Systeme bereits Vorbild für tragfähige Zukunftslösungen für unsere Anwender sind.

 

IBM Watson: ein Supercomputer geht in die Cloud

IBM WatsonAnfang 2011 war es soweit: Da gewann ein Computer die US-amerikanische Quizshow „Jeopardy“, bei der anhand einer komplexen Antwort die richtige Frage formuliert werden muss.

Der Name des Computers: IBM Watson, in dem damals insgesamt 2.880 Prozessorkerne vom Typ IBM POWER7 und 14 Terabyte RAM zum Einsatz kamen. Mit dieser enormen parallelisierten Rechenleistung und der zugrunde liegende Software-Technik DeepQA konnte Watson für jede der Antworten in weniger als drei Sekunden die richtige Frage finden – und damit seine menschlichen Konkurrenten bezwingen.

Mit diesem Wissen und dieser Rechenkraft will IBM ab nächstem Jahr Wissenschaftlern, Ärzten, Finanzdienstleistern und anderen Berufsgruppen helfen, ihre Herausforderungen noch besser meistern zu können. Hierfür steht ab 2014 die IBM Watson Developers Cloud zur Verfügung, auf der sich Kunden einwählen und die nahezu unerschöpflichen Ressourcen und Kapazitäten von IBM Watson nutzen zu können.

IBM Watson geht in die Cloud- und alle profitieren davon

So können Mediziner beispielsweise mithilfe von Watson auf einen riesigen Fundus an Fachliteratur zurückgreifen, mit deren Hilfe der IBM Supercomputer die Lösung für ein medizinisches Problem schneller lösen kann bisher. Aber auch Finanzdienstleister können sich der Hilfe von Watson bedienen, indem sie nicht nur Börsenkurse analysieren (was ziemlich trivial ist), sondern mit der DeepQA-Technik des IBM-Rechners Wirtschaftsnachrichten, Bilanzen und andere Informationsquellen anzapfen, die bei der monetären Beurteilung eines Unternehmens helfen.

Hinter DeepQA steckt eine kognitive Computertechnik, die auf der Basis umfangreicher Informationen zu einer Problemstellung genau die richtige Antwort oder Lösung findet. Dabei handelt es sich um eine äußerst geschickte Kombination aus Künstlicher Intelligenz, menschlicher Interaktion und der Kraft von Big Data. Hierfür kommen Bild- und Spracherkennung zum Einsatz sowie ein permanenter Lernprozess, den sowohl den Computer als auch den Anwender betrifft. Zudem werden Techniken wie visuelle Analysen und Datenvisualisierung eingesetzt, um auf diesem Weg die richtigen Entscheidungen zu treffen.

Vordefinierte oder eigene Anwendungen – Watson unterstützt sie alle

Neben vordefinierten Anwendungen, die innerhalb der IBM Watson Developers Cloud zur Verfügung stehen sollen, gewährt IBM auch die Möglichkeit, mithilfe eines Software Development Kit (SDK) und der Watson-API eigene Applikationen zu programmieren. Damit sind ganz neue Szenarien denkbar, die von der sprachgesteuerten Support-Hotline bis zur interaktiven juristischen Erstberatung reichen. Und das alles mithilfe eines einzigen Rechners.

Watson liefert aber nicht nur die passenden Antworten auf die dringendsten Fragen unserer Zeit, sondern vermag auch mit riesigen Datenmengen umzugehen. Hierfür kommt das Hadoop-Framework zum Einsatz, das unter anderem auf den IBM PureData System for Hadoop vorinstalliert ist. Darüber hinaus läuft auf Watson Apache UIMA (Unstructured Information Management Architecture) und SUSE Linux Enterprise Server 11. Zudem greift der IBM-Supercomputer auf mehr als 100 Techniken zurück, mit denen sich Sprache analysieren lässt und die passenden Wissensquellen blitzschnell gefunden werden können. Das reicht von eingebetteten Tabellen bis zu Audiodokumenten und Zeitungsartikeln.

Parallel ausführbare Algorithmen – das ist IBM Watson

Natürlich steht am Ende dieses Beitrages wie so oft ein interessantes Video, das ich auf Youtube gefunden habe. Es wurde von Engadget gedreht, die mit einem der Erfinder von Watson, David Gondek, über sein „Baby“ sprechen. Dabei geht es vor allem um den Aspekt, dass Watson auf einer Vielzahl von Algorithmen beruht, die zur Beantwortung einer Frage  gleichzeitig zum Einsatz kommen. Denn genau das macht IBM Watson so leistungsstark.

Die HPC-Trends 2014 aus transtec-Sicht: IBM NeXtScale, Intel Xeon Phi und RAM-Clustering

Bei Bayer HealthCare kommt künftig ein HPC-Cluster der Marke IBM Flex System zum EinsatzDass IBM und die Firma transtec aus Tübingen gemeinsam HPC-Projekte stemmen, ist aufmerksamen Lesern dieses Blogs sicherlich nicht entgangen. Dabei haben wir unter anderem von einem ganz neuen Kundenprojekt berichtet, dass die Installation eines IBM-basierten HPC-Clusters bei Bayer HealthCare vorsieht, auf dem künftig aufwendige Berechnungen zur DNA-Sequenzierung durchgeführt werden sollen.

Dieses HPC-Cluster basiert auf IBM Flex System, das insgesamt aus 34 Recheneinheiten besteht. Das ist für ein Unternehmen wie Bayer HealthCare sicherlich die passende Infrastruktur, gerade für kleinere und mittlere Firmen sind aber neue, flexiblere HPC-Lösungen vonnöten. Und die stellen sich laut Oliver Tennert von der transtec AG in der IBM NeXtScale System-Lösung dar, da sie gerade für Mittelstandsfirmen eine prima Ergänzung zu den bisherigen HPC-Lösungen IBM iDataPlex und IBM Flex System sind.

Mit NeXtScale flexible HPC-Lösungen für den Mittelstand schaffen

Denn das Besondere an IBM NeXtScale ist laut Tennert der modulare Aufbau und die flexible Konfiguration, womit sich NeXtScale-Recheneinheiten in Standard-Serverschränken sehr bequem einbauen lassen. Damit kann man individuelle Servergrößen ganz einfach realisieren.

Ein weiteres Argument für IBM NeXtScale ist die variable Nutzung der 12 Einschübe, mit denen sich ein Serversystem bestücken lässt. So kann man beispielsweise Storage-Komponenten mit einer Bauhöhe von 3U mit GPU-Einheiten von 1U oder 2U kombinieren. Zudem lassen sich NeXtScale-Servereinheiten miteinander kombinieren, sodass der Kunde stets das HPC-System bekommt, das er für seine Zwecke benötigt.

Zwar wurden bis heute noch keine Projekte seitens der transtec auf Basis der IBM NeXtScale realisiert, aber es sind bereits zahlreiche Angebote draußen, die zeigen, dass das neue HPC-System der IBM gerade im Industriesektor das HPC-Clustersystem der Zukunft werden könnte.

Die Zukunft des Supercomputing: Kompatible Lösungen, Intel Xeon Phi und parallele Dateisysteme

IBM NeXtScale System n1200Doch wie sieht transtec die Zukunft des Supercomputing? Auch dazu hat Oliver Tennert eine dedizierte Meinung. So sieht er – wie das Marktforschungsunternehmen IDC – den HPC-Markt als kontinuierlich wachsend an, was seiner Firma und der gesamten Branche weiterhin interessante Projekte verspricht.

Dabei hilft die Tatsache, dass es immer noch viele potenzielle Kunden gibt, die das Thema High Performance Computing für ihre Zwecke gerade erst entdecken, da ihre Anwendungen geradezu prädestiniert sind für Supercomputing & Co. Hierzu zählen immer öfter kleinere Unternehmen, die einen großen Bedarf an HPC-Lösungen haben. Zudem sieht Tennert den HPC-Markt als ein sehr stabiles Gebilde an, da sich die Technologien zwar weiterentwickeln, dabei aber seit vielen Jahren auf eine möglichst hohe Kompatibilität geachtet wird.

Das macht es vor allem aus Applikationssicht sehr viel einfacher, da immer weniger aufwendige Portierungen erforderlich sind, wie das noch vor 20 Jahren der Fall war. Und aus technologischer Sicht, was wird sich da vor allem im nächsten Jahr ändern?

Der GPGPU-Markt wird sich 2014 weiterentwickeln

Nun, hier sieht Oliver Tennert die größten Veränderungen im GPGPU-Markt, da die Intel Xeon Phi Co-Prozessoren das Bild ein wenig verändern könnten. Oder wie er sagt: „Hier wird eine echte Technologiekonkurrenz entstehen.“ Aber auch das Thema parallele Dateisysteme wie IBM GPFS wird laut Tennert immer mehr an Bedeutung gewinnen, wovon künftig nahezu alle Anwendungen und alle Branchen profitieren werden.

Denn eines ist sicher: Die rasante Zunahme von großen Datenmengen wird uns erhalten bleiben. Und das wiederum wird für neue Systeme sorgen, die dank großer Hauptspeicher und vSMP-Systemen (Virtual Shared Memory Processing) noch besser mit Big Data umgehen können.

Supercomputing von der Stange: IBM Application Ready Solutions

IBM NeXtScale System n1200Stellen Sie sich vor, Sie wollten Ihre riesige Datensammlung sinnvoll aufbereiten, analysieren und nutzen, um Ihr Unternehmen konkurrenzfähiger zu machen. Dabei entpuppt sich allerdings das nicht vorhandene Spezialwissen Ihrer IT-Abteilung in Sachen Big Data  als echtes Hindernis.

Was also tun? Know-how einkaufen? Zu teuer und zu aufwendig. Know-how aufbauen? Dauert viel zu lange! Die Daten ungenutzt vor sich hindümpeln lassen? Ganz bestimmt nicht!

Wie wäre es denn mit einer Out-of-the-Box-Lösung, die den perfekten Mix aus Hardware und Software darstellt, die also die notwendige Rechenpower liefert und mit Tools und Anwendungen bestückt ist, die eine HPC-Big-Data-Lösung innerhalb weniger Stunden einsatzbereit macht? Nun, solch eine Lösung gibt es und nennt sich IBM Application Ready Solutions for Technical Computing.

HPC-Leistung Out-of-the-Box: IBM Application Ready Solutions

Hinter diesem zugegebenermaßen etwas sperrigen Begriff verbirgt sich genau diese Idee: Man wirft die Hardware- und Software-Erfahrung von IBM in einen Topf, mischt sie mit erprobten Anwendungen namhafter Software-Hersteller wie Dassault Systèmes, ANSYS und Gaussian Inc. und erhält eine Lösung, die vom Start weg funktioniert. Damit bekommen vor allem kleinere und mittlere Firmen ohne profundes Wissen genau die IT-Anlage geliefert, die ihnen vom ersten Tag an bei der Bewältigung ihrer Herausforderungen in Sachen Big Data und Co. hilft.

Bei der Wahl der passenden Hardware-Ausstattung stehen zahlreiche IBM-Systeme zur Verfügung, die bei IBM Flex System beginnen und bei der brandneuen Serie NeXtScale System enden. Dazwischen liegen Variationen von IBM System x und iDataPlex dx360. Abgerundet wird diese Hardware-Vielfalt vom Low-Cost-Speichersystem IBM System Storage DS 3524. Und falls bereits ein Storage-System existiert, lässt sich dieses mithilfe der Software-Lösung IBM Storwize V700 Unified zu einem einzigen Speichersystem zusammenfassen.

Neben viel Rechenleistung gibt es erprobte Software

Serversysteme lassen sich mit IBM Intelligent Cluster verwaltenIn Sachen IBM-Software steht ebenfalls eine Reihe erprobter Tools parat, die das Installieren von Anwendungssoftware und das Steuern und Warten des HPC-Clusters so einfach und effizient wie möglich macht.

Dazu gehört IBM Intelligent Cluster, mit dem sich Anwendungen mühelos auf dem System implementieren lassen. Aber auch IBM Platform HPC, IBM Platform LSF und IBM GPFS sind auf den Systemen vom Typ IBM Application Ready bereits vorinstalliert. Für eine bestmögliche Leistung der gesamten Hardware in Verbindung mit Funktionen, die für das Verwalten des Clusters erforderlich sind.

Den Kern dieser HPC-Lösung stellen allerdings die Anwendungen dar, die optimal auf das jeweilige System zugeschnitten sind. Damit läuft jede Spezialanwendung vom ersten Tag an optimal auf dem zugehörigen System. Dazu zählen folgende Applikationen, die in Zusammenarbeit mit den betreffenden Software-Partnern für die IBM-Systeme vorbereitet und angepasst wurden.

Vorinstallierte Spezialanwendungen sorgen für schnelle Ergebnisse

  • Mit Abaqus bietet Dassault Systèmes eine umfassende Simulationslösung, mit der sich äußerst komplexe Simulationen und Berechnungen innerhalb kürzester Zeit durchführen lassen. Dazu gehören Tools wie SIMULIA und die Abaqus Unified FEA Produktsuite, mit der komplexe Simulationen und Entwicklungsaufgaben durchgeführt werden können.
  • Accelrys bietet Anwendungen für die Bereiche Healthcare und Wissenschaft, in denen es aufgrund riesiger Datenmengen auf einen besonders leistungsfähige Speicherlösung ankommt. Daher wird in diesem Fall ein besonderes Augenmerk auf IBM GPFS gelegt.
  • ANSYS kommt überall dort zum Einsatz, wo die Numerische Strömungsmechanik Teil der Forschung und Modellierung ist. Das ist beispielsweise bei Unternehmen der Fall, die Simulationen im Bereich Automobilbau durchführen und hierfür die passende Software und Hardware benötigen.
  • Mit IBM Application Ready Solution for CLC bio werden Kunden adressiert, die beispielsweise enorme Anstrengungen in das Entschlüsseln des menschlichen Genoms investieren, die aber auch in der biochemischen Forschung unterwegs sind. Auch hier kommt es auf extrem hohe Datendurchsatzraten mithilfe von IBM GPFS an, wie das beispielsweise bei der DNA-Analyse der Fall ist.
  • Die Gaussian-Anwendung wird in bio-chemischen und physikalischen Laboren eingesetzt, wo molekulare Strukturen untersucht werden. Hierfür ist eine enorme Rechenleistung gefragt, die das IBM Flex System POWER7+ liefert. Auch hier steht eine optimale Verteilung der vorhandenen Ressourcen im Vordergrund.
  • MSC Software kommt immer dort zum Einsatz, wo Hersteller ihre neuen Produkte möglichst schnell und effizient am Rechner entwickeln und ihre Verhaltensweise möglichst realistisch simulieren wollen. Hierfür sind neben einer ausgewogenen Hardware-Plattform spezielle Tools wie MSC Nastran, MSC Patron und MSC SimManager erforderlich.
  • Mit den Schlumberger-Anwendungen ECLIPSE und INTERSECT lassen sich geologische Reservoirs von Erdöl, seltenen Gesteinen und anderen Ressourcen am Rechner auf Basis vorhandener Daten darstellen und modellieren. Die zugehörige IBM-Lösung erhöht die Zahl der möglichen Iterationen und erlaubt somit exaktere Ergebnisse.

So, und für alle, die lieber Video gucken als lesen, haben wir dieses ausführliche Youtube-Video aufgespürt, das auf der SuperComputing Conference 2013 in Denver aufgezeichnet wurde. Viel Spaß dabei!

Supercomputer von gestern bis heute: von IBM ES/3090 bis IBM Blue Gene/Q

Der IBM Deep Blue ist einer von zahlreichen Supercomputern, der seiner Zeit voraus warZugegeben, die SuperComputer Conference 2013 ist schon ein paar Tage her, aber heute habe ich ein tolles Video entdeckt, in dem Alan Benner von IBM seine Zuseher auf eine interessante Zeitreise mitnimmt. Es geht um fast 70 Jahre HPC und Supercomputing aus der Sicht von „Big Blue“ und wie sich die ersten Röhren-basierten Rechner zu HPC-Clustern à la SuperMUC und JUQUEEN gemausert haben.

Begonnen hat alles in den 1950er und 60er Jahren, als IBM ganz exklusiv für die US Air Force den IBM SAGE Computer bauen durfte. Damals befanden sich die USA noch im Kalten Krieg mit der UdSSR, und SAGE sollte dabei helfen, auf Basis von Radarüberwachung herauszufinden, ob sich „der Feind“ gerade näherte – oder auch nicht.

In gut 30 Jahren von 500 MegaFLOPS zu 20 PetaFLOPS

In den späten 80er Jahren entwickelte IBM einen Supercomputer namens IBM ES/3090, der umgerechnet 500 Millionen Fließkommaberechnungen pro Sekunde durchführen konnte, also auf einen Rechenwert von 500 MegaFLOPS kam. Preis: mehrere Millionen US-Dollar. Im Vergleich dazu leisten die heutigen schnellsten Supercomputer 20 PetaFLOPS und mehr, also 20 Millionen TeraFLOPS, was wiederum 20 Billionen MegaFLOPS entspricht. Diese Rechner sind also um ein Viel-Viel-Viel-Faches schneller als der IBM ES/3090, und das zu einem Bruchteil des damaligen Preises.

Anfang der 90er Jahre kamen die IBM SP1 und IBM SP2 Systeme auf den Markt, wobei SP für „Scalable POWERparallel“ steht. Diese verfolgten erstmalig das Konzept eines „Out-of-the-Box“-Servers, indem man mithilfe von standardisierten Komponenten den Supercomputer seiner Wahl zusammenbauen konnte. Damit war ein erster Vorgänger der heutigen IBM NeXtScale-Systeme erschaffen, denn gestern wie heute ging und geht es um hochmodulare Computersysteme, die sich den Bedürfnissen und Rechenkapazitäten seiner Anwender anpassen.

Das erklärt auch den langjährigen Erfolg des IBM SP2, der von 1993 bis 2001 eine Vielzahl von Supercomputer-Projekten hervorbrachte. Der SP2 bestand aus bis zu 128 Recheneinheiten (in speziellen Fällen auch aus 512 Nodes), die jede für sich eine Vielzahl von POWER- und PowerPC-basierten Multicore-Prozessoren beherbergte.

IBM GPFS sorgt seit 1998 für parallele Storage-Systeme

IBM Blue GeneAls Betriebssystem kam IBM AIX, ein UNIX-Derviat, zum Einsatz sowie hochspezialisierte Software, die sich um das Parallelisieren der Rechenoperation und Datenströme kümmerte. Auch das stellte die Weichen für heutige Systeme wie IBM Platform HPC und IBM GPFS, das bereits 1998 entstand. GPFS folgte der Idee, große Speichersysteme bestmöglich nutzen zu können, indem sich parallele Lese- und Schreiboperationen ausführen lassen. Dieses Konzept hat bis heute Bestand und kommt nach wie vor in großen Installationen zum Einsatz.

IBM Supercomputer sind Garant für Weltrekorde

In den Folgejahren entwickelten sich diese Systeme kontinuierlich weiter und wurden immer leistungsfähiger, was sich unter anderem in diversen Weltrekorden niederschlug, die IBM mit seinen Supercomputern aufstellte. Zu nennen ist der IBM Deep Blue (der den damaligen Schachweltmeister Garri Kasparow 1996 zum ersten Mal schlug), der IBM Roadrunner (der von Juni 2008 bis November 2009 der schnellste Rechner der Welt war) und der IBM Blue Gene/Q, der noch heute vielfach zum Einsatz kommt, wie ein Blick auf die aktuelle Top-500-Liste zeigt.

Einen kleinen augenzwinkernden Blick in die Zukunft gewährt der Film natürlich auch: So wird es in 25 Jahren den IBM SP38 geben und IBM wird immer noch eine der führenden Supercomputer-Firmen sein. Na dann, Film ab!

Das leistet IBM PureData System for Hadoop für Big-Data-Anwendungen

Hadoop-LogoLetzte Woche ging es auf dem IBM Hightech Computing Blog um das Thema Apache Hadoop. Und das aus gutem Grund, schließlich wird dieses Open-Source-Framework aus Big-Data-Sicht immer wichtiger, sodass es innerhalb der IBM PureData-Familie eine spezielle Serverlösung gibt, auf der Hadoop bereits vorinstalliert ist.

Damit kann solch eine Big-Data-Lösung mithilfe geeigneter Anwendungen und großer Datenbestände innerhalb kürzester Zeit zum Einsatz kommen.

Doch was macht IBM PureData System for Hadoop so besonders und welche Vorteile holt man sich im Gegensatz zu einem selbst installierten Hadoop-System ins Rechenzentrum? Schließlich ist Hadoop eine Open Source-Software, die kostenlos für jedermann zur Verfügung steht. Nun, IBM PureData System for Hadoop steht für…

eine schnelle Implementierung, da kein größeres Know-how rund um das Installieren und Einrichten von Hadoop erforderlich ist. Das spart von Hause aus mehrere Manntage Arbeit.

einen schnellen Projektbeginn, da aufgrund der vorinstallierten Anwendungen die ersten Daten innerhalb weniger Stunden eingelesen und analysiert werden können.

eine integrierte Visualisierungssoftware, die auf einen Blick zeigt, wie sich Big Data innerhalb der eigenen Firma entwickelt und sinnvoll einsetzen lässt, und das sogar in Echtzeit. Auch damit können Sie sofort loslegen und müssen sich nicht erst mit den Hadoop-eigenen Tools zur Datenvisualisierung beschäftigen.

zuverlässige Sicherheit, da die Implementierung von Hadoop auf IBM-Standards geschieht, was für mehr Schutz der Daten und des gesamten Serversystems sorgt.

eine hohe Verfügbarkeit, da Hadoop in Kombination mit der Rechenleistung von IBM PureData System große Datenmengen problemlos verarbeiten kann. Darüber hinaus stehen zu Archivierungszwecken leistungsfähige Anwendungen parat.

eine hohe Flexibilität, denn dank der vorinstallierten Anwendungen lassen sich aufwendige Analysen durchführen,  die auf riesigen Social-Media-Datenströmen basieren, die aber auch Maschinendaten und Texte auswerten und aufbereiten können. Ein System für die unterschiedlichsten Aufgaben also.

eine simple Verwaltung, da sämtliche Aufgaben wir Analysen, Rechner-Administration, Updates, etc. mithilfe einer einzigen Steuerkonsole bewältigt werden können.

IBM PureData System for Hadoop basiert auf IBM InfoSphere BigInsights

Mit InfoSphere BigInsights wird auf den PureData Systemen eine IBM-eigene Hadoop-Version für das Aufbereiten strukturierter und unstrukturierter Daten vorinstalliert. Dieses Hadoop-Derivat erlaubt es, innerhalb kürzester Zeit die eigenen Daten einzulesen, zu analysieren und übersichtlich und verständlich darzustellen. Hierfür wird das Open-Source-Framework Apache Hadoop mit IBM-Anwendungen für die Textanalyse, IBM BigSheets für das Analysieren von Daten sowie anderen leistungsfähigen Tools kombiniert.

Das Ergebnis ist ein System, das sich besonders für das Analysieren von Big Data eignet. Hierfür stehen zwei Varianten zur Verfügung: die kostenfreie Version InfoSphere BigInsights Basis Edition und InfoSphere BigInsights Enterprise Edition, die speziell für größere Unternehmen konzipiert wurde. Dazu gehören leistungsfähige Tools für die Datenvisualisierung, für das Entwickeln eigener Anwendungen und das Analysieren riesiger Datenmengen. Darüber hinaus lässt sich InfoSphere BigInsights mit Informationswerkzeugen von IBM und anderen Anbietern kombinieren.