Datenturbo für Big Data: IBM PureData System for Hadoop

By | 28. November 2013

Hadoop-LogoStellen Sie sich einmal vor, Google würde mithilfe bekannter Techniken wie SQL sämtliche Daten speichern, aufbereiten und analysieren wollen.

Das Resultat wäre niederschmetternd, denn angesichts der riesigen Mengen von unstrukturierten Daten (wozu Videos, Google+ Beiträge und andere Dinge gehören) käme der Suchmaschinengigant mit herkömmlichen Werkzeugen erst gar nicht dazu, diese wertvollen Daten so aufzubereiten, dass sie wirklich einen Nutzen hätten.

Aus diesem Grund setzt Google schon seit einigen Jahren auf die Kraft von Hadoop, einem Open-Source-Framework, das den Umgang mit Big Data deutlich erleichtert und das in der Lage ist, große, unstrukturierte Daten mit einem überschaubaren Aufwand zu analysieren und dort bereitzustellen, wo sie gerade benötigt werden. Hierfür kommen zwei Methoden und zahlreiche Tools zum Einsatz.

MapReduce und HDFS: Berechne und verteile

MapReduce wurde einst von Google entwickelt und soll helfen, riesige Datenmengen, die jenseits der Petabyte-Grenze liegen, parallel zu berechnen, um damit vorhandene Rechnerressourcen besser nutzen zu können. Hierfür bedient sich MapReduce zweier Schritte: Im ersten Schritt werden die Eingabedaten auf eine Vielzahl von Map-Prozessen verteilt, sodass diese auf mehreren Prozessoren oder Prozessorkernen parallel berechnet werden können. Das ist die Map-Phase. Die (Zwischen)ergebnisse dieser Berechnungen werden dann in der Reduce-Phase mithilfe geeigneter Algorithmen zusammengeführt, woraus am Ende ein Ergebnis entsteht, das die ursprüngliche Aufgabe repräsentiert.

Mit HPFS (Hadoop Distributed File System) steht ein leistungsfähiges Dateisystem zur Verfügung, das ebenfalls auf die parallele Verarbeitung von Daten ausgerichtet ist. Dabei werden die zu speichernden Daten in Datenblöcke zerlegt und anschließend redundant über das gesamte Storage-System verteilt, das typischerweise aus mehreren Rechnern (Knoten) besteht. Dabei gibt es einen Master, der sämtliche Daten auf die Slave-Rechner verteilt und davon nur die Metadaten speichert. Dies entspricht also einem klassischen Tablet-of-Content-Ansatz. Damit lassen sich mehrere 100 Millionen Dateien mittels HPFS speichern und verwalten.

Leistungsfähige Tools für noch mehr Hadoop

Da es sich bei Hadoop um ein komplettes Framework handelt, gehören zahlreiche Tools dazu, die erst eine derart leistungsfähige Storage-Lösung ermöglichen. So kann man beispielsweise mit HBase riesige Datenmengen innerhalb einer äußerst skalierbaren Datenbank verwalten, die technisch gesehen auf Google BigTable basiert. In HBase-Datenbanken lassen sich Milliarden von Datensätzen speichern.

Mit Hive stellt Hadoop ein Data-Warehouse-System bereit, das auf der SQL-ähnliche Abfragesprache HiveQL beruht. Hive wurde von Facebook entwickelt und kommt dort auch innerhalb einer Hadoop-Umgebung zum Einsatz.

Mit der Programmiersprache Pig können relativ einfach MapReduce-Anwendungen erstellt werden. Dabei optimiert Pig selbständig die Ausführungen komplexer Berechnungen und lässt sich beliebig erweitern.

Mit Chukwa lassen sich große, verteilte Systeme in Echtzeit überwachen, und mit ZooKeeper können diese Systeme bequem konfiguriert werden, und das über Rechnergrenzen hinweg.

Vorkonfigurierte Hadoop-Lösung von IBM

IBM PureData SystemWie Sie sehen: Hadoop ist ein leistungsfähiges und sehr mächtiges Werkzeug für das Verwalten und Analysieren von Big Data. Um diese Sammlung an komplexen Werkzeugen und Methoden einer möglichst breiten Kundenschar zugänglich zu machen, gibt es von der IBM das PureData System for Hadoop.

Dabei handelt es sich um ein vorkonfiguriertes Serversystem, das auf IBM Standardkomponenten basiert und eine vollständige Hadoop-Implementierung vorsieht. Damit können IT-Verantwortliche quasi „Out-of-the-box“ ihre eigenen Big-Data-Projekte umsetzen.

Hierfür kommt die IBM-eigene Hadoop-Version InfoSphere BigInsights zum Einsatz, mit der riesige strukturierte und unstrukturierte Datenmengen gleichermaßen verarbeitet werden können. Damit lassen sich BigData-Projekte innerhalb weniger Tage realisieren, und nicht erst nach mehreren Wochen, die für das Installieren und Implementieren eines solchen Hadoop-Systems erforderlich wären.

Bitte folgen

Michael Hülskötter

Ich schreibe im Auftrag der IBM Deutschland GmbH auf dem Hightech Computing Blog.
Bitte folgen

2 thoughts on “Datenturbo für Big Data: IBM PureData System for Hadoop

  1. Pingback: ISC14: Oliver Oberst (IBM) über Big Data in der Lehre

  2. Pingback: IBM System z13 läutet das mobile Transaktionszeitalter ein - Hightech Computing Blog

Schreibe einen Kommentar