DNA-Analysen erfordern HPC-Cluster und ein ausgefeiltes Workload-Management

By | 14. November 2013
Mithilfe enormer Rechen- und Speicherkapazitäten entschlüsselt das Wlellcome Trust Sanger Institute das menschliche Genom

Quelle: Wikipedia

Die Entschlüsselung des menschlichen Erbguts, auch Genom genannt, stellt Wissenschaftler schon seit jeher vor große Herausforderungen, vor allem aus technischer Sicht. Denn Dinge wie die DNA-Sequenzanalyse und die vollständige Entschlüsselung des menschlichen Genoms erfordern eine ungeheure Rechenleistung, die für die Berechnungen damit einher gehen. Zudem entstehen dabei enorme Datenmengen, die verwaltet und bereit gesellt werden müssen

Mit der Entschlüsselung des menschlichen Genoms beschäftigt sich das Wellcome Trust Sanger Institute (WTSI), und zwar seit 1993 in der Nähe von Cambridge, UK.  Dem WTSI geht es vor allem um die Veränderungen des menschlichen Erbguts hinsichtlich häufiger Krankheiten wie Krebs, Malaria und Diabetes. So basieren die Arbeiten des Instituts auf den Erkenntnissen des Humangenomprojekts, das zwischen 1990 und 2003 für die vollständige Entschlüsselung des menschlichen Genoms sorgte.

Zu diesen fundamentalen Erkenntnissen trug das WTSI ganz maßgeblich bei. So leistete das Institut rund ein Drittel der für die Analysen erforderliche Arbeit. Für die computergestützte Berechnung des menschlichen Genoms setzt das WTSI bereits seit Mitte der 90er Jahre auf die Leistungsfähigkeit von High-Performance Computing Systemen. Das bedeutet in Zahlen: Im WTSI steht derzeit ein Rechenzentrum, das sich aus zwölf HPC-Clustern zusammensetzt. Jedes Cluster wiederum stellt eine Kombination aus heterogenen Rechnerumgebungen dar, in denen sowohl IBM- und HP-Server als auch SGI Altix-Maschinen zum Einsatz kommen.

Solch eine hetergone, über die Jahre „wild“ gewachsene IT-Landschaft stellt wohl jeden IT-Verantwortlichen vor ernstzunehmende Herausforderungen. Wenn dann noch wie im Falle des WTSI jede Woche Datenmengen anfallen, die sich im Bereich von 120 Terabyte und mehr bewegen, wird schnell klar: Hier bedarf es einer erprobten Software-Lösung, die ein solch komplexes System sinnvoll verwalten kann und die enormen Datenmengen genau bereitstellt, wo sie benötigt werden. Und an dieser Stelle kommt IBM Platform LSF ins Spiel: Mit dieser Workload Management-Lösung lassen sich große und sehr große HPC-Umgebungen optimal administrieren.

IBM Platform LSF kommt hierfür auf bestimmten Teilen des WTSI-Clusters zum Einsatz. So steuert es einen Rechnerverbund, der aus 128 Prozessoreinheiten besteht und der sich um hochkomplexe Analyseberechnungen kümmert. Hier entstehen enorme Datenmengen, die beispielsweise während der DNA-Sequenzanalyse anfallen. IBM Platform LSF stellt in diesem Fall die riesigen Datenmengen bereit und speichert diese. Darüber hinaus verteilt LSF die anfallenden Berechnungen dank intelligenter Algorithmen so auf den gesamten Cluster, dass es optimal ausgelastet wird. Folge: Es lassen sich in weniger Zeit mehr Berechnungen durchführen.

Darüber hinaus ist IBM Platform LSF auf einem 100-CPU-Cluster installiert, der ausschließlich für den Abgleich mit Daten externer Forschungseinrichtungen bereit steht. So tauscht darüber das WTSI mit dem Ensemble Genome Browser Daten aus, die für die Erforschung des Erbgutes von Schimpansen, Mäusen und anderen Tieren erforderlich sind. Auch hier werden Woche für Woche Daten im Terabyte-Bereich transferiert.

Zusammenfassend kann man also sagen, dass das Wellcome Trust Sanger Institut dank IBM Platform LSF in der Lage ist, Storage-Kapazitäten im Petabyte-Bereich zu verwalten und die gigantische Zahl an Rechenoperationen genau dort bereit zu stellen, wo sie gerade benötigt werden. Und diese Anforderungen werden nicht geringer: So ruft die Analyse der menschlichen DNA und der daraus resultierenden Wechselwirkungen mit möglichen Krankheiten künftig Systeme auf den Plan, die 35 bis 40 Petabyte an Daten generieren, die allesamt verarbeitet, gespeichert und zur Verfügung gestellt werden müssen. Von den Cluster-Systemen, die solche Datenmengen rechnerisch überhaupt verarbeiten können, ganz zu schweigen.

Weitere Informationen zum Einsatz von IBM Platform LSF  im Wellcome Trust Sanger Institute gibt es im verlinkten PDF-Dokument und im folgenden Film.

 

Bitte folgen

Michael Hülskötter

Ich schreibe im Auftrag der IBM Deutschland GmbH auf dem Hightech Computing Blog.
Bitte folgen

One thought on “DNA-Analysen erfordern HPC-Cluster und ein ausgefeiltes Workload-Management

  1. Pingback: IBM@CeBIT15: Bluebee und OpenPOWER bringen DNA-Analysen voran

Schreibe einen Kommentar