Categories: CloudData & StorageServerStorageUnternehmen

Superrechner: Auf dem Weg zum Exascale-Computing

Immer schneller, immer größer: So heißt die Devise im Supercomputing. Die diesjährige Top-500-Supercomputer-Hitliste bestätigte diese Zielrichtung wieder einmal: Führend ist im Frühsommer 2011 – die Liste wird zweimal jährlich aufgestellt – Fujitsu mit dem K-Computer, der eigens für das japanische Hightech-Forschungsinstitut Riken entwickelt und gebaut wurde.

Der Computer, dessen einzelne Schränke einen ganzen Saal füllen, besteht aus mehr als einer halben Million Rechenkernen. Basis sind rund 80.000 Mehrkern-Sparc-Prozessoren. Verbunden sind diese durch einen je nach Betrachtungsweise drei- oder sechsdimensionalen Torus, eine Vermaschungstechnik, die direkte Verbindungen zu anderen Knoten herstellt.

Ob allerdings Fujitsu seine Spitzenposition lange halten kann, ist zweifelhaft. Denn schon scharrt die Konkurrenz ungeduldig mit den Füßen. Eine wichtige Rolle spielen auf dem Weg zu weiter erhöhten Leistungen sogenannte GPGPUs (General Purpose Graphical Processing Units). Technologisch anfangs für die schnelle Verarbeitung komplexer Grafiken vorgesehen, werden diese hochintegrierten Multicore-Lösungen heute verwendet, um schnell alle möglichen Rechenaufgaben außerhalb des eigentlichen Prozessors abzuarbeiten und das Geschehen dadurch zu beschleunigen.

Auf der Messe stellte beispielsweise Intel seine Many Integrated Core (MIC)-Architektur vor, die man auch gleich bei mehreren Partnern als geplantes Design-In sehen konnte, beispielsweise bei Supermicro oder SGI. Der blaue Backstein basiert auf Pentium-Kernen, denen Vektorisierungseinheiten hinzugefügt werden.

Bildergalerie

Intels Supercomputing-Architektur MIC

zur Bildergalerie

Dabei verwendet Intel zum ersten Mal die im Frühjahr vorgestellten 3D-Transistoren aus Massenproduktion. Mehr als 50 Cores finden auf dem Modul Platz, das in einem 22-Mikrometer-Prozess gefertigt ist. Die Karte kann pro Core bis zu vier Threads verarbeiten, von denen jeder jeweils wiederum bis zu 16 selbständige Vektoren mit einer Wortlänge von bis zu 512 Bit schafft. Dazu gibt es die Entwicklungsplattform Knights Ferry, die derzeit 32 Cores und 128 Threads unterstützt.

Links ist ein Transistor in bisher üblicher Bauweise dargestellt. Im ebenen Kanal fließt Strom (gelbe Punkte). Das Metall-Gate ist durch eine flache Sperrschicht (gelb) vom Kanal getrennt und steuert den Transistor. Rechts ist ein Tri-Gate-Transistor abgebildet. Hier ist der Kanal dreidimensional ausgebildet. Strom kann an allen drei Seiten des Kanals fließen, Sperrschicht und Gate umschließen den Kanal an drei Seiten (Bild: Intel).

SGI beispielsweise will mit Hilfe von Xeon-Prozessoren als Basis, ergänzt um MIC-Akzeleratoren und einem elfdimensionalen Hypercube als Verbindungstechnik Systeme entwickeln, die bis zu 100 Petaflops erreichen. Die fünfte Generation von SGIs Supercomputer-Architektur Altix Ice soll die zehnfache Packungsdichte der bisherigen besitzen. Auf den einzelnen Modulen können Anwender die Hälfte der vorgesehenen Xeon-Prozessoren der neuesten Generation durch MIC-Module von Intel ersetzen und somit die Rechenleistung flexibel anpassen. Das meteorologische Institut Frankreichs hat bereits ein Exemplar der Supermaschine bestellt.

Cray, derzeit unter den Top Ten des Supercomputing mit drei Rechnern vertreten, setzt bei seinem neuen Modell XK6 auf AMDs auf der Messe ebenfalls vorgeführten neuen Prozessor Interlagos und einen Tesla-Beschleuniger von Nvidia. Der Interlagos, der frühestens im vierten Quartal in Serienproduktion geht, basiert auf Bulldozer-Cores. Auf jedem Prozessor sind acht Doppelknoten mit je zwei Superscaler-Pipelines pro Core angeordnet. Cray will Systeme bauen, die in einem Kabinett bis zu 24 Blades mit insgesamt 96 Knoten und 70 Teraflops Leistung vereinigen.

Jeder Kern hat direkte Verbindungen mit 12 GByte Bandbreite pro Link zu drei anderen Knoten. Über ein globales Dateisystem lassen sich Daten im Speicher direkt ansprechen. Das Schweizer Nationale Supercomputer-Zentrum wird im dritten Quartal ein XK6-System installieren.

IBM bringt demnächst eine neue Generation seines dann auf Power-A2-Prozessoren basierenden Blue Gene. 17 Power-Cores befinden sich auf einer Knotenkarte, von denen nur einer das Betriebssystem hält. Der Rest der Knoten wird sich ausschließlich mit der Abarbeitung von Anwendungen beschäftigen. IBM nutzt eine Vernetzungstechnik mit zehn bidirektionalen Verbindungen pro Knoten.

Schon im nächsten Jahr sind Systeme mit 1,6 Millionen Cores geplant. Zwei konkrete Projekte mit 20 und zehn Petaflops laufen, eines davon beim US-Militär, eines bei einer amerikanischen Forschungsinstitution. Der Energieverbrauch pro Core soll weniger als halb so groß wie bei dem in der aktuellen Top-500-Liste führenden Fujitsu-System sein.

Für schnellere Verbindungen sorgt Mellanox mit seinen auf 14-fache Grundgeschwindigkeit (FDR) ausgelegten, 56 GBit/s schnellen Infiniband-Systemen. Adapter, Switches und Kabel sind bereits an OEMs ausgeliefert worden. Die Mengenauslieferung erfolgt ab Herbst.