Nvidia hat auf der GPU Technology Conference 2016 in Silicon Valley mit dem Tesla P100 das jüngste Modell seiner GPU-Beschleuniger-Reihe für High Performance Computing vorgestellt. Der zugrunde liegende Grafikprozessor GP100 basiert auf der neuen Architektur Pascal, die das Unternehmen vor zwei Jahren angekündigt hatte. Er soll im Form des Tesla P100 ab dem ersten Quartal 2017 in Servern von Cray, Dell, HPE sowie IBM zum Einsatz kommen und mittelfristig die bisher eingesetzten Kepler- und Maxwell-Chips ablösen. Mit dem DGX-1 hat Nvidia auch gleich einen eigenen Großrechner mit acht Tesla P100 für Deep-Learning-Berechnungen angekündigt.
Der bisher leistungsstärkste Grafikchip von Nvidia wird im 16-Nanometer-FinFET-Verfahren gefertigt. Dadurch bietet er eine deutlich höhere Energieeffizienz als die bisherigen GPUs mit einer Strukturbreite von 28 Nanometern. Mit 15,3 Milliarden Transistoren ist die Pascal-GPU laut Hersteller der bisher größte FinFet-Chip weltweit.
Als Speicher kommt beim Tesla P100 die zweite Generation von High Bandwidth Memory (HBM 2) zum Einsatz, die gegenüber dem Vorgänger HBM 1 und herkömmlichem GDDR-RAM wesentlich höhere Transfergeschwindigkeiten und mehr Speicher pro GPU ermöglicht. In Kombination mit dem neuartigen Ansatz „Chip on Wafer on Substrate“ (CoWoS) soll er für eine dreimal höhere Speicherbandbreite im Vergleich zur Maxwell-Architektur sorgen. Konkret spricht Nvidia von 720 GByte/s.
Beim Messverfahren mit einfacher Genauigkeit (FP32) erreicht der Tesla P100 nach Herstellerangaben eine theoretische Rechenleistung von 10,6 Billionen Operationen pro Sekunde (Teraflops). Bei doppelter Genauigkeit (FP64) schafft er mit 5,3 Teraflops noch die Hälfte. Ein neuer halbgenauer Code (FP16) soll zudem 21,2 Teraflops an Höchstleistung für Deep Learning bringen.
Ohne Cloud-Technologie sähe der Alltag heute ganz anders aus. Dropbox, Facebook, Google und Musikdienste gäbe es nicht. Erst Cloud-Technologien haben diese Services ermöglicht und treiben heute Innovationen schneller denn je voran.
Die 16 GByte ECC-geschützter HBM 2 des Tesla P100 sind über insgesamt 4096 Datenleitungen angebunden. Für kurze Signalwege und somit schnelle Transferraten sind die vier 4 GByte großen Speicherstapel sehr nahe an der GPU platziert. Der integrierte GP100-Grafikchip verfügt über 3584 Shader-Rechenkerne und 224 Textureinheiten – verteilt auf 56 Streaming-Multiprozessoren. Standardmäßig läuft die GPU mit 1328 MHz und im Turbomodus mit bis zu 1480 MHz.
Eine Neuerung der Pascal-Architektur ist auch das in Zusammenarbeit mit IBM entwickelte NVLink. Es ermöglicht den Datenaustausch zwischen CPU und GPU sowie zwischen mehreren Grafikprozessoren mit bis zu 80 GByte/s in jede Richtung. Das bisher verwendete PCI Express schafft lediglich 16 GByte/s.
CUDA 8 erhalten Enwtickler direkten Zugang zu den Funktionen von Pascal, inklusive NVLink und eine Bibliothek namens nvGRAPH. Außerdem kündigte Nvidia die Einführung von cuDNN 5 an, einer GPU-beschleunigten Bibliothek zur Entwicklung tiefer neuronaler Netzwerke. Sie beinhaltet Vorlagen und optimierte Versionen der üblichen Deep Learning Frameworks wie Caffe, Theano und Torch sowie Zugang zu Cloud-Management-Tools.
Eine Page Migration Engine sowie Unified Memory sollen für verbesserte Programmierbarkeit sorgen. Mit der für August angekündigten Parallel Computing PlatformDas auf acht Tesla P100 aufbauende, schlüsselfertige System DGX-1 umfasst laut Nvidia Hardware, Deep-Learning-Software und Entwicklungstools. Es soll 170 Teraflops bei halber Genauigkeit leisten und einen mit 250 CPU-basierten Servern vergleichbaren Datendurchsatz bieten. Zur Ausstattung zählen 7 TByte SSD DL Cache, zwei 10-Gigabit-Ethernet-Ports und vierfaches 100-GBit/s-InfiniBand. Das DGX-1 nimmt drei Höheneinheiten im Rack ein. Seinen Energiebedarf gibt Nvidia mit 3200 Watt an. Das System wird in den USA ab Juni für 129.000 Dollar erhältlich sein. Andere Regionen folgen im dritten Quartal.
Aktuelle Tesla-Beschleunigerkarten im Vergleich | |||
Modell | Tesla K40 | Tesla M40 | Tesla P100 |
---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) |
SMs | 15 | 24 | 56 |
TPCs | 15 | 24 | 28 |
FP32 CUDA Cores / SM | 192 | 128 | 64 |
FP32 CUDA Cores / GPU | 2880 | 3072 | 3584 |
FP64 CUDA Cores / SM | 64 | 4 | 32 |
FP64 CUDA Cores / GPU | 960 | 96 | 1792 |
Basistakt | 745 MHz | 948 MHz | 1328 MHz |
Turbotakt | 810/875 MHz | 1114 MHz | 1480 MHz |
FP64 GFLOPs | 1680 | 213 | 5304 |
Textureinheiten | 240 | 192 | 224 |
Speicherschnittstelle | 384-Bit GDDR5 | 384-Bit GDDR5 | 4096-Bit HBM 2 |
Speichergröße max. | 12 GByte | 24 GByte | 16 GByte |
L2-Cache | 1536 KByte | 3072 KByte | 4096 KByte |
Registergröße / SM | 256 KByte | 256 KByte | 256 KByte |
Registergröße / GPU | 3840 KByte | 6144 KByte | 14336 KByte |
TDP | 235 Watt | 250 Watt | 300 Watt |
Transistoren | 7,1 Milliarden | 8 Milliarden | 15.3 Milliarden |
GPU-Die-Größe | 551 mm² | 601 mm² | 610 mm² |
Fertigungsverfahren | 28 nm | 28 nm | 16 nm |
Bankhaus Metzler und Telekom-Tochter MMS testen, inwieweit Bitcoin-Miner das deutsche Stromnetz stabilisieren könnten.
Mit 1,7 Exaflops ist El Capitan nun der dritte Exascale-Supercomputer weltweit. Deutschland stellt erneut den…
Der deutsche Hyperscaler erweitert sein Server-Portfolio um vier Angebote mit den neuen AMD EPYC 4004…
Beim Online-Gaming kommt es nicht nur auf das eigene Können an. Auch die technischen Voraussetzungen…
Fast jedes zweite Unternehmen bietet keinerlei Schulungen an. In den übrigen Betrieben profitieren oft nur…
Huawei stellt auf der Connect Europe 2024 in Paris mit Xinghe Intelligent Network eine erweiterte…