Video: What Is A Supercomputer? (November 2024)
In den letzten Jahren haben wir einige interessante neue Ansätze für das Hochleistungsrechnen gesehen, insbesondere eine Verlagerung von herkömmlichen Großprozessoren hin zu Clustern von x86-CPUs mit Beschleunigern oder Coprozessoren, um bestimmte Arten von Berechnungen zu beschleunigen. Als Intel bei der Supercomputing-Show der vergangenen Woche die Integration seines Xeon Phi-Coprozessors in seinen traditionellen Xeon-Serverprozessor forcierte, um die Programmierung zu vereinfachen. Nvidia stellt eine neue Version seines Tesla-GPU-Beschleunigers vor; und Micron unterstützt eine ganz andere Art von Prozessor für noch spezialisierteres Computing. All dies geschah zu einer Zeit, in der Beschleuniger und Coprozessoren die Top 500-Liste der schnellsten Computer der Welt dominierten. Einige Experten schlugen vor, dass die vorhandenen Benchmarks diesen Prozessoren zu viel Gewicht beimessen.
Nvidia warb für seine Erfolge mit seinen Tesla-Beschleunigerplatinen, großen GPU-Clustern, die mit Hauptprozessoren von Intel oder AMD verbunden waren. Solche Chips werden in einer Vielzahl von Systemen verwendet, darunter das Titan-System im Oak Ridge National Laboratory und das neue Piz Daint-System im Swiss National Supercomputing Computing Center. Interessanter ist, dass Tesla-Boards in allen Top-10-Systemen der neuesten Green 500-Liste der energieeffizientesten Supercomputer der Welt aufgeführt sind. Alle diese Systeme verwenden auch Intel Xeons mit Ausnahme des AMD Opteron-basierten Titans, der das zweitschnellste System der Welt in den Top 500 ist, aber auf der Green 500-Liste weitaus weniger rangiert.
Darüber hinaus gab Nvidia eine Partnerschaft mit IBM bekannt, um seine Tesla-Beschleuniger in Systemen anzubieten, die auf der IBM Power-Architektur basieren. IBM hat seine Serienleistung lange angepriesen, und sein auf Power-Prozessoren basierendes BlueGene / Q-System führt unter anderem das Sequoia-System im Lawrence Livermore National Laboratory und das Mira-System im Argonne National Laboratory aus. Die Zusammenarbeit von IBM und Nvidia dürfte in Zukunft zu interessanten Systemen führen.
Auf der Messe kündigte das Unternehmen seinen Tesla K40 an, die nächste Generation seines GPU-Beschleuniger-Boards. Das Unternehmen gab bekannt, dass es 1, 4 Teraflops mit doppelter Genauigkeit, 12 GB Arbeitsspeicher (288 GBit / s Bandbreite) und eine GPU-Boost-Funktion bieten wird, mit der es in einigen Situationen schneller takten kann. Hierbei handelt es sich um ein Upgrade der vorhandenen Tesla K20-Serie, bei dem dasselbe grundlegende GPU-Design verwendet wird, das auf der 28-nm-Technologie basiert.
Weitere Initiativen umfassen Möglichkeiten zur Vereinfachung der GPU-Programmierung, einschließlich CUDA 6, das jetzt einheitlichen Speicher unterstützt, sodass Entwickler den Speicher als einen einzigen Pool betrachten können, obwohl CPU- und GPU-Speicher getrennt bleiben. Das Unternehmen unterstützt auch OpenACC, eine standardmäßige Sammlung von Compiler-Direktiven, die dem System mitteilen, welche Programmteile (in C / C ++ und Fortran geschrieben) von der CPU auf einen Beschleuniger verlagert werden können, um die Leistung zu steigern.
Ganz anders verhält es sich bei Intels Ansatz, der als Many Integrated Core (MIC) -Architektur bezeichnet wird. Es kombiniert mehrere kleine x86-Kerne zu einem einzigen Chip, dem Xeon Phi. In den letzten Jahren hat Intel die Tatsache angepriesen, dass alles x86-fähig ist, um die Programmierung zu vereinfachen, obwohl klar ist, dass Entwickler die Architektur immer noch direkt anvisieren müssen. Die aktuelle Version des Xeon Phi mit dem Namen Knights Corner wurde entwickelt, um zusammen mit herkömmlichen Xeon E-Serverchips als Beschleuniger verwendet zu werden. Sie wird von einer Vielzahl der Top-Systeme verwendet, darunter dem chinesischen Tianhe-2 (dem derzeit schnellsten System) in der Welt) und das Stampede-System im Advanced Computing Center der University of Texas.
Auf der Messe kündigte Intel eine neue Version mit dem Codenamen Knights Landing an, die auch als eigenständige CPU betrieben werden kann, die in eine Standard-Rack-Architektur passt und das Betriebssystem direkt ausführt, ohne dass eine Host-CPU (wie der Xeon E) erforderlich ist. Dies könnte sehr wichtig sein, um die Attraktivität des Xeon Phi zu erhöhen, insbesondere auf dem Workstation-Markt. Auch dies soll Softwareentwicklern die Anzeige als einzelne CPU erleichtern. Knights Landing wird sowohl als eigenständige CPU als auch als PCI Express-Karte erhältlich sein, die als Upgrade von Knights Corner in vorhandene Systeme passt.
Es gibt noch weitere wichtige Änderungen bei Knights Landing, einschließlich des Hinzufügens von "Near Memory", einem DRAM, der auf dem Paket mit der CPU angeboten wird und daher eine viel höhere Bandbreite liefern kann als der herkömmliche DDR-Speicher, der durch die Geschwindigkeit von begrenzt ist der Bus. (Das wird auch schneller, aber bei weitem nicht so viel.) Dies ist nicht der erste Schritt in diese Richtung; IBM wirbt seit Jahren für Embedded DRAM in seiner Power-Architektur, und Intel setzt Embedded DRAM für Grafiken in den Iris Pro-Versionen seiner Haswell Core-Familie ein. Ich gehe jedoch davon aus, dass wir in den kommenden Jahren noch viel mehr Anstrengungen in diese Richtung unternehmen werden.
Einer der interessantesten neuen Ansätze stammt von Micron, der einen neuen Beschleuniger namens Automata Processor vorstellte, der hauptsächlich zur Lösung komplexer unstrukturierter Datenprobleme entwickelt wurde.
Micron beschrieb dies als Angebot eines Gewebes, das aus Zehntausenden bis Millionen von Verarbeitungselementen besteht, die zur Lösung spezifischer Aufgaben verbunden sind. Das Unternehmen, einer der größten Hersteller von DRAM- und NAND-Speichern, geht davon aus, dass mit dieser speicherbasierten Verarbeitung komplexe Computerprobleme in Bereichen wie Netzwerksicherheit, Bioinformatik, Bildverarbeitung und Analytik gelöst werden können. Micron wird den Automata Processor zunächst auf einer PCI-Express-Karte vertreiben, damit Entwickler damit arbeiten können. Das Unternehmen plant jedoch, die Prozessoren auf Standardspeichermodulen, sogenannten DIMMs, oder als einzelne Chips für eingebettete Systeme zu verkaufen. In gewisser Weise klingt dies ähnlich wie feldprogrammierbare Gate-Arrays (FPGAs), die so abgestimmt sind, dass sie bestimmte Anwendungen mit Pattern-Matching lösen.
Das Unternehmen arbeitet nach eigenen Angaben mit Georgia Tech, der University of Missouri und der University of Virginia zusammen, um neue Anwendungen für Automaten zu entwickeln. Obwohl das Unternehmen keinen Termin für die endgültigen Produkte bekannt gegeben hat, soll im nächsten Jahr ein Software Development Kit mit Simulationswerkzeugen herauskommen.
Automaten klingen wie in Arbeit und es ist wahrscheinlich zu früh, um zu wissen, wie umfassend die Anwendungen sind, aber es ist ein interessanter Ansatz.
Insgesamt sehen wir die Entwicklung des Hochleistungs-Computing. Vor nicht allzu vielen Jahren waren die schnellsten Computer meist nur eine große Anzahl von Standard-Serverprozessoren. Tatsächlich machen die IBM Blue Gene-Systeme und die auf Sparc basierenden Systeme (wie der K-Computer am RIKEN Advanced Institute for Computational Science in Japan, der Fujitsu Sparc-Prozessoren verwendet) immer noch einen großen Teil des Marktes aus, darunter fünf der zehn schnellsten Systeme in der Welt. In den letzten Jahren hat sich die Dynamik jedoch in Richtung Coprozessor verlagert, wobei Systeme, die Tesla und in jüngerer Zeit Xeon Phi-Beschleuniger verwenden, mehr zu den neueren Systemen gehören. Mit Verbesserungen in diesen Systemen, neuen Partnerschaften, besserer Software und einigen neuen Ansätzen kann der Supercomputing-Markt in Zukunft sehr unterschiedlich sein.