Zuhause Vorausdenken Supercomputing 15: Größere Veränderungen am Horizont

Supercomputing 15: Größere Veränderungen am Horizont

Video: 2020 Seminar Series: Intro to Supercomputing (November 2024)

Video: 2020 Seminar Series: Intro to Supercomputing (November 2024)
Anonim

Wenn ich mir die Ankündigungen und den Ablauf der Supercomputing 15 (SC15) -Konferenz in Austin im letzten Monat ansehe, scheint es, dass Hochleistungsrechnen zwar in einer gewissen Flaute ist, aber ein Markt, der im kommenden Jahr einige große Veränderungen zu verzeichnen hat Kommen Sie.

Wenn Sie sich die Spitzenreiter auf der Top-500-Liste ansehen, die zweimal jährlich die schnellsten Computer der Welt auflistet, ist der Tianhe-2, ein Supercomputer, der von der chinesischen National University of Defense Technology gebaut wurde, zum sechsten Mal in Folge führend. Laut der Top500-Liste liefert dieses Gerät 33, 86 Petaflop / s (Billionen von Berechnungen pro Sekunde) anhaltende Leistung im Linpack-Benchmark und 54, 9 Petaflop / s theoretische Spitzenleistung. Dies basiert auf Intel Xeon und Xeon Phi Prozessoren.

Der zweite Platz geht weiterhin an Titan, ein Cray XK7-System, das auf AMD Opteron-CPUs und Nvidia K20x-GPUs basiert und im Oak Ridge National Laboratory des DOE mit 17, 59 Petaflop / s dauerhafter Leistung auf dem Linpack-Benchmark installiert wurde.

Zwei neue Maschinen haben die Top 10 geknackt. Der Trinity-Computer im Lawrence Livermore National Laboratory (LLNL) belegt mit 8, 1 Petaflop / s den sechsten Platz, während das Hazel-Hen-System im deutschen Höchstleistungsrechenzentrum Stuttgart (HLRS) mit 5, 6 Petaflop / s den achten Platz belegte. Beide sind Cray XC-Maschinen, die auf Intel Xeon-Prozessoren mit Aries-Interconnect basieren.

Größere Änderungen treten weiter unten auf der Liste auf, insbesondere mit einer großen Zunahme der Anzahl chinesischer Systeme, die auf 109 angestiegen ist, verglichen mit nur 37 in der vorherigen Liste. Dies scheint zum Teil auf mehr chinesischen Systemen zu beruhen, die die Benchmarks ausführen und Ergebnisse für die Liste übermitteln. Infolgedessen sank die Anzahl der US-amerikanischen Systeme von 231 auf 200. Dies ist die niedrigste Anzahl seit Beginn der Liste im Jahr 1993; und die Zahl der europäischen Systeme ging von 141 auf 108 zurück.

Ein großer Trend ist ein Anstieg der Anzahl der Systeme, die Beschleuniger oder Coprozessoren verwenden, von 90 im Juli auf 104 auf der aktuellen Liste. Die meisten dieser Systeme verwenden Nvidia Tesla-GPUs, gefolgt von Intels Xeon Phi-Coprozessoren, einige verwenden eine Kombination. Nvidia wies darauf hin, dass es sich um 70 dieser Systeme handelte, darunter 23 der 24 neuen Systeme auf der Liste.

Auf der Messe hob Nvidia das Wachstum von Beschleunigern und insbesondere die Anzahl der verfügbaren Anwendungen hervor, die für die CUDA-Architektur des Unternehmens optimiert sind. Das Unternehmen gibt an, dass 90 Prozent der Top-10-Hochleistungs-Computing-Anwendungen und 70 Prozent der Top-50-Anwendungen jetzt beschleunigt werden. Eine interessante Anwendung sind Systeme, auf denen Wettersimulationen ausgeführt werden, eine wichtige Anwendung für das Hochleistungsrechnen, da Wettervorhersagen von allen möglichen Regierungen erstellt werden. Cray hatte zuvor im Schweizerischen Wetteramt (MeteoSchweiz) auf die Verwendung solcher Beschleuniger hingewiesen und darüber gesprochen, wie es mit Forschern in der Schweiz zusammenarbeitet, um viele seiner Anwendungen umzuschreiben. Nvidia weist jetzt auch auf die Verwendung von Beschleunigern durch die National Oceanic and Atmospheric Administration (NOAA) für einige Wettervorhersagen hin.

Unter anderem kündigte Cray Öl- und Gasanwendungen an, beispielsweise die Verwendung von 3D-Geophysik zur Simulation eines Reservoirs, sowie Finanzdienstleistungen, beispielsweise die Risikobewertung. Solche Anwendungen stellen selten die schnellsten Systeme der Welt dar, sind jedoch ein Indiz dafür, dass Hochleistungsrechnen in immer mehr Unternehmensanwendungen eine breitere Rolle einnimmt. Cray sprach von einem stetigen Fortschritt bei der Ausführung größerer und detaillierterer Modelle in allen wissenschaftlichen und technischen Disziplinen und der Kombination traditioneller Workloads mit Analysen.

Ich war auch an einer Ankündigung der Linux Foundation interessiert, eine neue Initiative namens OpenHPC zu starten, um offenere Standards in der HPC-Welt zu schaffen. Es ist eine interessante Idee, bei der anscheinend viele Big Player mitmachen.

Es sind eine Reihe neuer Systeme in Arbeit. IBM baut eine neue Maschine namens Summit in den Oak Ridge National Laboratories (ORNL) und eine andere namens Sierra im Lawrence Livermore National Laboratory (LLNL), die beide auf IBM Power-Architektur-CPUs, Nvidia Tesla-GPUs und Mellanox-Interconnects basieren. Summit wird voraussichtlich 150 bis 300 Peak Petaflop / s und Sierra über 100 Petaflop / s liefern.

Darüber hinaus bauen Intel und Cray eine neue Maschine namens Aurora, die auf den kommenden Knights Hill Intel Xeon Phi-Prozessoren für die Argonne Leadership Computing Facility (Teil der Argonne National Labs) basiert und für 2018 150 Petaflops vorsieht sind Teil eines Programms des Energieministeriums, das unter dem Namen Collaboration of Oak Ridge, Argonne und Lawrence Livermore National Labs (CORAL) bekannt ist und darauf abzielt, die Entwicklung von Hochleistungsrechnern und insbesondere des Projekts FastForward 2 zu beschleunigen.

Trotzdem haben wir noch einen langen Weg vor uns, in Richtung "Exascale Computing".

In der Zwischenzeit gab es mehrere Prozessorankündigungen, die für die Zukunft vielversprechend sein könnten. Insbesondere Nvidia forcierte den Einsatz von Supercomputern für Hyperscale-Webanwendungen, insbesondere für maschinelles Lernen. Es kündigte ein paar etwas niedrigere Produkte an: das Tesla M40-Board mit 3072 CUDA-Kernen, von dem es behauptet, dass es bis zu 7 Teraflops mit einfacher Genauigkeit ausführen kann, die in erster Linie auf "Deep Learning" -Training abzielen, und das M4. Ein Low-Power-Board mit 1024 Kernen und 2, 2 Single-Precision-Teraflop / s, das für tiefe Lerninferenzen sowie für die Bild- und Videoverarbeitung verwendet werden kann. Darüber hinaus kündigte das Unternehmen eine neue "Hyperscale-Suite" mit Anwendungen an, die auf die größten Computerstandorte ausgerichtet sind. Beide neuen Hardwareprodukte basieren auf der 28-nm-Prozesstechnologie und der Maxwell-Architektur des Unternehmens.

Das Unternehmen hat zwei Folge-Architekturen angekündigt, die als Pascal bekannt sind und im nächsten Jahr folgen sollen, sowie Volta. Intel konzentrierte sich darauf, wie HPC die Wissenschaft beeinflusst, und ich war fasziniert von der Beschreibung, wie es seinen eigenen Supercomputer verwendet, der derzeit auf Platz 99 der Top-500-Liste steht, um die Entwicklung seiner eigenen Prozessoren zu unterstützen. Insbesondere das Unternehmen gab an, eine Million CPU-Stunden zu verbrauchen, um die Fotomasken für die Prozessoren der nächsten Generation zu entwerfen.

Ein Großteil der Aktivitäten von Intel konzentrierte sich auf Knights Landing, die nächste Version seines Xeon Phi-Chips, der sowohl als Beschleuniger als auch zum Booten verwendet werden kann. und seine Omni-Path-Struktur. Obwohl Intel jetzt sagt, dass die allgemeine Verfügbarkeit im ersten Halbjahr 2016 sein wird, haben einige Kunden einen frühen Zugang zu Knights Landing. Gegenwärtig testet Cray ein großes Knights Landing-System, um die Auslieferung eines neuen Supercomputers namens Cori für das NERSC (National Energy Research Scientific Computing Center) sowie für das Los Alamos National Laboratory und die Sandia National Laboratories im nächsten Jahr vorzubereiten. Bull, eine Einheit des französischen Systemintegrators Atos, hat auch frühe Versionen von Knights Landing erhalten, um sich auf das Tera 1000-System vorzubereiten, das für die französische Kommission für alternative Energien und Atomenergie gebaut wird. Die Argonne Leadership Computing Facility arbeitet an einem System namens Theta, das im nächsten Jahr ausgeliefert werden soll, und Sandia National Laboratories arbeitet mit Penguin Computing an der Aktualisierung mehrerer Systeme, die frühere Generationen von Xeon Phi-Co-Prozessoren verwenden.

Intel hat zuvor angekündigt, dass es drei verschiedene Versionen von Knights Landing geben wird: einen Basis-Host-Prozessor (der sich selbst booten kann), einen Host-Prozessor mit einer integrierten Omni-Path-Struktur und eine PCIe-Beschleunigerkarte. Der Chip selbst besteht aus 36 Kacheln mit jeweils zwei CPU-Kernen (insgesamt 72 Kerne), vier Vektorverarbeitungseinheiten (zwei pro Kern), 1 MB gemeinsam genutztem L2-Cache und einem Caching-Agenten zur Wahrung der Kohärenz. und Intel hat angekündigt, dass es mit 3 Teraflop / s doppelter Präzision und 6 Teraflop / s einfacher Präzision die dreifache skalare Leistung der Knights Corner-CPU liefern soll. Es wird auch ein neues Speichersystem namens MCDRAM verwendet, ein On-Package-Speicher mit über dem Dreifachen der verfügbaren Bandbreite im Vergleich zu DDR4, das eine Variante der Hybrid Memory Cube-Architektur zu sein scheint, über die Intel und Micron gesprochen haben. Auf der Messe hatte Cray einen Prototyp mit einem bootfähigen Knights Landing und eine Reihe anderer Anbieter zeigten Systeme, die für Knights Landing entwickelt wurden. Diese Version von Xeon Phi soll von einer Version namens Knights Hill gefolgt werden, die auf dem bevorstehenden 10-nm-Prozess aufbauen soll.

Darüber hinaus sprach Fujitsu ein wenig mehr über sein Flaggschiff-2020-Projekt, das auf einem neuen Chip namens FX100 mit 32 Kernen basiert. Es wird erwartet, dass sich die Gleitkomma-Performance im Vergleich zum aktuellen FX10 ungefähr vervierfacht. Wie bei Knights Landing wird auch beim FX100 von Fujitsu eine Version der Hybrid Memory Cube-Architektur verwendet. Darüber hinaus hat NEC ein Projekt mit dem Codenamen Aurora (unabhängig vom CORAL-Projekt), das auf der Weiterentwicklung des SX-ACE-Chips basiert, jedoch eine größere Speicherbandbreite aufweist. Dies ist für 2017 geplant.

Supercomputing 15: Größere Veränderungen am Horizont