Inhaltsverzeichnis:
Video: Technologie der Zukunft: Maschinelles Lernen (November 2024)
Bei der diesmonatigen SC16 Supercomputing-Konferenz stachen zwei Trends heraus. Der erste ist der Auftritt von Intels neuestem Xeon Phi (Knights Landing) und Nvidias neuestem Tesla (dem Pascal-basierten P100) auf der Top500-Liste der schnellsten Computer der Welt. Beide Systeme landeten in den Top 20. Der zweite Schwerpunkt liegt darauf, wie Chip- und Systemhersteller Konzepte moderner maschineller Lernsysteme auf Supercomputer übertragen.
Bei der aktuellen Überarbeitung der Top500-Liste, die zweimal jährlich aktualisiert wird, befindet sich der obere Tabellenrand weiterhin in den Händen des Sunway TaihuLight-Computers vom chinesischen National Supercomputing Center in Wuxi und des Tianhe-2-Computers vom chinesischen National Super Computer Center in Guangzhou, wie seit der ISC16 im Juni. Keine anderen Computer weisen eine annähernd gleich hohe Gesamtleistung auf. Die Systeme auf den Plätzen drei und vier - nach wie vor der Titan-Supercomputer bei Oak Ridge und das Sequoia-System bei Lawrence Livermore - liefern etwa die Hälfte der Leistung von Tianhe-2.
Der erste basiert auf einem einzigartigen chinesischen Prozessor, dem 1, 45-GHz-SW26010, der einen 64-Bit-RISC-Kern verwendet. Dies hat eine unübertroffene Anzahl von 10.649.600 Kernen, die 125, 4 Petaflops mit theoretischem Spitzendurchsatz und 93 Petaflops mit maximaler gemessener Leistung im Linpack-Benchmark bei einer Leistung von 15, 4 Megawatt liefern. Es sollte beachtet werden, dass dieser Rechner zwar die Charts in der Linpack-Leistung mit großem Abstand übertrifft, in anderen Tests jedoch nicht ganz so gut abschneidet. Es gibt andere Benchmarks wie den HPCG-Benchmark (High Performance Conjugate Gradients), bei dem die Maschinen in der Regel nur 1 bis 10 Prozent ihrer theoretischen Spitzenleistung erzielen und bei dem das Spitzensystem - in diesem Fall die Riken K-Maschine - immer noch weniger liefert als 1 Petaflop.
Die Linpack-Tests sind jedoch der Standard, um über HPC (High Performance Computing) und die Erstellung der Top500-Liste zu sprechen. Unter Verwendung der Linpack-Tests war die Maschine Nr. 2, Tianhe-2, in den letzten Jahren die Nummer 1 in der Tabelle und verwendet Xeon E5 und ältere Xeon Phi (Knights Corner) -Beschleuniger. Dies bietet 54, 9 Petaflops theoretischer Spitzenleistung und Benchmarks bei 33, 8 Petaflops in Linpack. Viele Beobachter glauben, dass ein Exportverbot für die neueren Versionen von Xeon Phi (Knights Landing) die Chinesen dazu veranlasste, ihren eigenen Supercomputer-Prozessor zu entwickeln.
Knights Landing, offiziell Xeon Phi 7250, spielte eine große Rolle in den neuen Systemen auf der Liste, beginnend mit dem Cori-Supercomputer am Lawrence Berkeley National Laboratory, der mit einer Spitzenleistung von 27, 8 Petaflops und einer gemessenen Leistung von 14 Petaflops auf dem fünften Platz landete. Dies ist ein Cray XC40-System, das die Aries-Verbindung verwendet. Beachten Sie, dass Knights Landing als Hauptprozessor fungieren kann, wobei 68 Kerne pro Prozessor 3 Peak-Teraflops liefern. (Intel listet eine andere Version des Chips mit 72 Kernen bei 3, 46 Teraflops theoretischer Spitzenleistung mit doppelter Präzision auf seiner Preisliste auf, aber keine der auf der Liste aufgeführten Maschinen verwendet diese Version, möglicherweise, weil sie teurer ist und mehr Energie verbraucht.)
Früher konnte Xeon Phis nur als Beschleuniger in Systemen ausgeführt werden, die von herkömmlichen Xeon-Prozessoren gesteuert wurden. Auf dem sechsten Platz landete das Oakforest-PACS-System des Joint Center for Advanced High Performance Computer in Japan mit 24, 9 Peak Petaflops. Dies wird von Fujitsu unter Verwendung von Knights Landing und Intels Omni-Path-Interconnect erstellt. Knights Landing wird auch im System Nr. 12 (Der Marconi-Computer im italienischen CINECA, gebaut von Lenovo und unter Verwendung von Omni-Path) und im System Nr. 33 (der Kampfer 2 an der japanischen Kyoto-Universität, gebaut von Cray und unter Verwendung von Aries) verwendet verbinden).
Nvidia war auch in der neuen Liste gut vertreten. Das System Nr. 8, Piz Daint vom Schweizerischen Hochleistungsrechenzentrum, wurde mit Xeons und dem Nvidia Tesla P100 auf einen Cray XC50 aufgerüstet und bietet jetzt knapp 16 Petaflops mit theoretischer Spitzenleistung und 9, 8 Petaflops mit Linpack-Leistung - eine große Leistung Upgrade von 7, 8 Petaflops mit Spitzenleistung und 6, 3 Petaflops mit Linpack-Leistung in seiner früheren Iteration auf Basis des Cray XC30 mit Nvidia K20x-Beschleunigern.
Das andere P100-basierte System auf der Liste war Nvidias eigenes DGX Saturn V, das auf den firmeneigenen DGX-1-Systemen und einem Infiniband-Interconnect auf Platz 28 der Liste basierte. Beachten Sie, dass Nvidia jetzt sowohl die Prozessoren als auch die DGX-1-Appliance verkauft, die Software und acht Tesla P100 enthält. Das DGX-Saturn-V-System, das Nvidia für die interne AI-Forschung verwendet, erzielt fast 4, 9 Peak-Petaflops und 3, 3 Linpack-Petaflops. Nvidia weist jedoch darauf hin, dass es nur 350 Kilowatt Strom verbraucht und damit viel energieeffizienter ist. Infolgedessen führt dieses System die Green500-Liste der energieeffizientesten Systeme an. Nvidia weist darauf hin, dass dies erheblich weniger Energie ist als das auf Xeon Phi basierende Camphor 2-System, das eine ähnliche Leistung aufweist (fast 5, 5 Petaflops Peak und 3, 1 Linpack Petaflops).
Es ist ein interessanter Vergleich, bei dem Nvidia für eine bessere Energieeffizienz bei GPUs und Intel für ein bekannteres Programmiermodell wirbt. Ich bin sicher, dass es in den kommenden Jahren zu mehr Wettbewerb kommen wird, da die verschiedenen Architekturen um die Frage konkurrieren, welche von ihnen als erste das "Exascale Computing" erreichen werden oder ob der chinesische Ansatz des Eigenbaus stattdessen zum Tragen kommt. Derzeit erwartet das Exascale Computing-Projekt des US-Energieministeriums, dass die ersten Exascale-Maschinen im Jahr 2022 installiert und im folgenden Jahr in Betrieb genommen werden.
Ich finde es interessant festzustellen, dass trotz der Betonung von Vielkern-Beschleunigern wie den Nvidia Tesla- und Intel Xeon Phi-Lösungen nur 96 Systeme solche Beschleuniger verwenden (einschließlich derer, die Xeon Phi allein verwenden); im Gegensatz zu 104 Systemen vor einem Jahr. Intel ist nach wie vor der größte Chiplieferant mit 462 Chips unter den Top-500-Systemen, gefolgt von IBM Power-Prozessoren im Jahr 22. Hewlett-Packard Enterprise erstellte 140 Systeme (einschließlich der von HPE erworbenen Silicon Graphics), die Lenovo gebaut hat 92 und Cray 56.
Maschineller Lernwettbewerb
Es gab eine Reihe von Ankündigungen während oder um die Show, von denen sich die meisten mit irgendeiner Form von künstlicher Intelligenz oder maschinellem Lernen befassten. Nvidia hat eine Partnerschaft mit IBM für ein neues Toolkit für vertiefte Lernprogramme namens IBM PowerAI bekannt gegeben, mit dem IBM Power-Server mit NVLink-Interconnect von Nvidia ausgeführt werden.
AMD, das sowohl in HPC- als auch in maschinellen Lernumgebungen nachgedacht wurde, arbeitet daran, dies zu ändern. In diesem Bereich konzentrierte sich das Unternehmen auf seine eigenen Radeon-GPUs, stellte seine FirePro S9300 x2-Server-GPUs vor und kündigte eine Partnerschaft mit der Google Cloud Platform an, um die Verwendung über die Cloud zu ermöglichen. AMD hat jedoch nicht so viel in Software für die Programmierung von GPUs investiert, wie OpenCL gegenüber Nvidias proprietärem Ansatz betont hat. Auf der Messe stellte AMD eine neue Version seiner Radeon Open Compute Platform (ROCm) vor und kündigte Pläne zur Unterstützung seiner GPUs in heterogenen Computerszenarien mit mehreren CPUs an, darunter die kommenden "Zen" x86-CPUs sowie ARM-Architekturen, beginnend mit ThunderX und von Cavium IBM Power 8-CPUs.
Auf der Messe sprach Intel über eine neue Version seines aktuellen Xeon E5v4 (Broadwell) -Chips, der für Gleitkomma-Workloads optimiert ist, und darüber, wie die nächste Version auf Basis der Skylake-Plattform im nächsten Jahr erscheinen soll. Zu einem späteren Zeitpunkt in dieser Woche veröffentlichte Intel jedoch eine Reihe von Ankündigungen, um seine Chips in der künstlichen Intelligenz oder im Bereich des maschinellen Lernens zu positionieren. (Hier ist ExtremeTechs Einstellung.) Ein Großteil davon hat Auswirkungen auf das Hochleistungsrechnen, ist jedoch größtenteils getrennt. Zusätzlich zu den Standard-Xeon-Prozessoren fördert das Unternehmen zunächst FPGAs, um einen Großteil der Inferenzen in neuronalen Netzen durchzuführen. Das ist ein wichtiger Grund, warum das Unternehmen kürzlich Altera gekauft hat. Solche FPGAs werden heute von Unternehmen wie Microsoft verwendet.
Aber der Fokus auf KI in der letzten Woche betraf einige neuere Chips. Erstens gibt es Xeon Phi, wo Intel angedeutet hat, dass die aktuelle Version von Knights Landing nächstes Jahr durch eine neue Version mit dem Namen Knights Mill ergänzt wird, die auf den "Deep Learning" -Markt abzielt. Auf der IDF angekündigt, ist dies eine weitere 14-nm-Version, die jedoch Berechnungen mit halber Genauigkeit unterstützt, die häufig für das Training neuronaler Netze verwendet werden. In der Tat ist einer der großen Vorteile der aktuellen Nvidia-Chips beim Deep Learning ihre Unterstützung für halbpräzise Berechnungen und 8-Bit-Integer-Operationen, die Nvidia oft als Deep Learning-Tera-Ops bezeichnet. Laut Intel wird Knights Mill bis zu viermal so viel Leistung bieten wie Knights Landing für vertiefendes Lernen. (Auf diesen Chip soll später noch eine 10-nm-Version namens Knights Hill folgen, die sich wahrscheinlich eher an den traditionellen Markt für Hochleistungscomputer richtet.)
Am interessantesten für das nächste Jahr ist ein Design von Nervana, das Intel kürzlich erworben hat und das eine Reihe von Verarbeitungsclustern verwendet, die für einfache Rechenoperationen in Verbindung mit Speicher mit hoher Bandbreite (HBM) entwickelt wurden. An erster Stelle in dieser Familie steht der Lake Crest, der entwickelt wurde, bevor Intel das Unternehmen kaufte und in einem 28-nm-TSMC-Verfahren herstellte. Intel wird voraussichtlich in der ersten Hälfte des nächsten Jahres in Testversionen verfügbar sein und eine höhere Raw-Computing-Leistung als eine GPU liefern. Es wird irgendwann Knights Crest folgen, der die Technologie von Nervana zusammen mit Xeon einsetzt, wobei Details noch unangekündigt sind.
"Wir gehen davon aus, dass die Technologien von Nervana in den nächsten drei Jahren zu einer 100-fachen Leistungssteigerung führen werden, um komplexe neuronale Netze zu trainieren und es Datenwissenschaftlern zu ermöglichen, ihre größten AI-Herausforderungen schneller zu lösen", schrieb Intel-CEO Brian Krzanich.
Intel kündigte außerdem kürzlich Pläne zur Übernahme von Movidius an, mit dem DSP-basierte Chips besonders für die Inferenzierung von Bildverarbeitungsdaten geeignet sind. Dabei werden Entscheidungen auf der Grundlage zuvor trainierter Modelle getroffen.
Es ist eine komplizierte und sich entwickelnde Geschichte - sicherlich nicht so einfach wie Nvidias Bestreben, seine GPUs überall einzusetzen. Es wird jedoch deutlich, wie schnell sich das maschinelle Lernen entwickelt und auf welche Weise Unternehmen das Problem angehen wollen, von GPUs wie Nvidia und AMD über viele x86-Kernprozessoren wie Xeon Phi bis hin zu FPGAs Zu spezialisierten Schulungsprodukten wie Nervana und IBM TrueNorth, zu benutzerdefinierten DSP-ähnlichen Inferencing-Engines wie den Tensor Processing Units von Google. Es wird sehr interessant sein zu sehen, ob der Markt Platz für all diese Ansätze hat.