Zuhause Vorausdenken Google Cloud ist Teil eines Trends zu ai-spezifischen Prozessoren

Google Cloud ist Teil eines Trends zu ai-spezifischen Prozessoren

Video: Document AI (November 2024)

Video: Document AI (November 2024)
Anonim

In den letzten Wochen wurden einige wichtige neue Computerplattformen vorgestellt, die speziell für das Arbeiten in tiefen neuronalen Netzen für maschinelles Lernen entwickelt wurden, darunter die neuen "Cloud-TPUs" von Google und das neue Volta-Design von Nvidia.

Für mich ist dies der interessanteste Trend in der Computerarchitektur - mehr noch als AMD und jetzt führt Intel 16-Core- und 18-Core-CPUs ein. Natürlich gibt es auch andere alternative Ansätze, aber Nvidia und Google genießen zu Recht viel Aufmerksamkeit für ihre einzigartigen Ansätze.

Bei Google I / O habe ich gesehen, was für ein "Cloud-TPU" (für Tensor Processing Unit, was darauf hinweist, dass es für das TensorFlow-Framework für maschinelles Lernen von Google optimiert ist) eingeführt wurde. Die vorherige TPU-Generation, die auf der letztjährigen Messe vorgestellt wurde, ist ein ASIC, der in erster Linie für das Inferenzieren (Ausführen von maschinellen Lernvorgängen) entwickelt wurde. Die neue Version ist jedoch für das Inferenzieren und Trainieren solcher Algorithmen konzipiert.

In einer kürzlich erschienenen Veröffentlichung gab Google weitere Einzelheiten zum ursprünglichen TPU bekannt, das eine Matrix von 256 mal 256 MAC-Einheiten (Multiple-Accumulate) mit einer Spitzenleistung von 92 Teraops (Billionen Operationen pro Jahr) enthielt zweite). Er erhält seine Anweisungen von einer Host-CPU über den PCIe-Gen-3-Bus. Laut Google war dies ein 28-nm-Chip, der weniger als die Hälfte der Größe eines Intel Haswell Xeon 22-nm-Prozessors hatte und den Prozessor und den 28-nm-K80-Prozessor von Nvidia übertraf.

Die neue Version, TPU 2.0 oder Cloud-TPU (siehe oben), enthält tatsächlich vier Prozessoren auf dem Board. Laut Google kann jedes Board 180 Teraflops (180 Billionen Gleitkommaoperationen pro Sekunde) erreichen. Ebenso wichtig ist, dass die Boards so konzipiert sind, dass sie über ein benutzerdefiniertes Hochgeschwindigkeitsnetzwerk zusammenarbeiten. Sie fungieren also als ein einziger Computer, der Supercomputer lernt und von Google als "TPU-Pod" bezeichnet wird.

Dieser TPU-Pod enthält 64 TPUs der zweiten Generation und bietet bis zu 11, 5 Petaflops, um das Training eines einzelnen großen maschinellen Lernmodells zu beschleunigen. Während der Konferenz sagte Fei Fei Li, der die KI-Forschung von Google leitet, dass eines der umfangreichen Lernmodelle des Unternehmens für das Übersetzen einen ganzen Tag dauert, um 32 der besten handelsüblichen GPUs zu trainieren gleiche Genauigkeit an einem Nachmittag mit einem Achtel eines TPU-Pods. Das ist ein großer Sprung.

Verstehen Sie, dass dies keine kleinen Systeme sind - ein Pod scheint ungefähr die Größe von vier normalen Computer-Racks zu haben.

Und jeder der einzelnen Prozessoren scheint sehr große Kühlkörper zu haben, was bedeutet, dass die Platinen nicht zu eng gestapelt werden können. Google hat noch nicht viele Details zu den Änderungen in dieser Version der Prozessoren oder der Verbindung angegeben, aber es ist wahrscheinlich, dass dies auch auf 8-Bit-MACs basiert.

In der Woche zuvor stellte Nvidia seinen neuesten Eintrag in dieser Kategorie vor, einen massiven Chip namens Telsa V100 Volta, der als erste CPU mit dieser neuen Volta-Architektur für High-End-GPUs bezeichnet wurde.

Laut Nvidia unterstützt der neue Chip 120 TensorFlow-Teraflops (oder 15 32-Bit-TFLOPS oder 7, 5 64-Bit-Teraflops). Dabei wird eine neue Architektur mit 80 Streaming-Multiprozessoren (SMs) verwendet, von denen jeder acht neue "Tensorkerne" enthält. und ist ein 4x4x4-Array, das 64 FMA-Operationen (Fused Multiply-Add) pro Takt ausführen kann. Nvidia gab bekannt, dass der Chip im dritten Quartal auf seinen DGX-1V-Workstations mit 8 V100-Platinen erhältlich sein wird, nachdem die frühere DGX-1 des Unternehmens die frühere P100-Architektur verwendet hatte.

Das Unternehmen sagte, dass diese 149.000-Dollar-Box 960 Teraflops an Trainingsleistung mit 3200 Watt liefern sollte. Später, so der erste Bericht, würde eine Personal DGX-Station mit vier V100 ausgeliefert, und im vierten Quartal würden die großen Serververkäufer V100-Server ausliefern.

Dieser Chip ist der erste, bei dem der 12-nm-Prozessor von TSMC zum Einsatz kommt. Es wird sich um einen riesigen Chip mit 21, 1 Milliarden Transistoren auf einem 815-Quadratmillimeter-Chip handeln. Nvidia führte sowohl Microsoft als auch Amazon als erste Kunden für den Chip an.

Beachten Sie, dass es große Unterschiede zwischen diesen Ansätzen gibt. Die Google-TPUs sind wirklich kundenspezifische Chips, die für TensorFlow-Anwendungen entwickelt wurden, während der Nvidia V100 ein etwas allgemeinerer Chip ist, der verschiedene Arten von Mathematik für andere Anwendungen beherrscht.

In der Zwischenzeit suchen die anderen großen Cloud-Anbieter nach Alternativen, wobei Microsoft sowohl GPUs für Schulungszwecke als auch FPGAs (Field Programmable Gate Arrays) für Inferenzen verwendet und Kunden beides anbietet. Amazon Web Services stellen Entwicklern jetzt sowohl GPU- als auch FPGA-Instanzen zur Verfügung. Und Intel hat FPGAs und eine Vielzahl anderer Techniken vorangebracht. Inzwischen arbeiten einige Neugründungen an alternativen Ansätzen.

In gewisser Hinsicht ist dies die drastischste Änderung, die wir seit Jahren bei Workstation- und Server-Prozessoren gesehen haben, zumindest seitdem Entwickler vor einigen Jahren mit "GPU-Computing" angefangen haben. Es wird faszinierend sein zu sehen, wie sich dies entwickelt.

Google Cloud ist Teil eines Trends zu ai-spezifischen Prozessoren