Video: Hot Chip - Flutes (Official Video) (November 2024)
Das heißeste Thema beim Rechnen in diesen Tagen ist maschinelles Lernen, und das ist auf der Hardwareseite sicherlich sichtbar. In den letzten Wochen haben wir viel über neue Chips gehört, die für intensives Lernen entwickelt wurden, von Nvidias Tesla P100 und Drive PX 2 über die Tensor Processing Units von Google bis hin zu Intels Xeon Phi. So ist es nicht verwunderlich, dass wir letzte Woche auf der Hot Chips-Konferenz von einer Reihe verschiedener Unternehmen mit sehr unterschiedlichen Ansätzen zum Design gehört haben, die auf maschinelles Lernen und Bildverarbeitung zugeschnitten sind.
Die vielleicht größte Neuigkeit war, dass Nvidia detailliertere Informationen zu seinem Parker-Chip enthüllte, der in seinem Drive PX 2-Modul für selbstfahrende Autos verwendet wurde und auf tiefgreifendes Lernen für autonome Maschinen abzielte. Dieser Chip verwendet zwei kundenspezifische ARM-kompatible Denver-CPU-Kerne, vier ARM Cortex-A57-Kerne und 256 der von Nvidia als Pascal CUDA (Grafik) bezeichneten Kerne.
Nvidia sagte, dies sei der erste Chip, der für den Einsatz in Automobilen mit speziellen Ausfallsicherheitsmerkmalen entwickelt und bewertet wurde, und sprach über seine schnellere Geschwindigkeit und seinen schnelleren Speicher. Dabei stellte er fest, dass der Denver-Core eine signifikante Verbesserung der Leistung pro Watt bietet. Zu den neuen Funktionen gehört die hardwaregestützte Virtualisierung mit bis zu 8 VMS, um die Integration von Fahrzeugfunktionen zu ermöglichen, die traditionell auf separaten Computern ausgeführt werden. Insgesamt kann das Drive PX 2-Modell zwei dieser Parker-Chips und zwei separate GPUs mit einer Gesamtleistung von 8 Teraflops (doppelte Genauigkeit) oder 24 Deep-Learning-Vorgängen (8-Bit- oder halbe Genauigkeit) aufweisen Das Unternehmen bezog Benchmarks ein, die es mit SpecInt_2000, einem relativ alten Benchmark, im Vergleich zur aktuellen mobilen Verarbeitung positiv bewerteten. Die Leistung sieht jedoch beeindruckend aus, und Volvo hat kürzlich angekündigt, sie zum Testen autonomer Fahrzeuge ab dem nächsten Jahr zu verwenden.
Natürlich gibt es viele andere Ansätze.
Das chinesische Startup DeePhi diskutierte eine FPGA-basierte Plattform für neuronale Netzwerke mit zwei unterschiedlichen Architekturen, die von der Art des Netzwerks abhängen. Aristoteles wurde für relativ kleine neuronale Faltungsnetze entwickelt und basiert auf dem Xilinx Zynq 7000, während Descartes für größere neuronale Netze unter Verwendung des Langzeitspeichers (RNN-LSTM) basierend auf dem Kintex Ultrascale FPGA entwickelt wurde. DeePhi behauptet, dass sein Compiler und seine Architektur die Entwicklungszeit im Vergleich zu den meisten FPGAs verkürzen und dass die Verwendung eines FPGA eine bessere Leistung als die Tegra K1- und K40-Lösungen von Nvidia liefern kann.
Ein anderer Ansatz ist die Verwendung eines digitalen Signalprozessors oder DSP, der typischerweise eine bestimmte Funktion oder einen winzigen Satz von Funktionen sehr schnell und mit sehr wenig Energie ausführt. Oft sind diese in andere, komplexere Chips eingebettet, um bestimmte Funktionen wie die Bildverarbeitung zu beschleunigen. Eine Reihe von Unternehmen, darunter Movidius, CEVA und Cadence, teilten ihre Lösungen auf der Hot Chips.
Movidius zeigte seine DSP-basierte Lösung, die als Myriad 2 Vision Processing Unit bekannt ist, und zeigte sie in der DJI Phantom 4-Drohne. Es wurde auch gezeigt, wie die Myriad 2 die GPUs und das GoogLeNet Deep Neural Network übertrifft, die im ImageNet-Wettbewerb 2014 verwendet wurden.
CEVA bewarb seinen CEVA-XM4 Vision DSP, der speziell für die Bildverarbeitung entwickelt wurde und sich an den Automobilmarkt richtet, sowie seine CEVA Deep Neural Network 2-Plattform, die alles für die Caffe- oder TensorFlow-Frameworks Geschriebene aufnehmen und für die Ausführung optimieren könnte auf seinem DSP. Der neue Prozessor soll nächstes Jahr in SoCs sein.
In der Zwischenzeit diskutierte Cadence, das die Tensilica-Familie von Vision-Prozessoren herstellt (die in andere Produkte eingebettet werden können), seine neueste Version, das Vision P6, das neue Funktionen wie Vektor-Gleitkomma-Unterstützung und andere Funktionen für neuronale Faltungsnetzwerke hinzugefügt hat. Die ersten Produkte sollten in Kürze erscheinen.
Microsoft sprach über die Details der Hardware für sein HoloLens-Headset und gab an, dass es einen 14-nm-Intel Atom Cherry Trail-Prozessor unter Windows 10 und einen von TSMC im 28-nm-Verfahren hergestellten benutzerdefinierten Sensor-Hub mit holographischer Prozessoreinheit (HPU 1.0) verwendete. Dies beinhaltet 24 Tensilica DSP-Kerne.
Ich war besonders angetan von einer von Cadences Folien, die die Unterschiede in Bezug auf Durchsatz und Effizienz von GPUs, FPGAs und verschiedenen Arten von DSPs in Bezug auf Multiplikations-Additions-Operationen zeigten, einem der Schlüsselbausteine für neuronale Netze. Obwohl es offensichtlich eigenständig ist (wie alle Herstellerpräsentationen), wurde darauf hingewiesen, wie sich die verschiedenen Techniken in Bezug auf Geschwindigkeit und Effizienz (Leistung pro Watt) unterscheiden, ganz zu schweigen von den Kosten und der Einfachheit der Programmierung. Hier gibt es viele Lösungen für unterschiedliche Ansätze, und es wird interessant sein zu sehen, wie sich dies in den nächsten Jahren auswirkt.