Video: Nvidia CEO Jensen Huang on deal to buy Arm Holdings from SoftBank (November 2024)
Während ein Großteil der Chip-Aufregung in der vergangenen Woche von der Broadwell-Ankündigung von Intel herrührte, wurde auf der jährlichen Hot Chips-Konferenz eine Reihe weiterer Chips ausführlich besprochen, die sich in der Regel auf Chips für Server und Rechenzentren konzentrierten.
Die Show ist bekannt für High-End-Chips, bei denen Intel, Oracle und IBM ihre neuesten Einträge besprachen, aber nur der Sparc M7 von Oracle war wirklich neu. Stattdessen konzentrierte sich ein Großteil der Show auf ARM-basierte Produkte, einschließlich der ersten Details der kommenden 64-Bit-Version "Denver" des Tegra K1-Prozessors von Nvidia
Oracle, Intel und IBM wollen mit Serverchips hoch hinaus
Von den High-End-Chips kam die beeindruckendste Nachricht von Oracle, das über die nächste Generation seines SPARC-Prozessors, einen M7, berichtete. Dieser Chip wird 32 S4-SPARC-Kerne (mit jeweils bis zu acht dynamischen Threads), 64 MB L3-Cache, acht DDR4-Speichercontroller (bis zu 2 TB pro Prozessor und 160 GBit / s Speicherbandbreite mit DDR4-2133) und acht Datenanalyse-Beschleuniger enthalten ein On-Chip-Netzwerk.
Der Chip ist in acht Cluster mit jeweils vier Kernen mit gemeinsam genutztem L2-Cache und einem partitionierten 8-MB-L3-Cache mit einer Bandbreite von mehr als 192 GBit / s zwischen einem Kerncluster und seinem lokalen L3-Cache organisiert. Im Vergleich zum M6 (einem 28-nm-Chip mit 12 3, 6-GHz-SPARC-S3-Kernen) bietet der M7 eine 3- bis 3, 5-fach bessere Leistung bei Speicherbandbreite, ganzzahligem Durchsatz, OLTP, Java, ERP-Systemen und Gleitkomma-Durchsatz. Stephen Phillips, Senior Director von Oracle für SPARC Architecture, sagte, das Ziel sei eher eine schrittweise Leistungssteigerung als ein inkrementeller Gewinn.
Der M7 kann auf 8 Sockel ohne Klebstoff skaliert werden (bis zu 256 Kerne, 2.000 Threads und 16 TB Speicher) und mit einem ASIC-Switch den Datenverkehr zwischen ihnen in einer SMP-Konfiguration mit bis zu 32 Prozessoren verwalten mit einem System mit 1.024 Kernen, 8.192 Threads und bis zu 64 TB Arbeitsspeicher. Ziemlich beeindruckend. Oracle gab an, dass es bei einer Reihe von Tests eine 3 bis 3, 5-mal bessere Leistung bietet als der letztjährige SPARC M6. Das Unternehmen gab bekannt, dass dies für den Oracle-eigenen Software-Stack optimiert sein wird, der in einem 20-nm-Prozess hergestellt und irgendwann im nächsten Jahr auf Systemen verfügbar sein wird.
IBM gab auch weitere Details zu seiner Power8-Linie bekannt, die es auf der letztjährigen Messe angekündigt hatte. Diese Version des Chips hatte 12 Kerne mit jeweils bis zu acht Threads mit 512 KB SRAM Level 2-Cache pro Kern (6 MB L2 insgesamt) und 96 MB gemeinsam genutztem eingebettetem DRAM als Level 3-Cache. Dieser riesige Chip, der 650 Quadratmillimeter mit 4, 2 Milliarden Transistoren misst, wird nach Angaben von IBM im 22-nm-SOI-Verfahren von IBM hergestellt und soll im Juni ausgeliefert werden.
Vor einigen Monaten kündigte IBM eine Version mit sechs Kernen mit einer Größe von 362 mm 2 an. In diesem Jahr ging es darum, wie IBM zwei der Sechs-Core-Versionen in einem einzigen Paket mit 48 PCIe-Gen-3-Lanes kombinieren kann. IBM gab bekannt, dass eine Zwei-Socket-Version mit insgesamt 24 Kernen und 192 Threads einen Zwei-Prozessor übertreffen wird Xeon Ivy Bridge Server mit 24 Kernen (mit 48 Threads). IBM vertreibt Power hauptsächlich auf leistungsstarken und spezialisierten Märkten, sodass die meisten Leute die beiden nicht vergleichen werden, aber es ist interessant. In dem Bestreben, die Power-Architektur mehr zu etablieren, hat IBM im vergangenen Jahr das Open Power Consortium angekündigt. In diesem Jahr gab das Unternehmen bekannt, dass es einen vollständigen Open-Source-Software-Stack für die Plattform hat. Bisher hat jedoch niemand außer IBM einen Server angekündigt, der auf der Plattform basiert.
Intel sprach von "Ivytown", der Serverversion von Ivy Bridge, die die vor einem Jahr vorgestellten Versionen des Xeon E5 und des Xeon E7 enthält, die im Februar eingeführt wurden. Der diesjährige Vortrag konzentrierte sich darauf, wie Intel nun im Grunde genommen eine Architektur hat, die beide Märkte abdecken kann, mit Chips, die bis zu 15 Kerne erlauben, zwei DDR3-Speichercontrollern, drei QPI-Links und 40 PCI Gen 3-Lanes, die in einem modularen Stockwerk angeordnet sind Plan, der in drei verschiedene Matrizen mit insgesamt mehr als 75 Varianten umgewandelt werden kann, die jeweils für verschiedene Sockel ausgelegt sind. Dies kann in Servern mit zwei, vier und acht Sockets ohne spezielle Verbindungen verwendet werden.
Diese Chips machen heutzutage natürlich den Großteil der Serverkäufe aus, da Intel die überwiegende Mehrheit der Servereinheiten ausmacht. Viele der Informationen wurden bereits zuvor bei ISSCC behandelt, und es wird allgemein davon ausgegangen, dass Intel in Kürze die nächste Version der E5-Familie (E5-1600v3 und E5-2600 v3) auf der Grundlage einer aktualisierten Version mit einer Variante der E5 einführt Haswell-Architektur namens Haswell-EP. (Letzte Woche kündigte Dell neue Workstations an, die auf diesen neuen Chips basieren.)
Intel diskutierte auch über den Atom C2000, bekannt als Avoton, der Ende 2013 in Produktion ging. Dieser Chip sowie die Chips von Ivy Bridge und Haswell basieren alle auf dem 22-nm-Prozess von Intel.
Nvidia, AMD, Applied Micro zielt auf neue Märkte für ARM
Die größte Überraschung der Show war wahrscheinlich der Fokus auf ARM-basierte Technologie, einschließlich Keynotes von ARM-Sprechern und Nvidias detaillierten Angaben zur kommenden "Denver" -Version seines Tegra K1-Prozessors.
In einer Keynote diskutierte ARM-CTO Mike Muller die Leistungsbeschränkungen in allen Bereichen, von Sensoren bis zu Servern, und konzentrierte sich darauf, wie ARM versuchte, in das Unternehmen zu expandieren. Müller drängte auch auf das Konzept der Verwendung von ARM-Sensorchips für das Internet der Dinge, ein Thema, das auch in einer Keynote von Qualcomms Rob Chandhok wiederholt wurde. Beide Unternehmen haben jedoch keine neuen Kerne oder Prozessoren angekündigt.
Stattdessen kam die große Neuigkeit von Nvidia, das viel mehr Details über die neue Version seines K1-Prozessors enthielt. Als das Denver-Projekt des Unternehmens erstmals angekündigt wurde, hörte es sich so an, als ob dieser Chip auf den Hochleistungscomputermarkt abzielen würde, aber jetzt scheint sich das Unternehmen mehr auf Dinge wie Tablets und den Automobilmarkt konzentriert zu haben. Der Tegra K1 wird in zwei Versionen erhältlich sein. Der erste, der Anfang dieses Jahres angekündigt wurde und jetzt im Shield-Tablet des Unternehmens ausgeliefert wird, verfügt über vier 32-Bit-ARM-Cortex-A15-Kerne sowie einen stromsparenden "Companion-Core" in der von Nvidia eingeführten 4 + 1-Konfiguration seine Tegra-Linie seit mehreren Jahren.
Die Denver-Version ist mit zwei neuen proprietären 64-Bit-Kernen, die von Nvidia entwickelt wurden, ganz anders, und das Unternehmen wirbt wirklich für die damit verbundenen Leistungssteigerungen. Der Kern ist siebenfach superskalar (was bedeutet, dass er bis zu sieben Mikrooperationen gleichzeitig ausführen kann) und verfügt über einen 128 KB großen vierfachen L1-Anweisungscache und einen 64 KB großen vierfachen L1-Datencache. Der Chip kombiniert zwei dieser Kerne zusammen mit einem 2-MB-Level-2-Cache, der beide Kerne versorgt, als die 192 "CUDA-Kerne" (Grafikkerne), die er mit dem 32-Bit-K1 teilt. Als solches stellt es eine große Abkehr von der 4 + 1-Architektur dar.
Eine große Änderung betrifft das, was Nvidia "dynamische Codeoptimierung" nennt. Dabei wird häufig verwendeter ARM-Code in speziell für den Prozessor optimierten Mikrocode umgewandelt. Dies wird in 128 MB Cache-Speicher (aus dem herkömmlichen Hauptspeicher des Systems herausgeschnitten) gespeichert. Das Ziel ist es, die Leistung einer nicht ordnungsgemäßen Ausführung zu erbringen, ohne dass so viel Leistung erforderlich ist, wie diese Technik normalerweise verwendet. Das Konzept ist nicht neu - Transmeta hat es vor Jahren mit seinem Crusoe-Chip ausprobiert - aber Nvidia sagt, dass dies jetzt deutlich besser funktioniert.
Nvidia zeigte mehrere Benchmarks auf, bei denen behauptet wurde, dass der neue Chip eine deutlich höhere Leistung als vorhandene mobile CPUs mit vier oder acht Kernen erzielen kann - insbesondere unter Berufung auf Qualcomms Snapdragon 800 (MSM8974), das im iPhone verwendete Apple A7 (manchmal auch als Cyclone bezeichnet) 5s - und sogar einige gängige PC-Prozessoren. Laut Nvidia hat es einen Atom-Prozessor (Bay Trail) übertroffen und war dem 1, 4-GHz-Dual-Core-Celeron-Prozessor (Haswell) von Intel ähnlich. Natürlich neige ich dazu, die Herstellerleistungszahlen mit ein wenig Salz zu nehmen: Die Hersteller wählen nicht nur die Benchmarks aus, es ist auch keineswegs klar, dass es sich um die gleichen Taktraten oder den gleichen Stromverbrauch handelt.
In der Zwischenzeit sprach AMD in Chips, die mehr auf Server ausgerichtet waren, mehr über seinen Opteron A1100, der als "Seattle" bekannt ist. Das Unternehmen gab an, dass er derzeit als Stichprobe vorliegt und gegen Ende dieses Jahres auf Servern erhältlich sein sollte. Dieser Chip verfügt über acht 64-Bit Cortex A57-CPU-Kerne. 4 MB L2-Cache und 8 MB L3-Cache; zwei Speicherkanäle für bis zu 128 GB DDR3- oder DDR4-Speicher mit Fehlerkorrektur; Viele integrierte E / A (jeweils 8 Lanes mit PCIe Gen3 und 6 Gbit / s SATA sowie zwei 10 Gbit / s Ethernet-Ports); ein Cortex A5 "Systemsteuerungsprozessor" für den sicheren Start; und ein Beschleuniger zur Beschleunigung der Ver- und Entschlüsselung. Es wird im 28-nm-Verfahren von GlobalFoundries hergestellt. AMD hat noch keine Details zu Frequenz, Leistung oder Leistung des Chips angegeben, zeigte jedoch ein grundlegendes Diagramm des Chips. (über)
Applied Micro behauptet seit langem, den ersten ARM-Serverchip auf dem Markt zu haben. Sein X-Gene 1 (bekannt als Storm) enthält 8 proprietäre ARMv8-Kerne mit 2, 4 GHz, vier DDR3-Speichercontroller, PCIe Gen3 und 6 Gbit / s SATA sowie 10 Gbit / s Ethernet. Dies wird derzeit im 40-nm-Verfahren von TSMC hergestellt, so das Unternehmen.
Bei Hot Chips hat Applied Micro das X-Gene 2 (Shadowcat) -Design vorgestellt, das mit acht oder 16 "erweiterten" Kernen mit einer Geschwindigkeit von 2, 4 bis 2, 8 GHz erhältlich sein wird, und einen RoCE-Host (RDMA over Converged Ethernet) hinzugefügt Kanaladapter als Verbindung, die Verbindungen mit geringer Latenz zwischen Clustern von Mikroservern ermöglicht. Dies ist für die Verwendung in Clustern vorgesehen, bei denen ein einziges Server-Rack bis zu 6.480 Threads und 50 TB Speicher unterstützt und sich alle einen einzigen Speicherpool teilen. Das Unternehmen gibt an, dass das X-Gene 2 eine um 60 Prozent bessere Ganzzahlleistung, die doppelte Leistung von Memcache und eine um 25 Prozent bessere Apache-Web-Bedienung bieten wird. Es wird in einem 28-nm-Verfahren hergestellt und wird derzeit bemustert.
Laut Applied Micro schließt das X-Gene 2 eine Lücke zwischen konkurrierenden Mikroservern (Cavium ThunderX, Intel Atom C2000 "Avoton" und AMD Opteron A1100 "Seattle") und Xeon-Servern in Originalgröße. Es enthielt einige Details zur nächsten Generation, dem X-Gene 3 (Skylark), dessen Probenahme im nächsten Jahr beginnen soll. Dieser Chip wird 16 ARMv8-Kerne mit einer Geschwindigkeit von bis zu 3 GHz haben und mit der 16-nm-FinFet-Technologie hergestellt.