Kategorien
Der Tag im Überblick: Alle Meldungen

AMD zeigt Instinct MI300 Exascale APU mit 146 Milliarden Transistoren

Während der CES 2023 Keynote kündigte AMD seine neueste Instinct MI300 APU an, ein Novum in der Welt der Rechenzentren. Die Kombination von CPU, GPU und Speicherelementen in einem einzigen Paket eliminiert die Latenz, die durch die langen Übertragungswege der Daten von der CPU zum Speicher und von der CPU zur GPU über den PCIe-Anschluss entsteht. Dadurch werden nicht nur einige Latenzprobleme gelöst, sondern es wird auch weniger Strom benötigt, um die Daten zu übertragen, was zu einer höheren Effizienz führt. Der Instinct MI300 verfügt über 24 Zen4-Kerne mit simultanem Multi-Threading, CDNA3 GPU IP und 128 GB HBM3-Speicher in einem einzigen Gehäuse. Der Speicherbus ist 8192 Bit breit und bietet einen einheitlichen Speicherzugriff für CPU- und GPU-Kerne. CLX 3.0 wird ebenfalls unterstützt, so dass eine cache-kohärente Zusammenschaltung möglich ist.

 

AMD INSTINCT MI300 AMD INSTINCT MI300

 

Das Instinct MI300 APU-Paket ist ein technisches Wunderwerk für sich, bei dem fortschrittliche Chiplet-Techniken zum Einsatz kommen. AMD hat es geschafft, 3D-Stacking zu betreiben und hat neun 5-nm-Logik-Chips, die 3D-gestapelt auf vier 6-nm-Chips mit HBM gebaut wurden. All dies führt dazu, dass die Anzahl der Transistoren auf 146 Milliarden ansteigt, was die schiere Komplexität eines solchen Designs darstellt. Für die Leistungszahlen hat AMD einen Vergleich mit der Instinct MI250X GPU vorgelegt. Bei der rohen KI-Leistung bietet der MI300 eine 8-fache Verbesserung gegenüber dem MI250X, während die Leistung pro Watt auf eine 5-fache Steigerung „reduziert“ wird. Wir wissen zwar nicht, welche Benchmark-Anwendungen verwendet wurden, aber es ist wahrscheinlich, dass einige Standard-Benchmarks wie MLPerf verwendet wurden. Für die Verfügbarkeit peilt AMD Ende 2023 an, wenn der Exascale-Supercomputer „El Capitan“ mit diesen Instinct MI300 APU-Beschleunigern auf den Markt kommen wird. Die Preise sind noch nicht bekannt und werden erst bei der Markteinführung für Unternehmenskunden bekannt gegeben.

 

Quelle: AMD Shows Instinct MI300 Exascale APU with 146 Billion Transistors | TechPowerUp

Kategorien
Der Tag im Überblick: Alle Meldungen

AMD Radeon RX 7900 XTX an der Spitze des RDNA3-Kaders?

AMD bringt Berichten zufolge die Markenerweiterung „XTX“ zurück zu den Haupt-Marketing-Namen seiner kommenden Radeon RX 7000-Serien SKUs. Bisher hatte das Unternehmen die Bezeichnung „XTX“ für den internen Gebrauch reserviert, um SKUs zu bezeichnen, die die gesamte verfügbare Hardware auf einem bestimmten Silizium ausreizen. Mit der RX 7000-Serie wird die RDNA3-Grafikarchitektur der nächsten Generation eingeführt und das Chiplet-Gehäusedesign des Unternehmens in den Client-Grafikbereich eingeführt. Der „Navi 31“-Grafikprozessor der nächsten Generation wird wahrscheinlich der erste seiner Art sein: Multi-Chip-Modul (MCM)-Grafikprozessoren sind zwar nicht neu, aber dies wäre das erste Mal, dass mehrere Logikchips in einem einzigen Gehäuse für Client-Grafikprozessoren untergebracht werden. AMD hat bereits viel Erfahrung mit MCM-Grafikprozessoren, aber dabei handelt es sich um einzelne Logikchips, die von Speicherstacks umgeben sind. „Navi 31“ verwendet mehrere Logikchips auf einem Gehäuse, das dann wie jede andere Client-GPU mit herkömmlichen diskreten GDDR6-Speicherbausteinen verdrahtet ist.

Gerüchten zufolge verfügt die Radeon RX 7900 XTX über 12.288 Stream-Prozessoren, wahrscheinlich auf zwei Logik-Kacheln verteilt, die die SIMD-Komponenten enthalten. Gerüchten zufolge werden diese Kacheln auf dem TSMC N5 (5 nm EUV) Foundry-Prozess hergestellt. Die Display CoreNext (DCN)- und Video CoreNext (VCN)-Komponenten sowie die GDDR6-Speicher-Controller werden auf separaten Chiplets gebaut, die wahrscheinlich auf TSMC N6 (6 nm) gefertigt werden. Der „Navi 31“ hat eine 384-Bit breite Speicherschnittstelle. Es handelt sich um 384-Bit und nicht um „2x 192-Bit“, weil die Logikkacheln keine eigenen Speicherschnittstellen haben, sondern auf Speichercontroller-Kacheln angewiesen sind, die von den beiden Logikkacheln gemeinsam genutzt werden, ähnlich wie eine Dual-Channel-DDR4-Speicherschnittstelle, die von den beiden 8-Core-CPU-Chiplets eines Ryzen 5950X-Prozessors gemeinsam genutzt wird.

 

AMD Radeon RX 7900 XTX

 

Die RX 7900 XTX verfügt über 24 GB GDDR6-Speicher über eine 384 Bit breite Speicherschnittstelle. Dieser Speicher läuft mit einer Geschwindigkeit von 20 Gbps, was eine rohe Speicherbandbreite von 960 GB/s bedeutet. Es wird erwartet, dass AMD auch große On-Die-Caches einsetzt, die es Infinity Cache nennt, um das Speicher-Subsystem der GPU weiter zu optimieren. Der interessanteste Aspekt dieses Gerüchts ist der typische Leistungswert der Karte von 420 W. Technisch gesehen ist dies in der gleichen Liga wie der 450 W typische Grafikleistungswert der GeForce RTX 4090. Seit der Ankündigung der Ryzen 7000er-Desktop-Prozessoren Anfang des Jahres wird spekuliert, dass AMD bei den Radeon RX 7000er-GPUs auf den 12+4-poligen ATX 12VHPWR-Stromanschluss verzichten wird und das Referenzdesign-Board wahrscheinlich bis zu drei herkömmliche 8-polige PCIe-Stromanschlüsse hat. Für eine RTX 4090 müssen Sie auf jeden Fall vier 8-polige Anschlüsse erübrigen.

AMDs zweitbeste SKU, die auf dem „Navi 31“ basiert, wird voraussichtlich die RX 7900 XT sein, mit weniger Stream-Prozessoren – wahrscheinlich 10.752. Die Speichergröße wird auf 20 GB reduziert und die Speicherschnittstelle auf 320 Bit verengt, was bei einer Speichergeschwindigkeit von 20 Gbit/s eine Bandbreite von 800 GB/s ergibt. Dem Trend folgend, dass AMDs zweitgrößter Grafikprozessor nur halb so viele Stream-Prozessoren hat wie der größte (z. B. hat der „Navi 22“ 2.560 gegenüber den 5.120 des „Navi 21“), wird der „Navi 32“-Chip wahrscheinlich eine dieser 6.144-SP-Logikkacheln und eine schmalere Speicherschnittstelle haben.

 

Quelle: AMD Radeon RX 7900 XTX to Lead the RDNA3 Pack? | TechPowerUp

Kategorien
Der Tag im Überblick: Alle Meldungen

Intel „Meteor Lake“ 2P+8E CPU abgebildet und kommentiert

Le Comptoir du Hardware hat einen Die-Shot einer 2P+8E-Core-Variante der „Meteor Lake“-CPU geknipst, worauf hin ein Interessanter Kommentar hinterlassen wurde. „Meteor Lake“ wird der erste Prozessor von Intel sein, der die IDM 2.0-Strategie des Unternehmens voll und ganz umsetzt. Der Prozessor ist ein Multi-Chip-Modul aus verschiedenen Kacheln (Chiplets), die jeweils eine bestimmte Funktion haben und auf einem Chip sitzen, der auf einem für diese Funktion am besten geeigneten Silizium-Fertigungsknoten hergestellt wird. Wenn die Chipdesigner von Intel beispielsweise berechnen, dass die iGPU die stromhungrigste Komponente des Prozessors sein wird, gefolgt von den CPU-Kernen, wird die Grafikkachel in einem fortschrittlicheren Prozess gefertigt als die Rechenkachel. Intels „Meteor Lake“- und „Arrow Lake“-Prozessoren werden Chiplets implementieren, die auf den Fertigungsknoten Intel 4, TSMC N3 und Intel 20A hergestellt werden, die jeweils einzigartige Leistungs- und Transistor-Dichte-Eigenschaften aufweisen.

 

Intel Meteor Lake Die

 

Die 2P+8E (2 Performance Cores + 8 Efficiency Cores) Compute Tile ist eine von vielen Varianten von Compute Tiles, die Intel für die verschiedenen SKUs der nächsten Generation der mobilen Core-Prozessoren entwickeln wird. Der Chip ist so beschriftet, dass die beiden großen „Redwood Cove“-P-Kerne und ihre Cache-Slices etwa 35 % der Chipfläche einnehmen, während die beiden „Crestmount“-E-Kern-Cluster (mit jeweils 4 E-Kernen) und ihre Cache-Slices die Hälfte. Die beiden P-Kerne und die beiden E-Kern-Cluster sind über einen Ringbus miteinander verbunden und teilen sich einen L3-Cache. Die Größe der einzelnen L3-Cache-Slices beträgt entweder 2,5 MB oder 3 MB. Bei 2,5 MB beträgt der gesamte L3-Cache 10 MB, bei 3 MB sind es 12 MB. Wie bei allen früheren Generationen ist der L3-Cache für alle CPU-Kerne in der Rechenkachel voll zugänglich.

Jeder „Redwood Cove“ P-Kern verfügt über 2 MB dedizierten L2-Cache, eine Verbesserung gegenüber den 1,25 MB der „Golden Cove“ P-Kerne. Intel wird mehrere Upgrades an den Kernen vornehmen, um die IPC gegenüber „Golden Cove“ zu erhöhen. In jedem „Crestmont“-E-Core-Cluster teilen sich vier „Crestmont“-E-Cores einen 4 MB großen L2-Cache – doppelt so viel wie die 2 MB in den „Gracemont“-E-Core-Clustern der „Alder Lake“-Prozessoren. Diese Kerne werden einen höheren IPC aufweisen und wahrscheinlich in der Lage sein, höhere Taktraten aufrechtzuerhalten; außerdem profitieren sie von dem größeren L2-Cache.

Die CPU-Kerne und der Last-Level-Cache sind die einzigen identifizierbaren Komponenten auf dem Compute Die. Der Rest könnte eine Uncore-Komponente mit eingeschränkter Funktion sein, die die verschiedenen Kacheln miteinander verbindet.

 

Quelle: Intel „Meteor Lake“ 2P+8E Silicon Annotated | TechPowerUp

Kategorien
Der Tag im Überblick: Alle Meldungen

Intel „Meteor Lake“ und „Arrow Lake“ verwenden GPU Chiplets

Intels kommende „Meteor Lake“ und „Arrow Lake“ Client-Mobilprozessoren führen eine interessante Wendung des Chiplet-Konzepts ein. Früher in vage aussehenden IP-Blöcken dargestellt, werfen neue künstlerische Eindrücke des Chips, die von Intel veröffentlicht wurden, Licht auf einen 3-Die-Ansatz, der dem Ryzen „Vermeer“ MCM nicht unähnlich ist. Intels Design hat jedoch einen großen Unterschied und das ist die integrierte Grafik. Intels MCM verwendet einen GPU-Die, der neben dem CPU-Core-Die und dem I/O-Die (SoC) sitzt. Intel bezeichnet seine Chiplets gerne als „Kacheln“ und so wollen wir es auch halten.

 

 

Die Grafikkachel, die CPU-Kachel und die SoC- oder E/A-Kachel werden auf drei verschiedenen Silizium-Fertigungsprozessknoten aufgebaut, je nachdem, inwieweit der neuere Prozessknoten benötigt wird. Die verwendeten Knoten sind Intel 4, Intel 20A (Eigenschaften von 2 nm) und der externe TSMC N3 (3 nm) Knoten. Zu diesem Zeitpunkt wissen wir nicht, welche Kachel was bekommt. Wie es aussieht, verfügt die CPU-Kachel über eine hybride CPU-Kernarchitektur, die aus „Redwood Cove“ P-Kernen und „Crestmont“ E-Kern-Clustern besteht.

 

 


Die Grafikkachel enthält eine iGPU, die auf der Xe-LP-Grafikarchitektur basiert, aber einen fortschrittlichen Knoten nutzt, um die Anzahl der Ausführungseinheiten (EU) deutlich auf 352 zu erhöhen und möglicherweise den Grafiktakt zu steigern. Die SoC- und I/O-Kachel enthält den Plattform-Sicherheitsprozessor, die integrierte Northbridge, die Speicher-Controller, den PCI-Express-Root-Komplex und die verschiedenen Plattform-E/A.

Intel bereitet „Meteor Lake“ für eine Markteinführung im Jahr 2023 vor, wobei die Entwicklung im Jahr 2022 abgeschlossen sein soll, obwohl die Massenproduktion bereits im nächsten Jahr beginnen könnte.

 

 

 

Quelle: Intel „Meteor Lake“ and „Arrow Lake“ Use GPU Chiplets | TechPowerUp

Kategorien
Der Tag im Überblick: Alle Meldungen

AMD bereitet 16-Core „Zen 4“ CCDs exklusiv für das Client-Segment vor

AMD hat bereits bekannt gegeben, dass die CPU-Kernzahl seiner EPYC-Prozessoren „Genua“ und „Bergamo“ 96 bzw. 128 betragen wird. Diese Kernzahl wurde vermutlich durch das größere Glasfasersubstrat des SP5-CPU-Sockels der nächsten Generation ermöglicht, so dass AMD mehr 8-Kern-„Zen 4“-Chiplets, sogenannte CPU Complex Dies (CCDs), einsetzen kann. Bisher hat AMD den Chiplet als gemeinsame Komponente zwischen seinen EPYC Enterprise- und Ryzen Desktop-Prozessoren verwendet, um die Anzahl der CPU-Kerne zu unterscheiden.

Eine faszinierende Theorie, die in der Gerüchteküche aufgetaucht ist, deutet darauf hin, dass das Unternehmen 5 nm (TSMC N5) nutzen könnte, um größere CCDs mit bis zu 16 „Zen 4“-CPU-Kernen zu entwickeln. Die Hälfte dieser Kerne ist auf ein viel niedrigeres Energiebudget begrenzt, was sie im Wesentlichen zu Effizienz-Kernen macht. Dieses Konzept scheint AMD von seinen mobilen Prozessoren der 15-Watt-Klasse zu übernehmen, bei denen die CPU-Kerne mit einem aggressiven Energiemanagement arbeiten. Diese Kerne liefern immer noch ein vernünftiges Maß an Leistung und sind funktional identisch mit denen von 105-W-Desktop-Prozessoren mit einem entspannten Energiebudget.

 

 

Da die „fetten“ und „schlanken“ Kerne funktional identisch sind, muss AMD keine komplexe Middleware wie den Intel Thread Director entwickeln und kann sich mit Optimierungen auf Betriebssystemebene begnügen, die es gemeinsam mit Microsoft oder der Linux-Gemeinschaft entwickeln kann, ähnlich wie bei älteren Versionen der „Zen“-Mikroarchitektur, die mehrere CCXs enthielten.

Die Theorie besagt auch, dass AMD auf der 3D Vertical Cache-Technologie aufbauen könnte. Der CCD der nächsten Generation könnte zwei Schichten aufweisen, die untere Schicht mit CPU-Kernen und ihren dedizierten L2-Caches und eine obere Schicht ausschließlich für einen 64 MB großen 3D Vertical Cache, der als gemeinsamer L3-Cache dient. Beim „Zen 3“-3DV-Cache-CCD befindet sich der 64-MB-SRAM oberhalb des Bereichs des CCD, in dem sich normalerweise der 32-MB-L3-Cache befindet, eine relativ kühlere Komponente als die CPU-Kerne. Beim neuen CCD könnte sich dieses SRAM über dem Bereich mit den Kernen mit niedriger TDP befinden, wodurch die „Leistungs“-Kerne mit hoher TDP an die Peripherie des Chips gedrängt werden, wobei das strukturelle Silizium die Wärme von diesen Kernen an die Oberfläche leitet.

Diese Theorie ist sehr weit hergeholt, aber sie ist plausibel, weil AMD keine beeindruckende Low-Power-CPU-Kernarchitektur hat, die mit „Gracemont“ konkurrieren könnte, und weil Intels „Raptor Lake“-Chips der nächsten Generation Gerüchten zufolge mehr E-Kern-Cluster enthalten werden, was den „i9-13900K“ zu einem Prozessor mit 24 Kernen machen würde, der AMD bei der Kernzahl übertrifft. Wenn wir pingelig sein sollten, würden wir darauf hinweisen, dass die Low-TDP-Kerne genauso viel wertvolle Chipfläche und Transistoranzahl benötigen wie die High-TDP-Kerne; und Chipgröße (d.h. Wafervolumen) ist heutzutage eine ziemlich knappe Ressource. Das werden wir in der zweiten Hälfte des Jahres 2022 herausfinden.

 

Quelle: AMD Readying 16-core „Zen 4“ CCDs Exclusively for the Client Segment with an Answer to Intel E-cores? | TechPowerUp

Kategorien
Der Tag im Überblick: Alle Meldungen

AMD patentiert Chiplet-basiertes GPU-Design mit aktiver Cache-Brücke

AMD hat am 1. April einen neuen Patentantrag veröffentlicht, der zu zeigen scheint, in welche Richtung sich das Chiplet-GPU-Design entwickelt. Das neue Patent ist eine Weiterentwicklung des vorherigen Patents von AMD, das lediglich eine passive Brücke zwischen den verschiedenen GPU-Chiplets und ihren Verarbeitungsressourcen vorsah.

Das neue Design interpretiert die aktive Brücke, die die Chiplets verbindet, als Last-Level-Cache. Es handelt sich im Wesentlichen um AMDs RDNA 2 Infinity Cache, obwohl er hier nicht nur als Cache verwendet wird (und das mit gutem Effekt, wenn man sich das Infinity Cache Design des RDNA 2 und dessen Leistungssteigerung vor Augen führt); er dient auch als aktive Verbindung zwischen den GPU Chiplets, die den Austausch und die Synchronisation von Informationen ermöglicht, wann und wie auch immer dies erforderlich ist. Dies ermöglicht auch, dass die Registry und der Cache als ein einheitlicher Block für Entwickler offengelegt werden können, wodurch sie entlastet werden, für ein System mit einem Drei-Wege-Cache-Design programmieren zu müssen. Natürlich gibt es auch hier, wie bei AMDs Zen-Chiplet-Designs, Ertragsvorteile und die Möglichkeit, die Leistung zu skalieren, ohne dass monolithische Designs mit hohem Stromverbrauch erforderlich sind. Die integrierte, aktive Cache-Brücke würde sicherlich auch bei der Reduzierung der Latenz und der Aufrechterhaltung der Chiplet Processing Coherency helfen.

 

       




Quelle: AMD Patents Chiplet-based GPU Design With Active Cache Bridge

Kategorien
Der Tag im Überblick: Alle Meldungen

AMD meldet Patent für Chiplet-Beschleuniger für maschinelles Lernen an, der mit GPU und Cache-Chips gekoppelt werden soll

AMD hat ein Patent eingereicht, in dem sie ein MLA-Chiplet-Design beschreiben, das mit einer GPU-Einheit und einer Cache-Einheit gepaart werden kann, um etwas zu schaffen, was AMD ein „APD“ (Accelerated Processing Device) nennt. Das Design würde es AMD ermöglichen, einen Chiplet-basierten Beschleuniger für maschinelles Lernen zu entwickeln, dessen einzige Funktion darin besteht, maschinelles Lernen zu beschleunigen – insbesondere die Matrixmultiplikation. Dies würde Fähigkeiten ermöglichen, die denen von NVIDIAs Tensor-Cores nicht unähnlich sind.

 


Dies könnte AMD eine modulare Möglichkeit geben, maschinelles Lernen durch die Einbeziehung eines solchen Chips zu mehreren ihrer Designs hinzuzufügen. Dies könnte AMDs Weg sein, eine Hardware-Beschleunigung einer DLSS-ähnlichen Funktion zu erreichen. Außerdem würden die Nachteile vermieden werden, die mit der Implementierung im GPU-Gehäuse selbst verbunden sind: Eine Vergrößerung der Gesamtfläche des Chips und damit höhere Kosten und geringere Erträge. Gleichzeitig ermöglicht diese Technologie AMD sie auch in anderen Produkten als GPU-Gehäusen einzusetzen. Das Patent beschreibt die Möglichkeit, verschiedene Fertigungstechnologien für das Chiplet-basierte Design zu verwenden – in Anlehnung an die I/O-Module in Ryzen-CPUs, die in einem 12-nm-Prozess gefertigt werden und nicht in dem 7-nm-Prozess, der für die Core-Chips verwendet wird. Das Patent beschreibt auch die Beschleunigung von Cache-Anfragen vom GPU-Die an das Cache-Chiplet und dessen sofortige Nutzung als tatsächlichen Cache oder als direkt adressierbaren Speicher.


Quelle: AMD Files Patent for Chiplet Machine Learning Accelerator to be Paired With GPU, Cache Chiplets

Kategorien
Allgemein Technologie

TSMC beginnt im Jahr 2020 mit der Massenproduktion von 5-nm-Chips

Laut Angaben von DigiTimes, wird TSMC im März 2020 mit der Massenproduktion seiner 5-nm-Nodes beginnen. Damit Unternehmen, die das 5-nm-PDK verwenden möchten, diese ihre Designs aufnehmen und in zukünftige Produkte integrieren können. Zwei Jahre nach dem 7-nm-Knoten, versucht TSMC mit der 5-nm Serienproduktion das Moores Gesetz wieder real werden zu lassen.

Der 5-nm-Knoten, welcher unter Verwendung der Extreme Ultra-Violet-Lithographie (auch als EUV bezeichnet) hergestellt wurde, soll vorhandene FinFET-Transistoren verwenden. Im Vergleich zum vorhandenen 7-nm-Knoten, bieten diese eine Verbesserungen im Bezug auf Geschwindigkeit, Leistung und Dichte. Die Geschwindigkeit soll um etwa 15% steigen, während sich die Dichte um bis zu 80% verbessern soll. Dies ist eine hervorragende Nachricht für alle. Eine spürbare Leistungsreduzierung ist ebenfalls vorhanden. Es ist jetzt möglich, den Stromverbrauch um etwa 30% zu senken und gleichzeitig die Geschwindigkeit und Dichte des neuen Knotens zu verbessern.

Quelle: Techpowerup, Digitimes

Die mobile Version verlassen