Kategorien
Der Tag im Überblick: Alle Meldungen

AMD „Zen 3+“ Mikroarchitektur mit 3D Vertical Cache Technologie

AMD-CEO Dr. Lisa Su hat in ihrer Computex 2021 Keynote detailliert beschrieben, was unter der „Zen 3+“ Mikroarchitektur zu verstehen ist. AMD hat zusammen mit TSMC eine neue Die-on-Die-3D-Stacking-Technologie entwickelt, bei der TSVs (Through-Silicon-Vias) und strukturelles Siliziumsubstrat verwendet werden, um einen 64-MB-SRAM über dem „Zen 3“-Cache zu platzieren, der als 3D Vertical Cache bezeichnet wird. Dieser Cache-Die sitzt direkt über dem Bereich, in dem sich der CCD-eigene 32 MB L3-Cache befindet, während der Höhenunterschied zwischen den beiden Dies durch strukturelles Silizium ausgeglichen wird. Zu diesem Zeitpunkt wissen wir nicht, wie die Cache-Hierarchie verändert wird, ob der 64 MB große Add-On-Cache an den On-Die-L3-Cache angrenzt oder ob es sich um einen zusätzlichen L4-Cache handelt. Damit springt die gesamte Cache-Menge des CCD auf 100 MB (4 MB L2-Caches + 32 MB L3-Cache + 64 MB 3D Vertical Cache).

AMD hat einige verblüffende Behauptungen über die Leistungsauswirkungen der 3D Vertical Cache Technologie aufgestellt. Es wird behauptet, dass sich die Spieleleistung um durchschnittlich 15 % verbessert, was an und für sich schon einem Leistungssprung einer ganzen Generation gleichkommt. Mit diesen Zuwächsen hofft AMD, den Rückstand der „Zen 3“-Mikroarchitektur gegenüber Intels „Rocket Lake-S“ bei der Spieleleistung aufzuholen. Die ersten Prozessoren, die die 3D-Vertical-Cache-Technologie implementieren, werden Ende 2021 eintreffen, was bedeutet, dass es sich dabei sehr gut um die Desktop-Prozessoren der Ryzen-6000-Serie handeln könnte, so dass die Ryzen-7000-Serie auf der 5-nm-„Zen 4“-Mikroarchitektur basiert und auf dem Weg zu einer Veröffentlichung im Jahr 2022 ist.
 
 
Wie AMD plant, diese aktualisierten Dies auf das Client-Ökosystem zu bringen, bleibt ein Geheimnis. Der Prototyp, den Dr. Su in ihrer Keynote zeigte, scheint eindeutig Sockel AM4 zu sein. Wenn der neue Sockel AM5 noch in diesem Jahr erscheinen soll, ist es sehr wahrscheinlich, dass diese „Zen 3 + 3D VC“ CCDs mit einem aktualisierten cIOD (Client I/O Die) gepaart werden, der DDR5-Speicher unterstützt.
 
 
 
 
 
Kategorien
Der Tag im Überblick: Alle Meldungen

GPU-Speicherlatenz auf AMDs RDNA 2 und NVIDIAs Ampere-Architektur getestet

Grafikkarten wurden im Laufe der Jahre so entwickelt, dass sie über mehrstufige Cache-Hierarchien verfügen. Diese Cache-Ebenen wurden entwickelt, um die Lücke zwischen Speicher und Rechenleistung zu schließen, ein wachsendes Problem, das die Leistung von GPUs in vielen Anwendungen lähmt. Verschiedene GPU-Anbieter, wie AMD und NVIDIA, haben je nach Architektur unterschiedliche Größen von Registerdateien, L1- und L2-Caches. Zum Beispiel beträgt die Größe des L2-Caches bei NVIDIAs A100-GPU 40 MB, was siebenmal größer ist als bei der vorherigen Generation V100. Das zeigt nur, wie sehr neue Anwendungen größere Cache-Größen erfordern, die immer größer werden, um die Bedürfnisse zu befriedigen.

Heute haben wir einen interessanten Bericht, der von Chips and Cheese kommt. Die Website hat sich entschieden, die GPU-Speicherlatenz der neuesten Kartengeneration zu messen – AMDs RDNA 2 und NVIDIAs Ampere. Durch die Verwendung von einfachen Pointer-Chasing-Tests in OpenCL, erhalten wir interessante Ergebnisse. Der Cache von RDNA 2 ist schnell und massiv. Im Vergleich zu Ampere ist die Cache-Latenz viel niedriger, während die VRAM-Latenz ungefähr gleich geblieben ist. NVIDIA verwendet ein zweistufiges Cache-System, bestehend aus L1 und L2, was eine eher langsame Lösung zu sein scheint. Die Daten, die vom SM von Ampere, der den L1-Cache enthält, zum äußeren L2 kommen, benötigen über 100 ns Latenzzeit.

 


AMD hingegen hat ein dreistufiges Cache-System. Es gibt L0-, L1- und L2-Cache-Ebenen, die das RDNA-2-Design ergänzen. Die Latenz zwischen L0 und L2 beträgt, selbst mit L1 dazwischen, nur 66 ns. Infinity Cache, bei dem es sich im Wesentlichen um einen L3-Cache handelt, fügt nur zusätzliche 20 ns an Latenz hinzu und ist damit im Vergleich zu NVIDIAs Cache-Lösungen immer noch schneller. NVIDIAs GA102 massiver Die scheint ein großes Problem für den L2-Cache darzustellen, um ihn zu umgehen und es werden viele Zyklen benötigt. Mehr über den Test können Sie hier lesen.


Quelle: GPU Memory Latency Tested on AMD’s RDNA 2 and NVIDIA’s Ampere Architecture

Kategorien
Der Tag im Überblick: Alle Meldungen

AMD meldet Patent für Chiplet-Beschleuniger für maschinelles Lernen an, der mit GPU und Cache-Chips gekoppelt werden soll

AMD hat ein Patent eingereicht, in dem sie ein MLA-Chiplet-Design beschreiben, das mit einer GPU-Einheit und einer Cache-Einheit gepaart werden kann, um etwas zu schaffen, was AMD ein „APD“ (Accelerated Processing Device) nennt. Das Design würde es AMD ermöglichen, einen Chiplet-basierten Beschleuniger für maschinelles Lernen zu entwickeln, dessen einzige Funktion darin besteht, maschinelles Lernen zu beschleunigen – insbesondere die Matrixmultiplikation. Dies würde Fähigkeiten ermöglichen, die denen von NVIDIAs Tensor-Cores nicht unähnlich sind.

 


Dies könnte AMD eine modulare Möglichkeit geben, maschinelles Lernen durch die Einbeziehung eines solchen Chips zu mehreren ihrer Designs hinzuzufügen. Dies könnte AMDs Weg sein, eine Hardware-Beschleunigung einer DLSS-ähnlichen Funktion zu erreichen. Außerdem würden die Nachteile vermieden werden, die mit der Implementierung im GPU-Gehäuse selbst verbunden sind: Eine Vergrößerung der Gesamtfläche des Chips und damit höhere Kosten und geringere Erträge. Gleichzeitig ermöglicht diese Technologie AMD sie auch in anderen Produkten als GPU-Gehäusen einzusetzen. Das Patent beschreibt die Möglichkeit, verschiedene Fertigungstechnologien für das Chiplet-basierte Design zu verwenden – in Anlehnung an die I/O-Module in Ryzen-CPUs, die in einem 12-nm-Prozess gefertigt werden und nicht in dem 7-nm-Prozess, der für die Core-Chips verwendet wird. Das Patent beschreibt auch die Beschleunigung von Cache-Anfragen vom GPU-Die an das Cache-Chiplet und dessen sofortige Nutzung als tatsächlichen Cache oder als direkt adressierbaren Speicher.


Quelle: AMD Files Patent for Chiplet Machine Learning Accelerator to be Paired With GPU, Cache Chiplets

Die mobile Version verlassen