CDNA 2 sur une carte PCIe

Avec GDC et GTC en cours cette semaine, c’est un grand moment pour les GPU de toutes sortes. Et aujourd’hui, AMD veut également se lancer dans le jeu, avec la sortie de la version PCIe de sa famille d’accélérateurs MI200, le MI210.

Dévoilé pour la première fois aux côtés des MI250 et MI250X en novembre, lorsqu’AMD a initialement lancé la famille Instinct MI200, le MI210 est le troisième et dernier membre de la dernière génération d’accélérateurs basés sur GPU d’AMD. Intégrant l’architecture CDNA 2 dans une carte PCIe, le MI210 est destiné aux clients qui recherchent les performances HPC et d’apprentissage automatique de la famille MI200, mais qui en ont besoin dans un facteur de forme standardisé pour les serveurs grand public. Dans l’ensemble, le MI200 est largement lancé aujourd’hui dans le cadre du déplacement par AMD de l’ensemble de la pile de produits MI200 vers une disponibilité générale pour les clients OEM.




























Accélérateurs AMD Instinct
MI250 MI210 MI100 MI50
Unités de calcul 2 × 104 104 120 60
Noyaux de matrice 2 x 416 416 480 APRÈS
Booster l’horloge 1700MHz 1700MHz 1502MHz 1725MHz
Vecteur FP64 45.3 TFLOPS 22.6 TFLOPS 11.5 TFLOPS 6.6 TFLOPS
Vecteur FP32 45.3 TFLOPS 22.6 TFLOPS 23.1 TFLOPS 13.3 TFLOPS
Matrice FP64 90,5 TFLOPS 45.3 TFLOPS 11.5 TFLOPS 6.6 TFLOPS
Matrice FP32 90,5 TFLOPS 45.3 TFLOPS 46.1 TFLOPS 13.3 TFLOPS
Matrice FP16 362 TFLOPS 181 TFLOPS 184.6 TFLOPS 26,5 TFLOPS
Matrice INT8 362.1 HAUTS 181 TOPS 184.6 HAUTS APRÈS
Horloge mémoire 3,2 Gbit/s HBM2E 3,2 Gbit/s HBM2E 2,4 Gbit/s HBM2 2,0 Gbit/s GDDR6
Largeur du bus mémoire 8192 bits 4096 bits 4096 bits 4096 bits
Bande passante mémoire 3,2 To/s 1,6 To/s 1,23 TBps 1,02 To/s
VRAM 128 Go 64 Go 32 Go 16 GB
CCE Oui (complet) Oui (complet) Oui (complet) Oui (complet)
Liens de tissu infini 6 3 3 APRÈS
Cohérence CPU Non APRÈS APRÈS APRÈS
PDT 560W 300W 300W 300W
Processus de fabrication TSMC N6 TSMC N6 TSMC 7nm TSMC 7nm
Nombre de transistors 2 x 29.1B 29.1B 25.6B 13.2B
Architecture ADNC 2 ADNC 2 ADNC (1) Véga
GPU 2 x CDNA 2 GCD
“Aldébaran”
CDNA 2 GCD
“Aldébaran”
ADNC 1 Véga 20
Facteur de forme OAM PCIe (4.0) PCIe (4.0) PCIe (4.0)
Date de lancement 11/2021 03/2022 11/2020 11/2018

En commençant par un aperçu des spécifications haut de gamme, le MI210 est une variante intéressante des accélérateurs MI250 existants. Alors que ces deux parties étaient basées sur une paire de matrices Aldebaran (CDNA 2) dans une configuration MCM sur un seul boîtier, pour le MI210, AMD réduit tout à une seule matrice et au matériel connexe. Avec MI250 (X) nécessitant 560 W dans le facteur de forme OAM, AMD devait essentiellement réduire de moitié le matériel de toute façon pour réduire les choses à 300 W pour une carte PCIe. Ils l’ont donc fait en abandonnant le deuxième dé sur l’emballage.

Le résultat net est que le MI210 est essentiellement la moitié d’un MI250, à la fois en ce qui concerne le matériel physique et les performances attendues. Le CNDA 2 Graphics Compute Die comporte les mêmes 104 CU activés que sur le MI250, avec la puce fonctionnant à la même vitesse d’horloge maximale de 1,7 GHz. Hormis l’évolutivité de la charge de travail, les performances du MI210 sont, à toutes fins utiles, la moitié d’un MI250.

Cette réduction de moitié vaut également pour la mémoire. Comme le MI250 a associé 64 Go de mémoire HBM2e à chaque GCD – pour un total de 128 Go de mémoire – le MI210 ramène cela à 64 Go pour le seul GCD. AMD utilise ici la même mémoire HBM2e à 3,2 GHz, de sorte que la bande passante mémoire globale de la puce est de 1,6 To / seconde.

En ce qui concerne les performances, l’utilisation d’un seul die Aldebaran fait des comparaisons étranges avec la carte PCIe de la génération précédente d’AMD, la Radeon Instinct MI100. Bien que cadencé plus haut, le nombre légèrement réduit de CU par rapport au MI100 signifie que pour certaines charges de travail, l’ancien accélérateur est, du moins sur le papier, un peu plus rapide. En pratique, le MI210 a plus de mémoire et plus de bande passante mémoire, donc il devrait toujours avoir l’avantage des performances dans le monde réel, mais ça va être proche. Dans les charges de travail qui ne peuvent pas tirer parti des améliorations architecturales de CDNA 2, le MI210 ne sera pas un pas en avant par rapport au MI100.

Tout cela souligne la similitude globale entre les architectures CDNA (1) et CDNA 2, et la manière dont les développeurs doivent utiliser les nouvelles fonctionnalités de CDNA 2 pour tirer le meilleur parti du matériel. Là où CDNA 2 brille par rapport à CDNA (1), c’est avec les charges de travail vectorielles FP64, les charges de travail matricielles FP64 et les charges de travail vectorielles FP32 emballées. Les trois cas d’utilisation bénéficient du fait qu’AMD double la largeur de leurs ALU à une largeur complète de 64 bits, permettant aux opérations FP64 d’être traitées à pleine vitesse. Pendant ce temps, lorsque les opérations FP32 sont regroupées pour remplir complètement l’ALU plus large, elles peuvent également bénéficier des nouvelles ALU.

Mais, comme nous l’avons noté dans notre discussion initiale sur le MI250, comme tous les formats d’instructions compressés, le FP32 compressé n’est pas gratuit. Les développeurs et les bibliothèques doivent être codés pour en tirer parti ; les opérandes condensés doivent être adjacents et alignés sur des registres pairs. Pour les logiciels écrits spécifiquement pour l’architecture (par exemple Frontier), cela est assez facile à faire, mais des logiciels plus portables devront être mis à jour pour en tenir compte. Et c’est pour cette raison qu’AMD annonce toujours judicieusement ses performances vectorielles FP32 à plein débit (22,6 TFLOPS), plutôt que de supposer l’utilisation d’instructions compressées.

Le lancement du MI210 marque également l’introduction des cœurs de matrice améliorés d’AMD dans une carte PCIe. Pour CDNA 2, ils ont été étendus pour permettre un fonctionnement matriciel FP64 à pleine vitesse, les amenant au même taux de 256 FLOPS que les opérations matricielles FP32, une amélioration de 4x par rapport à l’ancien taux de 64 FLOPS / horloge / CU.













Taux de débit du GPU AMD
(FLOPS / horloge / CU)
ADNC 2 ADNC (1) Véga 20
Vecteur FP64 128 64 64
Vecteur FP32 128 128 128
Vecteur FP32 emballé 256 APRÈS APRÈS
Matrice FP64 256 64 64
Matrice FP32 256 256 128
Matrice FP16 1024 1024 256
Matrice BF16 1024 512 APRÈS
Matrice INT8 1024 1024 APRÈS

Ensuite, le format PCIe MI210 obtient également un trio de liens Infinity Fabric 3.0 sur le dessus de la carte, tout comme le MI100. Cela permet de relier une carte MI210 à une ou trois autres cartes, formant un cluster de cartes à 2 ou 4 voies. Pendant ce temps, le backhaul vers le CPU ou tout autre périphérique PCIe est fourni via une connexion PCIe 4.0 x16, qui est alimentée par l’une des liaisons IF flexibles du GCD.

Comme mentionné précédemment, le TDP du MI210 est fixé à 300 W, le même niveau que les MI100 et MI50 précédents – et essentiellement la limite pour une carte serveur PCIe. Comme la plupart des accélérateurs de serveur, il s’agit d’une conception de carte à double emplacement entièrement passive, s’appuyant sur un flux d’air important du châssis du serveur pour garder les choses au frais. Le GPU lui-même est alimenté par une combinaison de l’emplacement PCIe et d’un connecteur EPS12V à 8 broches à l’arrière de la carte.

Sinon, malgré le changement de facteurs de forme, AMD vise à peu près le même marché avec le MI210 qu’avec le MI250 (X). C’est-à-dire les utilisateurs HPC qui ont spécifiquement besoin d’un accélérateur FP64 rapide. Grâce à son héritage en tant que puce conçue avant tout pour les supercalculateurs (c’est-à-dire Frontier), la famille MI200 est actuellement la seule dans ses performances vectorielles FP64 et matricielles FP64, car les GPU concurrents se sont plutôt concentrés sur l’amélioration des performances à la précision inférieure utilisée dans la plupart des industries. / charges de travail non scientifiques. Bien que même à des précisions inférieures, la famille MI200 n’est pas à négliger avec son taux de 1024 FLOPS par CU sur les opérations matricielles FP16 et BF16.

En conclusion, le MI210 devrait être disponible aujourd’hui auprès des partenaires serveurs habituels d’AMD, notamment ASUS, Dell, Supermicro, HPE et Lenovo. Ces fournisseurs proposent désormais également des serveurs basés sur les accélérateurs MI250 (X) d’AMD, de sorte que les clients plus traditionnels d’AMD auront accès à des systèmes basés sur la gamme complète d’accélérateurs MI200 d’AMD.

Leave a Comment