Les contenus liés au tag Volta

Afficher sous forme de : Titre | Flux Filtrer avec un second tag : AMD; GeForce; GTC; GV100; Nvidia; NVLink; Pascal; Tegra; Titan V; TSMC;

Nvidia dévoile le GV100: 15 Tflops, 900 Go/s

Publié le 10/05/2017 à 22:31 par Damien Triolet

Nvidia profite de sa GPU Technology Conference pour dévoiler quelques détails sur le GV100, le premier GPU de la génération Volta qui sera dédié au monde du calcul et en particulier de l'intelligence artificielle.

Comme c'est à peu près le cas chaque année, le CEO de Nvidia Jen Hsun Huang vient de profiter de la GTC pour dévoiler les grandes lignes du premier GPU de sa future génération Volta. Ce sera un monstre clairement orienté vers l'intelligence artificielle, un débouché qui monte en puissance pour les GPU Nvidia.

Le GV100 est le successeur direct du GP100 et reprend un format similaire : il s'agit d'une puce énorme placée sur un interposer avec 4 modules HBM2. Grossièrement c'est la même chose en mieux : plus gros et plus évolué.

Plus gros tout d'abord avec un GV100 qui profite de la gravure en 12 nm FFN de TSMC (personnalisé pour Nvidia) pour passer à 21.1 milliards de transistors, plus de 30% de plus que les 15.3 milliards du GP100. Malgré le passage au 12 nm, la densité ne progresse presque pas et le GV100 est énorme avec 815 mm² contre 610 mm² pour le GP100. Le 12 nm permet ici avant tout de pouvoir monter en puissance à consommation similaire.

Tout comme le GP100, le GV100 utilise des "demi SM" par rapport aux GPU grand public. Leur nombre passe de 60 à 84, ce qui représente 5376 unités de calcul. Ils restent répartis dans 6 blocs principaux, les GPC, ce qui laisse penser que Nvidia a tout misé sur un gain de puissance de calcul, sans trop toucher au débit de triangles ou de pixels qui étaient déjà à un niveau très élevé sur GP100.

Comme sur le GP100, ces SM sont capables de traiter différents niveau de précision : FP16 (x2), FP32 et FP64 (/2). Par ailleurs, Nvidia a ajouté quelques instructions spécifiques au deep learning et y fait référence en tant que tensor cores. Ils permettent aux algorithmes qui y feront appel de doubler la mise par rapport aux instructions 8-bits (produit scalaire avec accumulation) des GPU Pascal (sauf GP100) et du futur Vega d'AMD. A voir évidemment dans quelle mesure les différents algorithmes de deep learning pourront profiter de ces nouvelles instructions.

Nvidia en a profité pour améliorer le sous-système mémoire qui sera plus flexible pour demander moins d'efforts d'optimisation de la part des développeurs. Le cache L2 passe de 4 à 6 Mo et de la HBM2 Samsung plus rapide est exploitée mais qui restera au départ limitée à 4 Go par module soit 16 Go au total. Par ailleurs, le GV100 profite de 6 liens NV-Link de seconde génération (25 Go/s dans chaque direction) pour offrir une interface qui peut monter à 300 Go/s.

Le premier accélérateur qui profitera du GV100 est comme nous pouvions nous y attendre le Tesla GV100 qui sera initialement proposé dans un format de type mezzanine. Un tel module sera bien entendu gourmand mais Nvidia parle d'une enveloppe thermique maximale qui reste à 300W. Par ailleurs, deux modes énergétique seront proposé : Maximum Performance et Maximum Efficiency. Le premier autorise le GV100 à profiter de toute son enveloppe de 300W alors que le second limite probablement la tension maximale pour maintenir le GPU au meilleur rendement possible, ce qui a évidemment du sens pour de très gros serveurs.

Sur le Tesla GV100, le GPU sera amputé de quelques unités de calcul, pour faciliter la production seuls 80 des 84 SM seront actifs. Voici ce que cela donne :

Le Tesla GV100 augmente la puissance brute de 40% par rapport au Tesla GP100, mais ses différentes optimisations feraient progresser les performances en pratique de +/- 60% dans le cadre du deep learning selon Nvidia. La bande passante mémoire progresse un peu moins avec "seulement" +25%, mais le cache L2 plus important et diverses améliorations compensent quelque peu cela.

Le GV100 devrait devancer assez facilement le Vega 10 d'AMD, mais ce dernier devrait être commercialisé en version Radeon Instinct à un tarif nettement moindre que le Tesla GV100 et en principe plus tôt. Nvidia parle de son côté du troisième trimestre et de 150.000$ pour les premiers serveurs DGX-1 équipés en GV100 et de la fin de l'année pour les accélérateurs au format PCI Express. Nvidia proposera évidemment d'ici-là des versions mises à jour de ses logiciels, compilateurs et autres librairies dédiées au deep learning.

SK Hynix annonce sa GDDR6 pour GPU en 2018

Publié le 24/04/2017 à 17:14 par Marc Prieur

SK Hynix est le premier à annoncer sa GDDR6, alors même que le standard n'a pas encore été annoncé par le JEDEC. Gravée en 2x nm (sans plus de précision) et d'une capacité de 1 Go par puce, elle offre un débit de 16 Gbps. Interfacée en 384-bit, elle offre ainsi un débit de 768 Go/s soit 45% de mieux que la GDDR5X qui plafonne à l'heure actuelle à 11 Gbps.

SK Hynix précise qu'il a collaboré avec un fabricant de GPU sur cette puce qui sera produite en volume pour un lancement de GPU prévu pour début 2018. S'agit-il d'une déclinaison de Nvidia Volta avec un bus 384-bit habituel ces derniers temps chez Nvidia ou d'une d'AMD Navi, Hynix ayant déjà collaboré avec AMD par le passé pour la mise au point de la HBM ? L'avenir nous le dira !

Nvidia annonce le SoC Xavier avec GPU Volta

Tags : Nvidia; Tegra; Volta; Xavier;
Publié le 28/09/2016 à 15:36 par Damien Triolet

Depuis un peu plus de deux ans, Nvidia s'était abstenu de présenter une roadmap pour ses SoC. Il faut dire que ses plans à ce niveau ont changé à plusieurs reprises, notamment avec l'abandon du marché du smartphone, trop concurrentiel, trop coûteux au niveau de la certification pour les différents réseaux et dans lequel il était difficile de réellement se démarquer en respectant une enveloppe thermique très stricte.

Progressivement, Nvidia a repositionné ses SoC Tegra sur d'autres marchés pour lesquels son expertise peut plus facilement apporter une plus-value. C'est le cas pour la conduite autonome ou pour tout ce qui concerne l'AI et plus précisément l'inférence, soit l'exploitation d'un réseau de neurones artificiels (deep learning). Pour ce type d'utilisation d'un SoC, il est aujourd'hui crucial d'apporter un maximum de performances dans une enveloppe thermique raisonnable mais pas aussi stricte que dans le monde mobile. Par ailleurs, ses gros GPU se sont retrouvés, un peu par hasard au départ, au coeur de l'évolution du deep learning. Une expérience qui a permis à Nvidia de construire un écosystème logiciel efficace et d'apporter de petites touches à ses architectures CPU et GPU qui peuvent avoir un impact crucial sur les performances. Alors que la concurrence s'annonce extrêmement rude pour le deep learning voué à se répandre dans de nombreux secteurs, que ce soit au niveau de l'entraînement des réseaux que de l'inférence, Nvidia conserve donc une bonne carte à jouer à condition de soutenir une cadence élevée dans ses développements.

Il y a tout juste un mois, Nvidia dévoilait ainsi quelques détails sur son SoC Parker fabriqué en 16nm. Celui-ci va succéder d'ici quelques temps aux SoC Logan (Tegra K1) et Erista (Tegra X1) avec une claire orientation pour le marché automobile. Il est pour rappel équipé d'une partie CPU composée de 2 coeurs maison Denver 2 et de 4 coeurs Cortex-A57 associés à un GPU Pascal de 256 unités de calcul (2 SM), le tout étant interfacé en 128-bit LPDDR4.

Pour le marché automobile, il supporte notamment des instructions spécifiques au deep learning (pour booster certaines opérations en INT8 / FP16), la mémoire ECC, la virtualisation hardware, 12 caméras et une connectique adaptée. La première utilisation de Parker se fera dans la plateforme Drive PX 2 dérivée en deux versions. L'une se contente d'un seul SoC Parker et est dédiée aux aides à la conduite simples, l'autre associe 2 SoC Parker et 2 GPU GP106 pour une conduite semi-autonome alors que Nvidia parle d'associer plusieurs de ces plateformes pour une conduite totalement autonome. De quoi démontrer au passage le besoin de plateformes plus performantes encore.

C'est là qu'intervient le successeur de Parker dont le nom de code est Xavier, en référence au super-héros. Dévoilé à l'occasion de la première édition de la GTC Europe qui se tient actuellement à Amsterdam, Xavier sera basé sur 8 coeurs ARM custom (Denver 3 ?) et un GPU Volta de 512 unités de calcul avec un moteur vidéo capable de travailler en 8K. Toujours fabriqué en 16nm, il embarquera pas moins de 7 milliards de transistors, ce qui est énorme pour un SoC. Nvidia vise une puissance de calcul de pas moins de 20 téraops en deep learning pour une enveloppe thermique de 20W.

De quoi potentiellement remplacer une plateforme Drive PX 2 complète par un simple SoC (ce que Nvidia illustre par la version simple de Drive PX 2 pour l'aide à la conduite, il n'y a actuellement aucune vraie photo de Xavier ou de la plateforme qui l'accueille). Reste bien entendu qu'il y a une astuce et que cette valeur de 20 téraops est un maximum obtenu sur des instructions spécifiques. Avec 512 unités de calcul cadencées par exemple à 2 GHz, Xavier affichera une puissance de +/- 2 téraflops en FP32 (contre 8 téraflops pour Drive PX 2). Se contenter des instructions INT8 de Pascal ne permettrait de monter qu'à 8 téraops en deep learning (contre 24 téraops pour Drive PX 2).

En annonçant 20 téraops, Nvidia dévoile donc que l'architecture GPU Volta apportera de nouvelles évolutions qui donneront un coup de boost significatif à certains algorithmes liés au deep learning et de toute évidence à l'inférence. Précision de calcul inférieure à 8-bit ? De nouvelles instructions spécifiques équivalentes à plus d'ops ? Il faudra encore patienter quelques temps avant d'en savoir plus. Nvidia prévoit un premier échantillonnage de Xavier fin 2017 pour une disponibilité commerciale en 2018. D'ici-là les premiers GPU Volta devraient avoir été lancés.

IBM Power9 et Nvidia Volta : 100+ petaFlops en 2017

Publié le 02/12/2014 à 17:15 par Damien Triolet

Le département de l'énergie américain a tranché il y a quelques jours : les prochains supercalculateurs qu'il finance seront mis en place par IBM sur base d'une plateforme OpenPower équipée de ses futurs CPU Power9 et des GPU Volta de Nvidia associés via l'interconnexion NVLink.


Cinq années, cela semble être la durée de vie des supercalculateurs pour lesquels le département de l'énergie américain (DoE) met la main à la poche. Délivré mi-2012 sur base d'une plateforme IBM Blue Gene/Q et de CPU Power8 à l'administration nationale pour la sécurité nucléaire, Sequoia et ses 20 petaFlops (17 petaFlops mesurés) prendra sa retraite en 2017. Il en ira de même pour le supercalculateur Titan exploité par le laboratoire national d'Oak Ridge qui affiche 27 petaFlops au compteur (17.5 petaFlops mesurés). Pour rappel, ce dernier est basé sur une plateforme Cray XK7 équipée d'Opteron 6274 et d'accélérateurs Tesla K20X.

La course à la puissance ne s'arrête jamais, d'autant plus que la Chine a volé la première place du podium aux Etats-Unis avec Tianhe-2, une plateforme 100% Intel qui affiche 55 petaFlops au compteur (34 petaFlops mesurés) à travers ses Xeon E5-2692 et ses Xeon Phi 31S1P. Si ce dernier est plus performant, à noter cependant que sa consommation explose pour atteindre près de 18 mégawatts là où les actuels supercalculateurs américains se contentent de 8 à 9 mégawatts.


Ce détail est en fait très important. Nul doute en effet que le cahier des charges du DoE pour ses futurs supercalculateurs, baptisés Sierra et Summit, exigeait de ne pas trop augmenter le budget énergétique de ses futures installations, en plus bien entendu de pousser la puissance de calcul vers le haut en attendant l'arrivée des systèmes exaFlops, prévus pour la génération suivante.

Pour les deux systèmes, une même plateforme de plus de 100 petaFlops a cette fois été retenue et c'est IBM qui a reçu ce contrat de 325 millions de $. La plateforme proposée par IBM a pour particularité de s'efforcer de rapprocher les données de la puissance de calcul pour réduire les déplacements coûteux tant en performances qu'en énergie. Un argument important à l'heure où la quantité de données à traiter explose.

Alors que l'actuel Sequoia était de type 100% CPU IBM, le DoE a favorisé une solution hétérogène, étant visiblement satisfait des résultats du Titan, et a renouvelé sa confiance dans les GPU Nvidia et l'écosystème CUDA. Une étape cruciale pour Nvidia qui voit donc sa place de fournisseur de puissance de calcul confirmée sur un marché dans lequel il est difficile de percer.


Les raisons du choix du couple IBM/Nvidia sont bien entendu nombreuses et ne sont pas dues au hasard. Les deux acteurs travaillent ensemble depuis quelques temps déjà, Nvidia ayant annoncé en mars dernier une interconnexion NVLink développée en partenariat avec IBM. Pour rappel, celle-ci permet de s'affranchir du PCI Express et de ses limitations pour proposer une voie de communication plus performante entre les GPU mais également entre les GPU et les CPU. Cela implique des changements importants, notamment au niveau du format physique qui passera à un socket de type mezzanine.

Ce support de NVLink est une évolution logique du côté d'IBM qui propose déjà sur ses CPU Power8 une interface CAPI (Coherent Accelerator Processor Interface) dédiée au support d'accélérateurs spécifiques basés sur des modules FPGA interconnectés en PCI Express. De toute évidence IBM a étendu l'interface CAPI de manière à y intégrer le support de NVLink mais les spécificités à ce niveau restent inconnues.


Chaque lien NVLink est constitué d'un certain nombre de couples de lignes point-à-point et dans le cas de la première version de NVLink il est question d'une bande passante de 20 Go/s par lien (16 Go/s effectifs). Nvidia prend pour exemple un GPU équipé de 4 de ces liens qui pourrait ainsi profiter au total de 64 Go/s pour ses voies de communications vers les autres GPU et vers le CPU auquel il est rattaché, contre seulement 12 Go/s en PCI Express 3.0. De quoi booster les performances sur certains algorithmes : dans sa documentation Nvidia met en avant des projections avec +20% à +400% de mieux suivant les algorithmes observés.

Toujours au niveau de la mémoire, avec Volta, chaque GPU pourra alors être équipé d'une quantité importante de mémoire haute performances grâce à la technologie HBM. Pas question cependant de tester tout cela lors de la mise en place de ces supercalculateurs, ces technologies devront être éprouvées avant. C'est ce qu'a prévu Nvidia. En 2016, le GPU Pascal sera le premier à supporter NVLink, la mémoire HBM et le nouveau format. De quoi être prêt pour 2017 et le GPU Volta qui profitera de la version 2.0 de NVLink dont l'évolution principale sera la possibilité de supporter un espace mémoire totalement cohérent entre le ou les CPU et le ou les GPU. Pour en profiter une bande passante élevée sera nécessaire, elle pourra monter jusqu'à 200 Go/s à travers l'ensemble des liens NVLink (5 liens à 40 Go/s ?). De quoi permettre de revoir en profondeur l'architecture des supercalculateurs.

Alors que Titan par exemple est un ensemble de 18688 nœuds équipés chacun d'un Opteron 16 cœurs avec 32 Go de DDR3 et d'une Tesla K20X avec 6 Go de GDDR5, Sierra et Summit se contenteront de beaucoup moins de nœuds mais bien plus costauds et chacun équipé d'une zone de stockage locale.

Les informations concernant Sierra restent actuellement limitées, puisqu'il remplacera Sequoia dans le domaine sensible de la sécurité nucléaire. Par contre plus de détails ont été communiqués au sujet de Summit, qui remplacera Titan avec une puissance de calcul théorique qui se situera entre 150 et 300 petaFlops pour une consommation qui ne devrait augmenter que de 10% alors que l'encombrement sera nettement réduit.


Summit sera constitué de plus de 3400 nœuds, chacun présenté avec une puissance de calcul théorique de plus de 40 teraFlops (probablement bien plus puisque cela ne représente que 136 petaFlops). Chacun de ces nœuds sera équipé de plusieurs CPU Power9 et de plusieurs accélérateurs Tesla dérivés du GPU Volta. Nous pouvons raisonnablement supposer qu'il s'agira de 4 à 8 composants de chaque type par nœud. Ils seront accompagnés par un ensemble de plus de 512 Go de mémoire DDR4 (côté CPU) et HBM (côté GPU) qui formeront un seul et unique espace cohérent, même si les accès mémoire resteront optimisés pour des usages différents de part et d'autre. Par ailleurs 800 Go supplémentaires de mémoire flash seront installés, de quoi par exemple faire office de buffer pour le système de stockage de 120 petaOctets qui devra se "contenter" d'une bande passante de 1 To/s.

Ce type de contrat est très important en terme d'image de marque pour un acteur tel que Nvidia, mais il lui restera à démontrer de l'intérêt, en pratique, d'une plateforme basée autour de NVLink dans les plus petits systèmes qui représentent le gros du marché. Si seul le Power9 d'IBM et le Volta de Nvidia supportent NVLink, ils resteront dépendants l'un de l'autre pour être exploités au maximum de leurs capacités. Un pari risqué ? Sans commenter le fond de cette question, Nvidia précise qu'un petit ensemble de 4 nœuds similaires à ceux développés par IBM pour Summit suffirait à placer la machine dans la liste Top500 des supercalculateurs actuels.

Pour en savoir plus, vous pourrez retrouver deux whitepapers chez Nvidia , l'un tourné autour de ces supercalculateurs, l'autre autour de NVLink et de ses promesses (sans prendre en compte le support CPU).

GTC: Volta & Parker retardés, le 16nm TSMC responsable?

Publié le 26/03/2014 à 07:22 par Damien Triolet

Les roadmaps présentées par Nvidia à la GTC ont semé pas mal de confusion en introduisant de nouveaux noms de codes, le GPU Pascal et le SoC Erista, à la place des anciens GPU Volta et SoC Parker. Nous avons pu confirmer avec Nvidia qu'en réalité les premiers, annoncés auparavant pour 2015, ont en fait été repoussés mais n'ont pas été annulés ou remplacés. Nvidia ne précise pas quelle est la raison de ce retard mais de nouvelles solutions ont dû être mises en place pour occuper le terrain et éviter que ses produits ne stagnent pendant trop longtemps.

Si Nvidia ne précise pas la raison de ce retard, un indice se trouve probablement dans les quelques informations communiquées l'an passé au sujet du SoC Parker. Nvidia parlait alors de l'utilisation d'un procédé de fabrication qui ferait appel aux FinFET, vraisemblablement le 16nm de TSMC. Nous pouvons supposer que c'était également le cas pour le GPU Volta.


La roadmap des SoC Nvidia, version 2013.

Il semblerait donc que ce process 16nm FinFET ait posé problème, que ce soit en termes de timing, de volumes, de tarification et/ou de performances. Avec Pascal et Erista, Nvidia a dans tous les cas décidé d'introduire une génération intermédiaire en 20 nanomètres, ce qui explique ces changements sur les roadmaps.

Top articles