Actualités cartes graphiques

L'ASUS GTX 980 Matrix en approche (MAJ)

Tags : ASUS; GTX 980; Nvidia;
Publié le 12/12/2014 à 14:49 par
Envoyer Imprimer

ASUS devrait lancer sous peu la ROG Matrix GTX 980 Platinum. Comme sur la 780 Ti elle disposera d'un refroidissement de type Direct CU II utilisant 5 caloducs dont un de 10mm de diamètre, et deux ventilateurs dont un CoolTech, ainsi qu'un PCB maison intégrant un étage d'alimentation à 14 phases.

 
 

Le logo ROG dont la couleur change en fonction de la charge sera également de la partie, de même que quelques fonctions destinées aux fans d'overclocking comme un bouton safe mode pour rétablir les paramètres d'origine, un mécanisme visant à éviter que la mémoire givre sous LN2 et des points de lecture de tension.

La fréquence du GPU sera par défaut de 1241/1342 MHz, contre 1126/1216 MHz pour les fréquences officielles de Nvidia. On ne connait pas encore la date de disponibilité et le prix.

Mise à jour du 12/12/2014 : La carte sera disponible en janvier à 649 € TTC.

Catalyst Omega: AMD veut faire progresser ses pilotes

Tags : AMD; Catalyst;
Publié le 09/12/2014 à 06:00 par
Envoyer Imprimer

Pour la dernière version de l'année de ses pilotes Catalyst, AMD a voulu marquer le coup en mettant en avant les progrès accomplis au cours de ces derniers mois et en nous faisant part de ses ambitions pour le futur. Que vous réservent ces Catalyst Omega ?


AMD lance aujourd'hui une nouvelle version de ses pilotes Catalyst, la 14.12, surnommée Omega. Il ne s'agit pas d'une nouvelle marque qui restera pour les pilotes des Radeon, mais d'un qualificatif ponctuel, exploité pour cette version des pilotes spéciale du point de vue d'AMD. Ne vous attendez cependant pas à une révolution en installant ces pilotes. Certes, ils apportent de nouvelles fonctionnalités, mais avec cette version spéciale, AMD entend surtout marquer le coup par rapport au travail effectué ces derniers mois et réaffirmer sa volonté de faire évoluer la qualité de ses pilotes au cours des mois et années à venir.

La qualité des pilotes doit progresser
La réputation des pilotes, la manière dont ils sont perçus par les utilisateurs, est un élément particulièrement déterminant pour le succès commercial des cartes graphiques. AMD en est bien conscient et a décidé de mettre les bouchées doubles pour résorber le déficit d'image dont ses pilotes souffrent régulièrement par rapport à ceux de Nvidia. Avec pour ambition, à terme, de faire de ses pilotes une référence.

Au cours des derniers trimestres, il y a eu plusieurs changements dans l'organisation d'AMD et parmi ces changements a été prise en compte la nécessité d'accentuer le focus sur le développement de pilotes de qualité. De nouveaux responsables ont pris la tête du développement des pilotes, tant du côté technique que marketing, avec pour ambition de faire mieux. Et notamment de mettre en place une vraie stratégie, par exemple pour éviter de se faire enfermer par Nvidia dans le piège de la course derrière ses nouveautés.


Il y a bien entendu beaucoup de travail pour y parvenir, cela se fera par étape. Dans l'immédiat il s'agit pour AMD de mieux exploiter ses ressources disponibles et de mettre la priorité au bon endroit. Pour améliorer la qualité de ses pilotes, AMD explique par exemple avoir revu toutes ses procédures de tests automatiques et manuelles pour en augmenter significativement le nombre tout en les exécutant sur plus de configurations différentes que ce soit en termes de systèmes ou de types d'affichages. AMD a également lancé un vaste programme interne qui pousse chaque employé à tester les logiciels maisons et à apporter un feedback. Tout cela devrait permettre de repérer les bugs et autres problèmes plus tôt et idéalement avant la sortie d'une nouvelle version des pilotes.

Il est également question de chercher plus activement à faire remonter les problèmes rencontrés par les utilisateurs, par exemple via les forums ou les réseaux sociaux. Enfin, AMD a mis en place une URL spécifique pour reporter un problème : www.amd.com/report.

Attention, il ne s'agit pas d'un support technique qui va chercher par la suite à vous apporter une réponse, mais d'une interface qui permet aux équipes de développement de rassembler un maximum d'informations sur les problèmes rencontrés et d'en faire ressortir les plus courants qui doivent être placés en haut de la liste des bugs à corriger. Ce sont bien entendu les utilisateurs avancés, capables de décrire de manière détaillée et reproductible un problème donné qui seront ici les plus utiles pour AMD.

Les nouveautés des Catalyst Omega, 14.12, 14.501
En attendant que tout cela porte ses fruits, les Catalyst Omega débarquent. Il s'agit en réalité des Catalyst 14.12, qui en notation plus complète correspondent à la branche 14.501 (les pilotes betas précédents étaient issus de la branche 14.301). AMD nous en a fourni une version RC et la version WHQL vient d'être rendue disponible :

- AMD Catalyst 14.12 WHQL pour Windows 7 64 bits
- AMD Catalyst 14.12 WHQL pour Windows 8.1 64 bits

La liste des nouveautés est relativement étoffée :


Au niveau de l'affichage, ces pilotes apportent le support des écrans 5K et surtout de FreeSync et du taux de rafraîchissement dynamique. Bien que ces écrans FreeSync ne soient pas encore disponibles sur le marché, ils ne devraient plus tarder et AMD précisent que les pilotes de cette branche sont actuellement exploités par les fabricants d'écrans pour valider le bon fonctionnement de FreeSync.

En attendant l'arrivée de FreeSync, AMD améliore quelque peu l'algorithme de Frame Pacing exploité avec CrossFire. Par ailleurs ce Frame Pacing est désormais fonctionnel dans le cas problématique jusqu'ici du Dual Graphics.

La détection des modes d'affichage des écrans a été améliorée de manière à permettre l'arrivée plus rapide de l'affichage lors de la connexion d'un écran ou lors de son allumage. Toujours côté écran, Eyefinity gagne en flexibilité sur la Radeon R9 285 qui supporte dorénavant un mix d'écrans en positions portrait et paysage.


Un mode d'affichage dénommé Virtual Super Resolution fait son apparition dans le panneau des pilotes dédié à l'écran. Il s'agit ici d'une tentative de mise à niveau par rapport à ce que fait Nvidia avec Dynamic Super Resolution : proposer un mode de supersampling universel (ou la qualité 4K en 1080p en termes marketing). Le principe est simple : autoriser l'activation d'une résolution supérieure à celle de l'écran en appliquant un filtre de downsampling à l'image juste avant son affichage.


L'implémentation actuelle d'AMD, proposée pour les Radeon R9 295X2/290X/290/285 est par contre quelque peu limitée en termes de résolutions possibles. Seuls les écrans 1080p, 1200p et 1440p sont supportés et seuls les premiers le sont en 120 Hz. Par ailleurs la résolution 4K n'est supportée qu'à partir du 1920x1080 ou du 1920x1200 et qu'avec la Radeon R9 285. Avec un écran 1440p ou avec une Radeon R9 290 en 1080p, la résolution la plus élevée qui est proposée est du 3200x1800. Dans d'autres cas c'est une résolution 4/3 qui est proposée (2048x1536). Par ailleurs, AMD ne donne aucune information sur le type de filtre de downsampling utilisé, qui est probablement basique.

Si le VSR est une fonctionnalité bienvenue, il s'agit également selon nous de l'exemple typique de ce qu'AMD ne devrait pas faire : s'empresser d'essayer de proposer les mêmes fonctionnalités que Nvidia sans prendre le temps de les implémenter correctement. Peut mieux faire.

 
 

AMD apporte ensuite quelques améliorations qualitatives au niveau du décodage et de l'affichage des vidéos à travers les options Fluid Motion Video, Contour Removal et Detail Enhancement. Ces fonctions permettent d'intercaler des images intermédiaires, comme le font les TV modernes pour fluidifier la lecture, de supprimer les artéfacts liés à la compression et d'ajouter des détails aux vidéo lues sur des écrans 1080p ou 4K.

Ces options ne sont pas réellement nouvelles, mais elles ont été améliorées et sont maintenant supportées par plus de produits, notamment par les APU A-7000 avec quelques restrictions (il faut au minimum un modèle 25W pour le Contour Removal et 35W pour le Fluid Motion). Pour le reste elles sont supportées par les Radeon R9 295X2/290X/290/285/260X/260.

A noter qu'étrangement, l'ajout de détails en 1080p pour les vidéos de basse qualité n'est supporté que sur la Radeon R9 285 alors que l'ajout de détails sur les vidéos 1080p lues sur écran 4K est supporté sur toutes les solutions citées ci-dessus. Par ailleurs, de manière encore plus étrange, l'ajout de détails en 1080p doit être activé manuellement via 4 options distinctes alors que l'ajout de détail en 4K est forcé par défaut et n'est pas débrayable. Peut mieux faire.

Les Catalyst Omega représentent l'occasion pour AMD d'intégrer dans la branche standard de ses pilotes le support d'OpenCL 2.0 qui était jusqu'ici proposé à travers un pilote beta spécifique. Il en va de même pour OpenGL ES 3.0, principalement exploité dans le monde mobile, mais qui pourrait également trouver sa place sur PC.

Pour accompagner ce support, AMD met à jour ses outils développeurs : CodeXL passe en version 1.6 et PerfStudio en version 3.1. CodeXL 1.6 gagne un mode de profiling tourné autour de la consommation des différentes composantes d'un APU, ainsi que le support d'OpenCL 2.0. GPU PerfStudio reçoit de son côté le support de Mantle et d'OpenGL 4.4.


Enfin, AMD met en avant des gains de performances, mais pour la majorité de ceux-ci ils ne sont pas liés aux Catalyst Omega et sont en fait déjà disponibles dans les autres pilotes récents. Les gains mis en avant par AMD sont en fait ceux obtenus par rapport aux pilotes d'introduction des Radeon R9 290 (décembre 2013) et des APU A-7000 (février 2014).

Ces gains peuvent être particulièrement importants et plus récents pour les APU, l'effort d'optimisation initial étant focalisé sur les GPU. Un effort pour les APU qui est souvent ignoré, un point sur lequel tient à insister AMD, puisque contrairement aux cartes graphiques qui sont (en principe) retestées régulièrement avec des pilotes plus récents, les performances des APU sont rarement revisitées.

Avec une vingtaine de nouvelles fonctionnalités et de nombreux bugs corrigés, ces Catalyst Omega seront sans aucun doute à privilégier pour tous les utilisateurs de Radeon. AMD a cependant encore du travail pour peaufiner l'implémentation de certaines de ces fonctionnalités, telles que le mode VSR. Nous attendons également avec impatience de pouvoir enfin tester FreeSync, ce qui devrait se faire début 2015. Enfin, il restera à vérifier si les promesses d'amélioration de la qualité auront bel et bien un effet au-delà de la présentation que vous pourrez retrouver en intégralité dans la galerie ci-dessous :

 
 

GTX 750 fanless pour ASUS

Tags : ASUS; GTX 750;
Publié le 08/12/2014 à 11:32 par
Envoyer Imprimer

Après Palit et Zotac, c'est au tour d'ASUS de lancer une GeForce GTX 750 fanless, la GTX750-DCSL-2GD5. Elle utilise un radiateur en aluminium associé à deux caloducs en cuivre qui sont en contact direct avec le GPU, un modèle qui avait déjà été utilisé par ASUS sur HD 7750 par exemple.

 
 

Les fréquences sont logiquement celles de référence avec 1020/1085 MHz pour le GPU et de la GDDR5 5 Gbps. ASUS a fait le choix d'intégrer 2 Go de cette GDDR5, bien qu'une telle taille mémoire ne soit pas vraiment utile en pratique avec ce type de GPU dans les jeux vu le niveau de détails qui peut être soutenu. Pour le reste la carte dispose des sorties DVI-I, HDMI 1.4 et DisplayPort 1.2.

Nvidia lance la Tesla K80: double GK210 avec Boost

Publié le 08/12/2014 à 08:00 par
Envoyer Imprimer

Lors de l'annonce d'une nouvelle gamme de Quadro cet été, nous nous étions étonnés de ne pas voir arriver un modèle haut de gamme basé sur un nouveau "gros" GPU Kepler : le GK210. Ce dernier n'est cependant pas passé à la trappe et vient d'être introduit au travers de la nouvelle carte accélératrice Tesla K80.


Après les Tesla K10, K20, K20X et K40, Nvidia introduit le Tesla K80 qui est le second modèle bi-GPU de la famille. Elle embarque en effet deux GK210, une petite évolution des GK110/GK110B exploités sur différents segments depuis deux ans. De quoi pousser les performances un cran plus haut tout en restant sur un même format, mais bien entendu en revoyant les demandes énergétiques à la hausse.


La Tesla K80
La Tesla K80 se contente de GPU partiellement fonctionnels, seules 2496 unités de calcul sur 2880 sont actives, ce qui permet de limiter quelque peu la consommation. De quoi atteindre de 5.6 à 8.7 Tflops en simple précision et de 1.9 à 2.9 Tflops en double précision. Pour le reste, le bus mémoire est complet avec 384-bit par GPU pour une bande passante totale qui atteint 480 Go/s.


Comme pour les Tesla K40, chaque GPU de la Tesla K80 profite de 12 Go de GDDR5 avec une protection ECC optionnelle qui réduit la bande passante et la quantité de mémoire réellement disponible. Elle est alors réduite de 1/16ème et passe à 11.25 Go par GPU.

Le TDP de cet accélérateur bi-GPU est de 300W, contre 235W pour les Tesla mono-GPU. Une augmentation plutôt contenue liée au fait que le GK210 est un petit peu plus efficace sur le plan énergétique mais surtout à la mise en place d'un turbo dynamique et d'une fréquence de base relativement faible.

Les Tesla précédentes profitaient déjà d'un mode turbo, dénommé GPU Boost comme sur GeForce, mais il était statique et le TDP était défini par Nvidia comme la consommation moyenne du GPU à sa fréquence de base lors de l'exécution d'un algorithme gourmand finement optimisé pour exploiter au mieux le GPU : DGEMM. Si le GPU était exploité pour faire tourner des tâches moins lourdes, ou s'il était particulièrement bien refroidi, il était possible à travers une API spécifique de faire passer manuellement le GPU à un niveau de fréquence supérieur. Par exemple le GPU de la Tesla K40 est cadencé par défaut à 745 MHz, mais il peut être configuré en mode 810 ou 875 MHz et voir sa puissance de calcul bondir de 17%.

Nvidia justifiait l'utilisation d'un turbo statique par la nécessité de proposer un niveau de performances stable et un comportement déterministe, notamment parce que certains clusters font travailler les GPU en parallèle de manière synchrone. Un autre élément était probablement que valider un turbo dynamique était plus complexe dans le monde professionnel que grand public.

Avec la Tesla K80 cela change et par défaut c'est un turbo dynamique qui est activé et qui fonctionne de la même manière que sur les GeForce récentes à ceci près que pour des raisons de sécurité, le GPU débute à sa fréquence de base et accélère progressivement si les limites de consommation (150W par GPU) et de température n'ont pas été atteintes (il part de la fréquence maximale et la réduit sur GeForce). La plage pour ce turbo dynamique est particulièrement élevée, de 562 à 875 MHz, ce qui représente jusqu'à 55% de performances supplémentaires lorsque les tâches ne sont pas très lourdes. C'est bien entendu dans ce type de cas que cette Tesla K80 se démarquera le plus d'une K40. A noter que Nvidia propose toujours, optionnellement, la sélection de manière statique d'un certain niveau de fréquence.


Il s'agit d'un format dédié au serveur et donc passif, pour cette carte de 267mm de long, qui semble reprendre le même PCB que celui de la GeForce GTX Titan Z. Petite nouveauté, la Tesla K80 n'est pas alimentée via des connecteurs PCI Express mais bien via un seul connecteur d'alimentation CPU 8 broches, plus adapté aux serveurs et qui simplifie le câblage (les traces pour ce connecteur sont présentes sur la GTX Titan Z mais il n'a pas été utilisé).

La Tesla K80 est disponible dès à présent à un tarif de 5300$ et a été validée par Cray (CS-Storm, 8 K80 par nœud 2U), Dell (C4130, 4 K80 par nœud 1U), HP (SL270, 8 K80 par nœud 4U half-width) et Quanta (S2BV, 4 K80 par nœud 1U). De quoi pousser à la hausse la densité des capacités de calcul et atteindre de 7.5 à 11.6 Tflops en double précision par U suivant la tâche.

A noter que la concurrence n'est pas pour autant larguée. AMD a implémenté une proportion plus élevée d'unités de calcul double précision dans son dernier GPU haut de gamme (Hawaii), ce qui permet à la FirePro S9150 d'afficher un débit similaire à celui de la Tesla K80 et une densité de 10.1 Tflops par U dans le même type de serveurs.


La Tesla K8
En octobre Nvidia a discrètement lancé un autre membre dans la famille Tesla : la K8. Celle-ci est en fait équipée d'un GPU Kepler GK104, non-adapté au calcul en double précision. Grossièrement il s'agit de l'équivalent Tesla d'une GeForce GTX 770/680. Le design proposé par Nvidia a la particularité d'être single slot et actif mais est prévu exclusivement pour l'intégration dans un serveur et non dans une station de travail.


Le GPU, qui affiche de 1.4 à 2.5 Tflops en simple précision, est associé à 8 Go de mémoire. Par défaut, il est cadencé à 693 MHz (2.1 Tflops) et affiche un TDP de 100W. Pour les tâches légères il peut être poussé à 811 MHz et il est également possible d'activer un mode 70W dans lequel la fréquence tombe alors à 445 MHz. Par ailleurs, l'interface PCI Express de ce GPU est limitée au PCI Express 2.0 dans le monde professionnel.


GK210, quoi de neuf ?

Alors que la génération de GPU Maxwell a pris place dans le haut de gamme grand public, c'est un nouveau GPU de la famille Kepler que Nvidia vient d'introduire dans sa gamme Tesla. Nvidia ne communique que peu de détails sur les évolutions apportées par le GK210 qui reste fabriqué en 28 nanomètres et présente une configuration globale similaire à celle du GK110. Nvidia se contente de préciser que le fichier registre et la mémoire partagée ont été doublés, ce qui dans les deux cas permet de mieux alimenter les unités de calcul du GPU et donc son rendement.


[ GK110 ]  [ GK210 ]  

Plus en détail, sur le GK110 comme sur tous les autres GPU Kepler, les unités de calcul sont intégrées dans les SMX, les blocs fondamentaux de l'architecture Kepler. Chaque SMX est subdivisé en 4 partitions qui se partagent l'accès aux unités de calcul, dont 192 FMA simple précision et 64 FMA double précision dans le cas des GPU GK110 et GK210. Chacune de ces partitions dispose d'un ordonnanceur et d'un fichier registres indépendant de 64 Ko, ce qui équivaut à 16384 registres 32-bit ou 8192 registres 64-bit. Le GPU étant une machine optimisée pour le débit, ces imposants fichiers registres sont exploités pour s'assurer que suffisamment d'éléments ("threads") puissent résider en interne de manière à ce que leur traitement successif puisque masquer la latence qui peut être très élevée pour certaines opérations.

Bien qu'imposants, ces fichiers registres ne sont pas sans limite et lorsqu'elle est atteinte, le taux d'utilisation des unités de calcul peut chuter fortement. Cela peut arriver quand le code à exécuter a besoin d'un nombre important de registres, quand de nombreuses opérations à latence élevée sont exécutées ou encore en 64-bit, mode deux fois plus gourmand sur ce point. Il peut ainsi s'agir d'un facteur limitant dans le cadre du calcul massivement parallèle et avec le GK210, Nvidia fait évoluer ces fichiers registres qui passent pour chaque partition de 64 Ko à 128 Ko (soit de 256 à 512 Ko par SMX et 7.5 Mo au total à l'échelle du GPU). De quoi s'assurer un taux de remplissage moyen plus élevé et donc de meilleures performances.

Le principe est le même pour le bloc qui regroupe la mémoire partagée et le cache L1. Chaque groupe d'éléments à traiter peut se voir attribuer une certaine quantité de mémoire partagée. Plus la quantité de mémoire partagée nécessaire est élevée, moins de groupes peuvent résider en même temps dans le GPU : la latence peut alors ne plus être totalement masquée ou un algorithme moins efficace, mais exigeant moins de mémoire partagée doit être utilisé, ce qui fait chuter les performances dans les deux cas.

Avec le GK210, Nvidia fait donc évoluer cette mémoire de 64 Ko à 128 Ko par SMX, mais, détail important, la totalité de la mémoire supplémentaire est attribuée à la mémoire partagée. Ainsi, alors que la répartition L1/mémoire partagée pouvait être sur GK110 de 16/48 Ko, 32/32 Ko ou 48/16 Ko, elle pourra être soit de 16/112 Ko, soit 32/96 Ko, soit de 48/80 Ko sur GK210 (suivant la quantité de L1 jugée nécessaire par le compilateur). En d'autres termes, la mémoire partagée sera en pratique de 2.33x à 5x supérieure sur ce nouveau GPU, ce qui pourra apporter un net gain de performances pour certaines tâches. Pour rappel sur les GPU Maxwell de seconde génération, la mémoire partagée n'est plus liée au L1 et est de 96 Ko.

Contrairement à ce que nous supposions au départ face à l'absence de réponse de Nvidia à cette question, le GK210 ne reprend pas la modification apportée aux autres GPU de la lignée GK2xx par rapport à la lignée GK1xx : la réduction de moitié du nombre d'unités de texturing. Un compromis qui permet de réduire la taille des SMX avec un impact sur les performances lors du rendu 3D, mais qui n'a pas été retenu dans le cas du GK210 qui conserve ses 240 unités de texturing, soit 16 par SMX. De quoi lui permettre de conserver l'ensemble de 4 petits caches de 12 Ko spécifiques aux unités de texturing (48 Ko par SMX). Ces derniers peuvent être déviés de leur rôle principal pour faire office de cache en lecture très performant.

Du côté grand public, ce GPU GK210 n'aura peut-être aucune existence et dans tous les cas un intérêt limité étant donné que les GPU de la nouvelle génération Maxwell y sont déjà commercialisés et sont plus performants et plus évolués sur le plan des fonctionnalités. Il permet par contre à Nvidia de proposer un GPU plus efficace dans le domaine du calcul massivement parallèle et pourrait bien être le premier GPU conçu spécialement pour cet usage. Dans tous les cas, Nvidia a de toute évidence stoppé la production de puces GK110B et, si nécessaire, pourra simplement remplacer le GK110/110B par un GK210 sur n'importe lequel de ses produits.

Reste que le timing de son arrivée peut évidemment sembler étrange. Pourquoi concevoir et introduire fin 2014 un nouveau GPU de l'ancienne architecture Kepler, alors que l'architecture Maxwell est déjà disponible ? Et qu'un plus gros GPU Maxwell, le GM200, est attendu ? Il peut y avoir plusieurs raisons à cela et deux d'entre elles nous paraissent les plus probables : soit le GM200 est très loin d'être prêt à être commercialisé, soit le GM200 n'est pas un GPU adapté au monde du HPC, par exemple parce qu'il ne serait pas équipé pour le calcul double précision.

Rien ne dit qu'il faille y voir une quelconque confirmation, mais cette seconde possibilité ne serait pas incompatible avec les roadmaps présentées par Nvidia. En mars 2013, la roadmap faisait état de l'évolution du rendement énergétique en double précision en passant de Kepler à Maxwell et enfin à Volta. En mars 2014, l'unité utilisée par Nvidia était cette fois du calcul en simple précision… et une architecture Pascal, clairement pensée pour le monde du HPC, a été intercalée entre Maxwell et Volta. Ceci dit, il nous semble difficile d'imaginer Nvidia se contenter du GK210 en 2015, et de patienter jusqu'à l'arrivée de Pascal en 2016 pour proposer une évolution plus importante sur ce marché…

IBM Power9 et Nvidia Volta : 100+ petaFlops en 2017

Publié le 02/12/2014 à 17:15 par
Envoyer Imprimer

Le département de l'énergie américain a tranché il y a quelques jours : les prochains supercalculateurs qu'il finance seront mis en place par IBM sur base d'une plateforme OpenPower équipée de ses futurs CPU Power9 et des GPU Volta de Nvidia associés via l'interconnexion NVLink.


Cinq années, cela semble être la durée de vie des supercalculateurs pour lesquels le département de l'énergie américain (DoE) met la main à la poche. Délivré mi-2012 sur base d'une plateforme IBM Blue Gene/Q et de CPU Power8 à l'administration nationale pour la sécurité nucléaire, Sequoia et ses 20 petaFlops (17 petaFlops mesurés) prendra sa retraite en 2017. Il en ira de même pour le supercalculateur Titan exploité par le laboratoire national d'Oak Ridge qui affiche 27 petaFlops au compteur (17.5 petaFlops mesurés). Pour rappel, ce dernier est basé sur une plateforme Cray XK7 équipée d'Opteron 6274 et d'accélérateurs Tesla K20X.

La course à la puissance ne s'arrête jamais, d'autant plus que la Chine a volé la première place du podium aux Etats-Unis avec Tianhe-2, une plateforme 100% Intel qui affiche 55 petaFlops au compteur (34 petaFlops mesurés) à travers ses Xeon E5-2692 et ses Xeon Phi 31S1P. Si ce dernier est plus performant, à noter cependant que sa consommation explose pour atteindre près de 18 mégawatts là où les actuels supercalculateurs américains se contentent de 8 à 9 mégawatts.


Ce détail est en fait très important. Nul doute en effet que le cahier des charges du DoE pour ses futurs supercalculateurs, baptisés Sierra et Summit, exigeait de ne pas trop augmenter le budget énergétique de ses futures installations, en plus bien entendu de pousser la puissance de calcul vers le haut en attendant l'arrivée des systèmes exaFlops, prévus pour la génération suivante.

Pour les deux systèmes, une même plateforme de plus de 100 petaFlops a cette fois été retenue et c'est IBM qui a reçu ce contrat de 325 millions de $. La plateforme proposée par IBM a pour particularité de s'efforcer de rapprocher les données de la puissance de calcul pour réduire les déplacements coûteux tant en performances qu'en énergie. Un argument important à l'heure où la quantité de données à traiter explose.

Alors que l'actuel Sequoia était de type 100% CPU IBM, le DoE a favorisé une solution hétérogène, étant visiblement satisfait des résultats du Titan, et a renouvelé sa confiance dans les GPU Nvidia et l'écosystème CUDA. Une étape cruciale pour Nvidia qui voit donc sa place de fournisseur de puissance de calcul confirmée sur un marché dans lequel il est difficile de percer.


Les raisons du choix du couple IBM/Nvidia sont bien entendu nombreuses et ne sont pas dues au hasard. Les deux acteurs travaillent ensemble depuis quelques temps déjà, Nvidia ayant annoncé en mars dernier une interconnexion NVLink développée en partenariat avec IBM. Pour rappel, celle-ci permet de s'affranchir du PCI Express et de ses limitations pour proposer une voie de communication plus performante entre les GPU mais également entre les GPU et les CPU. Cela implique des changements importants, notamment au niveau du format physique qui passera à un socket de type mezzanine.

Ce support de NVLink est une évolution logique du côté d'IBM qui propose déjà sur ses CPU Power8 une interface CAPI (Coherent Accelerator Processor Interface) dédiée au support d'accélérateurs spécifiques basés sur des modules FPGA interconnectés en PCI Express. De toute évidence IBM a étendu l'interface CAPI de manière à y intégrer le support de NVLink mais les spécificités à ce niveau restent inconnues.


Chaque lien NVLink est constitué d'un certain nombre de couples de lignes point-à-point et dans le cas de la première version de NVLink il est question d'une bande passante de 20 Go/s par lien (16 Go/s effectifs). Nvidia prend pour exemple un GPU équipé de 4 de ces liens qui pourrait ainsi profiter au total de 64 Go/s pour ses voies de communications vers les autres GPU et vers le CPU auquel il est rattaché, contre seulement 12 Go/s en PCI Express 3.0. De quoi booster les performances sur certains algorithmes : dans sa documentation Nvidia met en avant des projections avec +20% à +400% de mieux suivant les algorithmes observés.

Toujours au niveau de la mémoire, avec Volta, chaque GPU pourra alors être équipé d'une quantité importante de mémoire haute performances grâce à la technologie HBM. Pas question cependant de tester tout cela lors de la mise en place de ces supercalculateurs, ces technologies devront être éprouvées avant. C'est ce qu'a prévu Nvidia. En 2016, le GPU Pascal sera le premier à supporter NVLink, la mémoire HBM et le nouveau format. De quoi être prêt pour 2017 et le GPU Volta qui profitera de la version 2.0 de NVLink dont l'évolution principale sera la possibilité de supporter un espace mémoire totalement cohérent entre le ou les CPU et le ou les GPU. Pour en profiter une bande passante élevée sera nécessaire, elle pourra monter jusqu'à 200 Go/s à travers l'ensemble des liens NVLink (5 liens à 40 Go/s ?). De quoi permettre de revoir en profondeur l'architecture des supercalculateurs.

Alors que Titan par exemple est un ensemble de 18688 nœuds équipés chacun d'un Opteron 16 cœurs avec 32 Go de DDR3 et d'une Tesla K20X avec 6 Go de GDDR5, Sierra et Summit se contenteront de beaucoup moins de nœuds mais bien plus costauds et chacun équipé d'une zone de stockage locale.

Les informations concernant Sierra restent actuellement limitées, puisqu'il remplacera Sequoia dans le domaine sensible de la sécurité nucléaire. Par contre plus de détails ont été communiqués au sujet de Summit, qui remplacera Titan avec une puissance de calcul théorique qui se situera entre 150 et 300 petaFlops pour une consommation qui ne devrait augmenter que de 10% alors que l'encombrement sera nettement réduit.


Summit sera constitué de plus de 3400 nœuds, chacun présenté avec une puissance de calcul théorique de plus de 40 teraFlops (probablement bien plus puisque cela ne représente que 136 petaFlops). Chacun de ces nœuds sera équipé de plusieurs CPU Power9 et de plusieurs accélérateurs Tesla dérivés du GPU Volta. Nous pouvons raisonnablement supposer qu'il s'agira de 4 à 8 composants de chaque type par nœud. Ils seront accompagnés par un ensemble de plus de 512 Go de mémoire DDR4 (côté CPU) et HBM (côté GPU) qui formeront un seul et unique espace cohérent, même si les accès mémoire resteront optimisés pour des usages différents de part et d'autre. Par ailleurs 800 Go supplémentaires de mémoire flash seront installés, de quoi par exemple faire office de buffer pour le système de stockage de 120 petaOctets qui devra se "contenter" d'une bande passante de 1 To/s.

Ce type de contrat est très important en terme d'image de marque pour un acteur tel que Nvidia, mais il lui restera à démontrer de l'intérêt, en pratique, d'une plateforme basée autour de NVLink dans les plus petits systèmes qui représentent le gros du marché. Si seul le Power9 d'IBM et le Volta de Nvidia supportent NVLink, ils resteront dépendants l'un de l'autre pour être exploités au maximum de leurs capacités. Un pari risqué ? Sans commenter le fond de cette question, Nvidia précise qu'un petit ensemble de 4 nœuds similaires à ceux développés par IBM pour Summit suffirait à placer la machine dans la liste Top500 des supercalculateurs actuels.

Pour en savoir plus, vous pourrez retrouver deux whitepapers chez Nvidia, l'un tourné autour de ces supercalculateurs, l'autre autour de NVLink et de ses promesses (sans prendre en compte le support CPU).


Top articles