Les derniers contenus liés aux tags Kepler et Tesla
GTC: Tesla passe à Kepler avec les K10 et K20
GTC: Nvidia lève le voile sur le GK110
Nvidia lance la Tesla K80: double GK210 avec Boost
Nvidia annonce de bons résultats
Résultats Nvidia boostés par Tegra
Tesla K20 et GK110 : les specs finales ?
Nvidia lance les Quadro K5000 et Kepler mobiles
Nvidia lance la Tesla K80: double GK210 avec Boost
Lors de l'annonce d'une nouvelle gamme de Quadro cet été, nous nous étions étonnés de ne pas voir arriver un modèle haut de gamme basé sur un nouveau "gros" GPU Kepler : le GK210. Ce dernier n'est cependant pas passé à la trappe et vient d'être introduit au travers de la nouvelle carte accélératrice Tesla K80.
Après les Tesla K10, K20, K20X et K40, Nvidia introduit le Tesla K80 qui est le second modèle bi-GPU de la famille. Elle embarque en effet deux GK210, une petite évolution des GK110/GK110B exploités sur différents segments depuis deux ans. De quoi pousser les performances un cran plus haut tout en restant sur un même format, mais bien entendu en revoyant les demandes énergétiques à la hausse.
La Tesla K80La Tesla K80 se contente de GPU partiellement fonctionnels, seules 2496 unités de calcul sur 2880 sont actives, ce qui permet de limiter quelque peu la consommation. De quoi atteindre de 5.6 à 8.7 Tflops en simple précision et de 1.9 à 2.9 Tflops en double précision. Pour le reste, le bus mémoire est complet avec 384-bit par GPU pour une bande passante totale qui atteint 480 Go/s.
Comme pour les Tesla K40, chaque GPU de la Tesla K80 profite de 12 Go de GDDR5 avec une protection ECC optionnelle qui réduit la bande passante et la quantité de mémoire réellement disponible. Elle est alors réduite de 1/16ème et passe à 11.25 Go par GPU.
Le TDP de cet accélérateur bi-GPU est de 300W, contre 235W pour les Tesla mono-GPU. Une augmentation plutôt contenue liée au fait que le GK210 est un petit peu plus efficace sur le plan énergétique mais surtout à la mise en place d'un turbo dynamique et d'une fréquence de base relativement faible.
Les Tesla précédentes profitaient déjà d'un mode turbo, dénommé GPU Boost comme sur GeForce, mais il était statique et le TDP était défini par Nvidia comme la consommation moyenne du GPU à sa fréquence de base lors de l'exécution d'un algorithme gourmand finement optimisé pour exploiter au mieux le GPU : DGEMM. Si le GPU était exploité pour faire tourner des tâches moins lourdes, ou s'il était particulièrement bien refroidi, il était possible à travers une API spécifique de faire passer manuellement le GPU à un niveau de fréquence supérieur. Par exemple le GPU de la Tesla K40 est cadencé par défaut à 745 MHz, mais il peut être configuré en mode 810 ou 875 MHz et voir sa puissance de calcul bondir de 17%.
Nvidia justifiait l'utilisation d'un turbo statique par la nécessité de proposer un niveau de performances stable et un comportement déterministe, notamment parce que certains clusters font travailler les GPU en parallèle de manière synchrone. Un autre élément était probablement que valider un turbo dynamique était plus complexe dans le monde professionnel que grand public.
Avec la Tesla K80 cela change et par défaut c'est un turbo dynamique qui est activé et qui fonctionne de la même manière que sur les GeForce récentes à ceci près que pour des raisons de sécurité, le GPU débute à sa fréquence de base et accélère progressivement si les limites de consommation (150W par GPU) et de température n'ont pas été atteintes (il part de la fréquence maximale et la réduit sur GeForce). La plage pour ce turbo dynamique est particulièrement élevée, de 562 à 875 MHz, ce qui représente jusqu'à 55% de performances supplémentaires lorsque les tâches ne sont pas très lourdes. C'est bien entendu dans ce type de cas que cette Tesla K80 se démarquera le plus d'une K40. A noter que Nvidia propose toujours, optionnellement, la sélection de manière statique d'un certain niveau de fréquence.
Il s'agit d'un format dédié au serveur et donc passif, pour cette carte de 267mm de long, qui semble reprendre le même PCB que celui de la GeForce GTX Titan Z. Petite nouveauté, la Tesla K80 n'est pas alimentée via des connecteurs PCI Express mais bien via un seul connecteur d'alimentation CPU 8 broches, plus adapté aux serveurs et qui simplifie le câblage (les traces pour ce connecteur sont présentes sur la GTX Titan Z mais il n'a pas été utilisé).
La Tesla K80 est disponible dès à présent à un tarif de 5300$ et a été validée par Cray (CS-Storm, 8 K80 par nœud 2U), Dell (C4130, 4 K80 par nœud 1U), HP (SL270, 8 K80 par nœud 4U half-width) et Quanta (S2BV, 4 K80 par nœud 1U). De quoi pousser à la hausse la densité des capacités de calcul et atteindre de 7.5 à 11.6 Tflops en double précision par U suivant la tâche.
A noter que la concurrence n'est pas pour autant larguée. AMD a implémenté une proportion plus élevée d'unités de calcul double précision dans son dernier GPU haut de gamme (Hawaii), ce qui permet à la FirePro S9150 d'afficher un débit similaire à celui de la Tesla K80 et une densité de 10.1 Tflops par U dans le même type de serveurs.
La Tesla K8En octobre Nvidia a discrètement lancé un autre membre dans la famille Tesla : la K8. Celle-ci est en fait équipée d'un GPU Kepler GK104, non-adapté au calcul en double précision. Grossièrement il s'agit de l'équivalent Tesla d'une GeForce GTX 770/680. Le design proposé par Nvidia a la particularité d'être single slot et actif mais est prévu exclusivement pour l'intégration dans un serveur et non dans une station de travail.
Le GPU, qui affiche de 1.4 à 2.5 Tflops en simple précision, est associé à 8 Go de mémoire. Par défaut, il est cadencé à 693 MHz (2.1 Tflops) et affiche un TDP de 100W. Pour les tâches légères il peut être poussé à 811 MHz et il est également possible d'activer un mode 70W dans lequel la fréquence tombe alors à 445 MHz. Par ailleurs, l'interface PCI Express de ce GPU est limitée au PCI Express 2.0 dans le monde professionnel.
GK210, quoi de neuf ?
Alors que la génération de GPU Maxwell a pris place dans le haut de gamme grand public, c'est un nouveau GPU de la famille Kepler que Nvidia vient d'introduire dans sa gamme Tesla. Nvidia ne communique que peu de détails sur les évolutions apportées par le GK210 qui reste fabriqué en 28 nanomètres et présente une configuration globale similaire à celle du GK110. Nvidia se contente de préciser que le fichier registre et la mémoire partagée ont été doublés, ce qui dans les deux cas permet de mieux alimenter les unités de calcul du GPU et donc son rendement.
[ GK110 ] [ GK210 ]
Plus en détail, sur le GK110 comme sur tous les autres GPU Kepler, les unités de calcul sont intégrées dans les SMX, les blocs fondamentaux de l'architecture Kepler. Chaque SMX est subdivisé en 4 partitions qui se partagent l'accès aux unités de calcul, dont 192 FMA simple précision et 64 FMA double précision dans le cas des GPU GK110 et GK210. Chacune de ces partitions dispose d'un ordonnanceur et d'un fichier registres indépendant de 64 Ko, ce qui équivaut à 16384 registres 32-bit ou 8192 registres 64-bit. Le GPU étant une machine optimisée pour le débit, ces imposants fichiers registres sont exploités pour s'assurer que suffisamment d'éléments ("threads") puissent résider en interne de manière à ce que leur traitement successif puisque masquer la latence qui peut être très élevée pour certaines opérations.
Bien qu'imposants, ces fichiers registres ne sont pas sans limite et lorsqu'elle est atteinte, le taux d'utilisation des unités de calcul peut chuter fortement. Cela peut arriver quand le code à exécuter a besoin d'un nombre important de registres, quand de nombreuses opérations à latence élevée sont exécutées ou encore en 64-bit, mode deux fois plus gourmand sur ce point. Il peut ainsi s'agir d'un facteur limitant dans le cadre du calcul massivement parallèle et avec le GK210, Nvidia fait évoluer ces fichiers registres qui passent pour chaque partition de 64 Ko à 128 Ko (soit de 256 à 512 Ko par SMX et 7.5 Mo au total à l'échelle du GPU). De quoi s'assurer un taux de remplissage moyen plus élevé et donc de meilleures performances.
Le principe est le même pour le bloc qui regroupe la mémoire partagée et le cache L1. Chaque groupe d'éléments à traiter peut se voir attribuer une certaine quantité de mémoire partagée. Plus la quantité de mémoire partagée nécessaire est élevée, moins de groupes peuvent résider en même temps dans le GPU : la latence peut alors ne plus être totalement masquée ou un algorithme moins efficace, mais exigeant moins de mémoire partagée doit être utilisé, ce qui fait chuter les performances dans les deux cas.
Avec le GK210, Nvidia fait donc évoluer cette mémoire de 64 Ko à 128 Ko par SMX, mais, détail important, la totalité de la mémoire supplémentaire est attribuée à la mémoire partagée. Ainsi, alors que la répartition L1/mémoire partagée pouvait être sur GK110 de 16/48 Ko, 32/32 Ko ou 48/16 Ko, elle pourra être soit de 16/112 Ko, soit 32/96 Ko, soit de 48/80 Ko sur GK210 (suivant la quantité de L1 jugée nécessaire par le compilateur). En d'autres termes, la mémoire partagée sera en pratique de 2.33x à 5x supérieure sur ce nouveau GPU, ce qui pourra apporter un net gain de performances pour certaines tâches. Pour rappel sur les GPU Maxwell de seconde génération, la mémoire partagée n'est plus liée au L1 et est de 96 Ko.
Contrairement à ce que nous supposions au départ face à l'absence de réponse de Nvidia à cette question, le GK210 ne reprend pas la modification apportée aux autres GPU de la lignée GK2xx par rapport à la lignée GK1xx : la réduction de moitié du nombre d'unités de texturing. Un compromis qui permet de réduire la taille des SMX avec un impact sur les performances lors du rendu 3D, mais qui n'a pas été retenu dans le cas du GK210 qui conserve ses 240 unités de texturing, soit 16 par SMX. De quoi lui permettre de conserver l'ensemble de 4 petits caches de 12 Ko spécifiques aux unités de texturing (48 Ko par SMX). Ces derniers peuvent être déviés de leur rôle principal pour faire office de cache en lecture très performant.
Du côté grand public, ce GPU GK210 n'aura peut-être aucune existence et dans tous les cas un intérêt limité étant donné que les GPU de la nouvelle génération Maxwell y sont déjà commercialisés et sont plus performants et plus évolués sur le plan des fonctionnalités. Il permet par contre à Nvidia de proposer un GPU plus efficace dans le domaine du calcul massivement parallèle et pourrait bien être le premier GPU conçu spécialement pour cet usage. Dans tous les cas, Nvidia a de toute évidence stoppé la production de puces GK110B et, si nécessaire, pourra simplement remplacer le GK110/110B par un GK210 sur n'importe lequel de ses produits.
Reste que le timing de son arrivée peut évidemment sembler étrange. Pourquoi concevoir et introduire fin 2014 un nouveau GPU de l'ancienne architecture Kepler, alors que l'architecture Maxwell est déjà disponible ? Et qu'un plus gros GPU Maxwell, le GM200, est attendu ? Il peut y avoir plusieurs raisons à cela et deux d'entre elles nous paraissent les plus probables : soit le GM200 est très loin d'être prêt à être commercialisé, soit le GM200 n'est pas un GPU adapté au monde du HPC, par exemple parce qu'il ne serait pas équipé pour le calcul double précision.
Rien ne dit qu'il faille y voir une quelconque confirmation, mais cette seconde possibilité ne serait pas incompatible avec les roadmaps présentées par Nvidia. En mars 2013, la roadmap faisait état de l'évolution du rendement énergétique en double précision en passant de Kepler à Maxwell et enfin à Volta. En mars 2014, l'unité utilisée par Nvidia était cette fois du calcul en simple précision… et une architecture Pascal, clairement pensée pour le monde du HPC, a été intercalée entre Maxwell et Volta. Ceci dit, il nous semble difficile d'imaginer Nvidia se contenter du GK210 en 2015, et de patienter jusqu'à l'arrivée de Pascal en 2016 pour proposer une évolution plus importante sur ce marché…
Nvidia annonce de bons résultats
Nvidia vient d'annoncer ses résultats pour son dernier trimestre fiscal qui prenait fin le 27 janvier. Le père des GeForce atteint un chiffre d'affaires de 1,107 milliards de $ contre 953 millions un an auparavant (+16,1%), alors que le bénéfice net passe de 116 à 174 millions de $ (+50%). La marge brute s'établit à 52,9%, en hausse de 1,5 points.
Sur l'année fiscale complète les ventes sont de 4,280 milliards de $, en hausse de 7,1% par rapport à l'an passé, pour un bénéfice net de 562,5 millions en baisse de 3,2%. La marge brute est de 52%, en baisse de 0,6 points.
Dans le détail les ventes de Tegra sont en hausse de 29,3% sur un an et atteignent 764,5 millions de $. Côté GPU la hausse est de 8% avec 3,252 milliards de $ (2% si on tient compte de l'arrêt des chipsets avec iGPU). C'est surtout du côté des GPU Mobile que Nvidia a eu les meilleures performances avec une hausse de 26,4% (cf. Parts de marché GPU : AMD en difficulté dans le mobile) alors que côté GPU Desktop elle n'est que de 5,9%. Les ventes de Tesla sont en augmentation de 36,5% alors que les Quadro baissent de 5,9%.
Résultats Nvidia boostés par Tegra
Au tour de Nvidia de publier ses résultats trimestriels (pour le troisième trimestre de l'année fiscale 2013)... et pour le Caméléon, le baromètre est au beau fixe. La marque annonce en effet un chiffre d'affaire de 1,20 milliards de dollars, en hausse de 15,3% par rapport au trimestre précédent, et de 12,9% par rapport au même trimestre de 2011 (Q3 2012, fiscalement parlant). La marge brute du fondeur est elle aussi en hausse de 0,7% par rapport au même trimestre 2011, et atteint désormais 52,9%. Enfin la firme encaisse un bénéfice trimestriel de près de 210 millions de dollars, lui aussi en très nette hausse par rapport au trimestre précédent (+75,6%) et à Q3 2012 (+17,3%).
Pour expliquer ces bonnes performances Nvidia met en avant une forte demande pour les GPU Kepler et pour les SoC Tegra. Nvidia précise que les produits "hors PC" (SoC principalement, mais également Telsa) représentaient 7% du chiffre d'affaire de la marque il y a 3 ans. Leur part est montée à 30% ce trimestre. Donnée intéressante: le "consumer business" (Tegra, Icera, consoles de jeux et produits embarqués) est en hausse de 35,7% par rapport au trimestre passé, et de 27,6% par rapport à Q2 2012 (année fiscale), avec pour moteur principal, Tegra 3.
En ce qui concerne les GPU pour PC, une progression notable est mentionnée, avec une croissance de 10,7% sur un trimestre et 14,7% sur un an. Les deux moteurs de cette dynamique étant les ventes de cartes Kepler pour desktop, et le renouvellement des plateformes notebooks en Ivy Bridge, qui profite également indirectement à Nvidia.
Le segment professionnel quant à lui accuse le coup et, s'il augmente de 12,4% sur un trimestre, recule en fait de 4,2% sur un an... Tesla a bénéficié d'une commande géante du Oak Ridge National Laboratory pour son supercalculateur Titan. Une manne pour le fondeur, qui a livré pour l'occasion 18 000 Tesla K20. Les Quadro quant à elles pâtissent d'un marché des workstation plutôt amorphe, et voient leurs ventes baisser par rapport à l'an dernier, sans que Nvidia ne communique plus de chiffres.
Tesla K20 et GK110 : les specs finales ?
Comme vous devez le savoir, Nvidia prévoit de commercialiser à partir du mois de décembre la première carte basée sur le gros GPU Kepler, le GK110 et ses 7.1 milliards de transistors. Dénommée K20, elle prend place dans la gamme Tesla destinée au calcul intensif.
Certains gros clients ont reçu les premiers échantillons de la part de Nvidia et les détails commencent à fuiter. Citons par exemple le cas d'Oak Ridge National Laboratory qui est en train de faire évoluer son supercalculateur Cray XT5, dénommé Jaguar, en remplaçant progressivement ses 18688 nœuds par des plateformes XK6 équipées d'Opteron 6274 Bulldozer. 14592 de ces nœuds sont voués à recevoir un accélérateur Tesla K20.
heise online a pu relever, avant leur retrait, les spécifications finales de la Tesla K20 qui ont été publiées par CADnetwork, un revendeur de serveurs. Comme nous le supposions à son annonce, une partie des unités de calcul sont désactivées de manière à obtenir un volume de production suffisant. Alors que le GK110 embarque 15 blocs d'unités de calcul, les SMX, 13 seront actifs sur la Tesla K20.
Inattendu par contre, Nvidia aurait également désactivé l'un des 6 contrôleurs mémoire 64-bit du GPU ce qui impliquerait qu'il devrait se contenter de 5 Go de GDDR5 et non de 6 Go comme annoncé au départ. Nous utilisons cependant le conditionnel sur ce point puisqu'il est possible, mais peu probable, que ces spécifications reposent sur des chiffres qui correspondent à l'ECC activé : sur 6 Go, seuls 5.25 Go restent ainsi accessibles dans ce mode.
Les spécifications font état d'une fréquence GPU relativement faible de 705 MHz, ce qui était sans aucun doute nécessaire pour ne pas dépasser le TDP de 225W. En présumant que les spécifications ne prennent pas en compte l'activation de l'ECC, ce n'est en général pas le cas, la mémoire GDDR5 serait ainsi cadencée à 1250 MHz.
Comme vous pouvez le constater à travers ces quelques chiffres bruts, avec quelques unités désactivées et une fréquence relativement faible, la carte Tesla K20 se situe au niveau d'un exemplaire de GeForce GTX 680 équipé d'un GPU dont le turbo dispose d'une fréquence élevée. La Tesla K20 profite par contre d'une puissance en double précision nettement plus élevée ainsi que de différentes petites évolutions qui permettront de rendre le GPU plus efficace en tant que coprocesseur massivement parallèle.
Ces spécifications laissent cependant penser qu'il sera difficile pour Nvidia de proposer une variante GeForce intéressante du GK110 sans faire exploser le TDP, même si le turbo maison, GPU Boost, permet de laisser la fréquence GPU monter quelque peu dans le TDP défini. Notons que certaines rumeurs laissent d'ailleurs entendre que Nvidia pourrait ne pas utiliser ce GK110 pour sa prochaine GeForce haut de gamme. Au profit d'un GPU moins complexe mais plus hautement cadencé ?
Nvidia lance les Quadro K5000 et Kepler mobiles
La réponse de Nvidia face à l'arrivée de la nouvelle gamme FirePro n'aura pas tardé avec tout d'abord l'annonce de la première Quadro de la génération Kepler. Nvidia ne pouvant pas laisser le champ libre à AMD en attendant l'arrivée du GPU haut de gamme de cette génération, mieux pensé pour le monde professionnel, c'est une déclinaison de l'actuelle GeForce GTX 680 qui verra le jour dans un premier temps.
La Quadro K5000 (Kepler), qui remplace la Quadro 5000 (Fermi), est ainsi basée sur le GPU GK104, avant tout optimisé pour offrir un rendement optimal dans les jeux. En version professionnelle et par rapport à l'ancienne gamme, ce GPU offre des performances graphiques élevées, un très bon rendement énergétique, le support du PCI Express 3.0 et la gestion de 4 écrans. En contrepartie, il n'est pas du tout adapté au calcul en double précision et perd la protection ECC des caches internes, deux points qui seront corrigés par le GK110 début 2013.
La Quadro K5000 dispose de 1536 unités de calcul cadencées à +/- 690 MHz (Nvidia ne communique pas la fréquence exacte) pour une puissance brute de 2.1 Tflops en simple précision qui tombe à 0.1 Tflops en double précision (contre 0.52 Tflops pour la Quadro 6000 et 0.36 Tflops pour la Quadro 5000). Elle est accompagnée de 4 Go de GDDR5 cadencée à 1350 MHz et interfacée en 256 bits pour une bande passante mémoire totale de 160.9 Gio/s. La carte propose deux sorties DVI Dual Link ainsi que deux sorties DisplayPort. Particularité intéressante : elle se contente de 122W, ce qui ravira de nombreux intégrateurs qui préfèrent éviter de passer au-dessus de 150W.
Pour compenser les capacités limitées au niveau du GPU computing de cette Quadro K5000, Nvidia met en avant sa solution Maximus. Pour rappel, il s'agit du nom commercial donné à la possibilité d'associer dans un même système une carte Quadro (graphique pro et compute) et une carte Tesla (compute) tout en continuant à profiter de tous les avantages des pilotes Quadro. L'utilisation de ces pilotes débridés et certifiés pour de nombreuses applications graphiques professionnelles est strictement encadrée par Nvidia puisque ce sont eux qui justifient la tarification des Quadro. Les cartes Tesla, relativement moins chères, sont limitées au support du GPU computing et pouvoir les associer à des Quadro sans que celles-ci ne voient leurs pilotes limités permet de réduire quelque peu le coût de la mise en place de systèmes très performants tant sur le plan graphique que du calcul massivement parallèle, ce qui devient nécessaire pour certaines applications.
N'importe quelle combinaison de Quadro et de Tesla est possible, mais à condition de rester sur une même génération. Nvidia insiste donc sur l'association d'une carte Tesla K20 avec une Quadro K5000 pour former un couple Kepler très polyvalent. Reste que si la Quadro K5000 est prévue pour octobre, il faudra attendre au mieux le mois de décembre pour mettre en place un tel système, la Tesla K20 étant basée sur le GPU GK110 qui n'est pas encore disponible. Question tarification, la Quadro K5000 sera proposée à 2249$ et la Tesla K20 à 3199$ pour un coût total de 5448$. De quoi préfigurer du prix d'une future Quadro K6000 ?
Parallèlement à cette annonce, Nvidia étend sa famille de Quadro mobiles dérivées de l'architecture Kepler. Il y a 2 semaines, la Quadro K5000M avait fait une apparition discrète et est aujourd'hui rejointe par les Quadro K4000M, K3000M, K2000M, K1000M et K500M.
Leurs fréquences n'étant pas communiquées, nous ne disposons que d'une partie de leurs spécifications. La Quadro K5000M est basée sur le GK104 et équipée de 1344 unités de calcul. Il s'agit grossièrement d'une version pro de la GeForce GTX 680M mais dont la fréquence mémoire a été revue à la baisse, probablement pour rester dans le TDP de 100W malgré le passage à 4 Go de mémoire vidéo.
Les Quadro K4000M et K3000M sont probablement basées sur le GK106 : la première se contente de 960 unités de calcul et la seconde de 576. La Quadro K3000M voit également sa mémoire vidéo réduite à 2 Go, ce qui lui permet de tenir dans une enveloppe thermique de 75W.
Les trois autres Quadro mobiles sont pour leur part basées sur le GPU GK107. La Quadro K2000M en exploite une version complète, avec 384 unités de calcul, mais limitée à de la mémoire DDR3 sur 128 bits. Elle correspond à la version pro d'une GeForce GT 650M ou 640M DDR3. La Quadro K1000M est similaire mais voit son GPU bridé à 192 unités de calcul. Un bridage accentué sur la Quadro K500M qui doit également se contenter d'un bus mémoire de 64 bits pour la DDR3.
Toutes ces Quadro mobiles supportent Optimus, qui permet de les éteindre lorsqu'elles ne sont pas utiles sur les systèmes également équipés d'un core graphique intégré de manière à réduire la consommation énergétique des portables. Elles ont d'ores et déjà été intégrées par Dell, Fujitsu, HP et Lenovo dans différentes stations de travail mobiles.