GeForce GTX 1070 8 Go et GTX 1060 6 Go : les cartes d'Asus et Gainward en test face aux Founders Edition de Nvidia

Publié le 19/07/2016 par
Imprimer

GP106 : 4.4 milliards de transistors en 16 nm

Si la GeForce GTX 1070 reprend le même GPU GP104 que la GeForce GTX 1080, avec quelques unités désactivées, la GeForce GTX 1060 introduit un second GPU Pascal "G", conçu avant tout pour la gamme GeForce et les joueurs. Ce GP106 reprend exactement la même architecture Pascal que le GP104 et vous pourrez retrouver les détails la concernant dans les premières pages du dossier consacré à la GeForce GTX 1080.

Avec le GP100 dédié aux accélérateurs Tesla, il s'agit de la troisième puce Nvidia produite par TSMC sur le procédé de fabrication 16 nm FinFET Plus (FF+). Après plus de 4 ans de GPU fabriqués en 28 nm chez le même TSMC, le passage au 16 nm FF+ représente une évolution significative qui permet de nouveaux compromis plus avantageux en termes de consommation énergétique, de performances et de fonctionnalités. Tout comme pour le GP104, le design du GP106 a été travaillé de manière à pouvoir atteindre de très hautes fréquences sans pour autant sacrifier le rendement énergétique.

Le GP106 et sa mémoire GDDR5.

Voici comment se situe le GP106 parmi les GPU récents :

  • GP100 : 15.3 milliards de transistors pour 610 mm²
  • Fiji : 8.9 milliards de transistors pour 598 mm²
  • GM200 : 8.0 milliards de transistors pour 601 mm²
  • GP104 : 7.2 milliards de transistors pour 314 mm²
  • GK110 : 7.1 milliards de transistors pour 561 mm²
  • Hawaii : 6.2 milliards de transistors pour 438 mm²
  • Polaris 10 : 5.7 milliards de transistors pour 232 mm²
  • GM204 : 5.2 milliards de transistors pour 398 mm²
  • Tonga : 5.0 milliards de transistors pour 368 mm²
  • GP106 : 4.4 milliards de transistors pour 200 mm²
  • GK104 : 3.5 milliards de transistors pour 294 mm²
  • Polaris 11 : ???
  • GM206 : 2.9 milliards de transistors pour 228 mm²
  • Pitcairn : 2.8 milliards de transistors pour 212 mm²
  • GK106 : 2.5 milliards de transistors pour 214 mm²
  • Bonaire : 2.1 milliards de transistors pour 158 mm²

Le GP106 est un petit GPU de 200 mm². Il est plus petit que le récent Polaris 10 d'AMD et que le GM206 qu'il remplace. Comme nous allons le voir, grâce aux hautes fréquences, il est capable d'égaler le GM204 avec une taille réduite de moitié et une empreinte énergétique réduite.

Le passage au 16 nm permet évidemment de faire exploser la densité de transistors par rapport au 28 nm. Il ne faut cependant pas se fier à ces chiffres qui sont plus des noms commerciaux des procédés de fabrication que des mesures de la géométrie qui définissent leur densité. Ainsi, contrairement à ce qui a pu être vrai par le passé, le 16 nm ne permet pas de tripler le nombre de transistors par mm² par rapport au 28 nm. Ces technologies sont très complexes et la densité réelle est déterminée par de nombreux paramètres qui dépassent le cadre de cet article. Voici les densités relevées sur les GPU Nvidia les plus récents :

  • Polaris 10 : 24.6 millions de transistors par mm²
  • Tonga : 13.6 millions de transistors par mm²
  • Pitcairn : 13.2 millions de transistors par mm²
  • GP104 : 22.9 millions de transistors par mm²
  • GP106 : 22.0 millions de transistors par mm²
  • GM204 : 13.1 millions de transistors par mm²
  • GM206 : 12.7 millions de transistors par mm²

La densité est un petit peu plus élevée sur les plus gros GPU, probablement parce qu'une partie des E/S (entrées/sorties, I/O) à faible densité est identique et représente moins d'espace en proportion alors qu'à l'inverse ils intègrent en général plus de mémoire qui représente des structures plus denses, nous n'avons donc pas inclus les énormes GP100 et Fiji dans cette comparaison.

Entre le GP106 et le GM206, la densité progresse de 73%. Du côté d'AMD, entre le Polaris 10 et Tonga elle progresse de 81%. Des chiffres qui semblent confirmer le petit avantage au niveau de la densité entre le 14nm LPP exploité par AMD et le 16nm FF+ qui a la préférence de Nvidia, même s'il y a de nombreux autres paramètres à prendre en compte.

GP106 : pas simplement un demi GP104

Pour comprendre l'architecture du GP104, quelques rappels s'imposent concernant la manière dont Nvidia schématise l'organisation interne de ses GPU. A un niveau élevé, ils se composent de un ou plusieurs GPC (Graphics Processing Cluster). Chacun contient un rasterizer chargé de projeter les primitives et de le découper en pixels.

A l'intérieur de ces GPC, nous retrouvons un ou plusieurs TPC (Texture Processor Cluster). Ne vous fiez pas à ce nom, vestige de précédentes architectures, le TPC est aujourd'hui décrit comme la structure qui représente le Polymorph Engine, nom donné à l'ensemble des petites unités fixes dédiées au traitement de la géométrie (chargement des vertices, tessellation etc.).

Enfin, au plus bas niveau, ces TPC intègrent un ou plusieurs SM (Streaming Multiprocessor) qui représentent le coeur de l'architecture. C'est à leur niveau que prennent place les unités de calcul, les unités de texturing, les registres ou encore la mémoire partagée utile au GPU computing.

Sur base de ces éléments, voici comment sont organisés les GP104 (complet ou en version GTX 1070) et GP106 :


[ GP104 ]  [ GP104 (GTX 1070) ]  [ GP106 ]  

Nous pouvons observer tout d'abord que pour mettre au point la GeForce GTX 1070, Nvidia a désactivé un GPC complet, soit 25% des unités de calcul, de texturing et de traitement de la géométrie, mais rien d'autre. L'interface mémoire reste ainsi complète et il n'y a pas d'entourloupe similaire à ce qui s'est passé pour la GeForce GTX 970.

Pour le GP106, Nvidia reprend la même structure de GPC que pour le GP104, mais il n'y en a plus que deux. Par contre, le bus mémoire n'a pas été réduit dans la même proportion. Il ne passe pas à 128-bit mais bien à 192-bit ce qui implique que le GP106 va disposer de 48 ROP et de 1.5 Mo de cache L2.

Bien qu'équipé de 48 ROP, le GP106 ne sera pas pour autant capable de débiter 48 pixels par cycle. Il sera limité en amont par les 2 rasterizers des deux GPC qui ne peuvent générer que 32 pixels par cycle. Cela ne veut pas dire que les ROP supplémentaires sont inutiles, ils pourront apporter un gain avec MSAA ou encore avec certains formats de données qui sont traités plus lentement, tels que le FP32.

Voici pour comparaisons les spécificités de quelques GPU Nvidia sur 3 générations :

  • GP100 : 6 GPC, 60 SM, 3840 FP32, 128 ROP ?, bus 4096-bit, 4096 Ko de L2
  • GM200 : 6 GPC, 24 SM, 3072 FP32, 96 ROP, bus 384-bit, 3072 Ko de L2
  • GK110 : 5 GPC, 15 SM, 2880 FP32, 48 ROP, bus 384-bit, 1536 Ko de L2
  • GP104 : 4 GPC, 20 SM, 2560 FP32, 64 ROP, bus 256-bit, 2048 Ko de L2
  • GM204 : 4 GPC, 16 SM, 2048 FP32, 64 ROP, bus 256-bit, 2048 Ko de L2
  • GK104 : 4 GPC, 8 SM, 1536 FP32, 32 ROP, bus 256-bit, 512 Ko de L2
  • GP106 : 2 GPC, 10 SM, 1280 FP32, 48 ROP, bus 192-bit, 1536 Ko de L2
  • GM206 : 2 GPC, 8 SM, 1024 FP32, 32 ROP, bus 128-bit, 1024 Ko de L2
  • GK106 : 3 GPC, 5 SM, 960 FP32, 24 ROP, bus 192-bit, 384 Ko de L2

Par rapport au GM206, le GP106 apporte 25% d'unités de calcul et de texturing en plus ainsi qu'un bus mémoire élargi de 50%. Ce n'est pas tout bien entendu et il faut également compter avec une nette augmentation de la fréquence GPU :

Nvidia nous avait indiqué ne pas avoir travaillé particulièrement les fréquences du GP100, qui profite simplement des gains automatiques liés au 16 nm, mais il en va tout autrement pour les GP104 et GP106. Nvidia explique avoir passé en revue le moindre circuit du GPU pour retravailler tout point faible qui entravait la montée en fréquence. De quoi pouvoir proposer une fréquence turbo de référence de 1709 MHz sur la GTX 1060 soit un bond énorme de 45% par rapport aux 1178 MHz du GM206 qui équipe la GTX 960. Et cela tout en laissant une marge d'overclocking similaire puisqu'il est aisé d'atteindre 2 GHz avec ces GPU Pascal G.

Si nous combinons les +25% d'unités de calcul et les +45% en fréquence, cela nous donne cette fois une progression bien plus intéressante de la puissance brute par rapport au GM206 : +80%. Pour accompagner cette évolution de la puissance du GPU, il faut évidemment une interface mémoire capable de l'alimenter correctement. Pour la GTX 1080, Nvidia a eu recours à la GDDR5X, mais sa disponibilité est limitée. La GTX 1060 et le GP106 doivent donc se contenter de GDDR5 classique mais dans sa version la plus rapide : 8 Gbps contre 7 Gbps pour les GeForce GTX 900. C'est également cette mémoire qui est associée au GP104 dans la GTX 1070.

Pour aller un peu plus loin à ce niveau, Nvidia a amélioré son système de compression sans perte du framebuffer. Plus spécifiquement, c'est le codage différentiel pour les couleurs, également appelé compression delta, qui progresse à nouveau. De quoi faire progresser la bande passante mémoire effective de 20% par rapport aux GPU Maxwell. Le GP106 est donc plutôt bien armé avec une interface mémoire au total un peu plus de deux fois plus performante que celle du GM206.

Vos réactions

Top articles