Les contenus liés au tag ARM

Afficher sous forme de : Titre | Flux Filtrer avec un second tag : 10nm; AMD; ARMv8; Intel; Nvidia; Qualcomm; Samsung; Tegra; TSMC; Windows;

CES: Nvidia Tegra X1: Maxwell + Cortex A57/53

Publié le 05/01/2015 à 09:30 par Damien Triolet

Comme chaque année, Nvidia profite du CES de Las Vegas pour dévoiler un nouveau SoC. Pour cette édition 2015, c'est le Tegra X1 qui est mis en avant. Au menu, le passage au 20nm, un GPU Maxwell de seconde génération optimisé pour le monde mobile et un ensemble de cœurs Cortex-A57 et A53 pour former le CPU.


Après les Tegra K1 32-bits et 64-bits, Nvidia passera dans le courant de 2015 au Tegra X1, connu précédemment sous le nom de code Erista. Une évolution qui était attendue mais qui réserve quelques surprises, notamment au niveau de sa partie CPU qui ne fait pas appel aux cœurs ARMv8 maison (nom de code Denver) exploités dans le Tegra K1 64-bits. A la place, Nvidia reprend, comme Qualcomm et Samsung, les cœurs ARM 64-bits "standards", des Cortex-A57 et des Cortex-A53.


Des cœurs ARM 64-bits standards en 20nm
Nvidia explique ce choix par le fait que le développement du Tegra K1 64-bits et du Tegra X1 s'est fait en parallèle en visant des procédés de fabrication différents. Il n'aurait ainsi pas été possible de profiter de l'expérience du développement du premier avec les cœurs Denver pour mettre au point le second. Dans ce sens il faut voir le Tegra X1 comme le successeur du Tegra K1 32-bits alors qu'une variante équipée des cœurs Denver sera dévoilée plus tard (Parker ?).


Cette approche permet à Nvidia de réduire les risques lors du passage au 20 nanomètres puisque, en amont, ARM s'est assuré de proposer un design adapté à cette technologie du fondeur TSMC. Pour son implémentation, Nvidia a d'ailleurs abandonné l'approche 4+1 des précédents Tegra qui consistait à associer un unique cœur optimisé basse consommation à un ensemble de 4 cœurs similaires mais orientés performances. L'an passé, Nvidia nous expliquait que ce mode 4+1 était beaucoup plus efficace que ce que faisait la concurrence qui avait opté pour une approche 4+4 mais avec 2 types de cœurs différents.

Changement de discours cette année, probablement parce que Nvidia n'a pas eu le choix, l'implémentation proposée par ARM a été optimisée pour du 4+4. Nvidia a donc opté pour 4 Cortex-A57 (en version cache L1 I/D de 48/32 Ko) associés à 4 Cortex-A53 (avec cache L1 I/D de 32/32 Ko). Contrairement à ce que le marketing essayera de vous vendre, cela n'en fait cependant pas un SoC octocore. Le Tegra X1 reste un SoC quadcore puisque ces 2 groupes de cœurs ne peuvent en aucun cas être exploités simultanément. Au repos ou à très faible charge CPU, les Cortex-A53 sont exploités et dès qu'une charge CPU plus lourde est initiée, ils passent au repos et les Cortex-A57 entrent en action.


Nvidia indique que son implémentation est cependant plus efficace sur le plan énergétique que celle d'autres fabricants, notamment Samsung, qui ont fait un choix similaire. Il est question d'une réduction de moitié de la consommation à performances égales et d'un gain de performances de 40% à consommation égale. Nvidia explique cela d'une part par l'expérience acquise lors du design de puces 4+1 qui lui a donné une bonne maîtrise de l'exploitation des possibilités des process de TSMC pour intégrer sur une même puce deux ensembles de cœurs CPU au profil énergétique très différent. D'autre part, Nvidia exploite sa propre interconnexion, moins gourmande que celle proposée par ARM (CCI-400).

Au niveau du sous-système mémoire, l'ensemble de Cortex-A57 profite d'un cache L2 de 2 Mo, comme les précédents Tegra, alors que les Cortex-A53 se contentent de 512 Ko. Le bus mémoire reste large de 64-bit mais passe de la LPDDR3-1866 (au départ il était question de LPDDR3-2133 mais Nvidia n'en parle plus) à la LPDDR4-3200 (jusqu'à 4 Go) pour offrir un gain de bande passante de 70%. De quoi permettre notamment d'alimenter le GPU plus musclé.


Un GPU Maxwell de seconde génération avec support du FP16
Rappelons que là où Kepler avait été portée dans le monde Tegra alors que Nvidia était déjà très avancé dans le développement de cette architecture, Maxwell est la première qui a été pensée dès le départ pour le monde mobile. Ce qui participe au fait que Nvidia ait fait un effort supplémentaire au niveau de son efficacité énergétique. Alors que de nombreux fabricants de SoC ont opté pour les mêmes cœurs CPU que ceux exploités par le Tegra X1, le GPU est bien entendu l'élément principal qui permet à Nvidia de se démarquer.


Le Tegra X1 fait ainsi appel à un GPU Maxwell de seconde génération, le GM20B, similaire au GM204 qui équipe les GeForce GTX 980 et GTX 970, mais bien entendu équipé de moins d'unités de calcul. Vous pourrez retrouver les détails à son sujet dans le dossier que nous avions consacré à ces cartes graphiques et à l'architecture Maxwell.

Là où le GM204 desktop embarque 16 blocs de 128 unités de calculs, appelés SMM, le GM20A s'en contente de 2. Le nombre d'unités de calcul principal passe donc de 2048 à 256, soit 1/8ème de la puissance de calcul du GPU le plus performant du moment, ce qui reste impressionnant pour un petit SoC. A noter que les Tegra K1 se contentaient d'un seul SMX, mais de 192 unités de calcul. Cependant sur cet ensemble, seules 128 unités était exploitables efficacement et les 64 supplémentaires n'offraient qu'un gain minime. En passant à 2 SMM avec le Tegra X1 et à une fréquence légèrement supérieure, Nvidia n'est pas loin de doubler la puissance de calcul pratique de son GPU.


Mais ce n'est pas tout. Les 256 unités de calcul du Tegra X1 évoluent pour supporter de nouvelles instructions qui vont pouvoir doubler la puissance de calcul dans certains cas. Ces instructions sont des opérations FP16 vectorielles pour les FMA, les multiplications et les additions. De plus faible précision, le format de calcul FP16 est suffisant pour bien des usages, notamment pour les jeux mobiles, et alors que la concurrence y a massivement recours pour booster les performances et l'efficacité énergétique, il était devenu inévitable pour Nvidia d'en profiter également.

Pour les GPU Nvidia précédents, aucune précision inférieure au FP32 n'est supportée directement par les unités de calcul. Si celles-ci doivent traiter une opération basse précision en FP16, elles doivent donc les traiter comme des opérations FP32 avec un débit identique et uniquement quelques petites optimisations mineures.

Pour le Tegra X1, l'ajout d'instructions vec2 permet à chaque unité de calcul FP32 de traiter deux opérations FP16 simultanément et donc de doubler le débit. Ces unités restent alimentées par des registres 32-bits classiques dans lesquels sont placées deux valeurs 16-bits. Une implémentation basique qui implique une modification mineure de l'architecture mais qui transpose tout le travail de l'exploitation du FP16 au compilateur qui devra faire en sorte de trouver des opérations vec2 dans le code et parvenir à optimiser l'utilisation du fichier registres entre les valeurs FP32 et FP16.

Cela permet de doubler la puissance de calcul théorique, qui atteint 1 TFlops à 1 GHz, mais en pratique le taux d'utilisation sera rarement optimal. Ceci étant dit il s'agit dans tous les cas d'un gain performances appréciable qui profitera notamment aux jeux mobiles friands de FP16.


Nvidia a également implémenté la dernière itération de sa technologie de compression des couleurs, et plus spécifiquement du codage différentiel. Son principe de base consiste à ne pas enregistrer directement les couleurs mais leur différence par rapport à une autre qui fait office de repère. Suivant les spécificités de chaque scène, cette technique de compression sans perte permet d'économiser une part significative de la bande passante mémoire, ce qui profite aux performances.

L'ensemble de la chaine d'affichage supporte ces méthodes de compression, ce qui permet de réduire la bande passante à tous les niveaux, jusqu'au moteur d'affichage qui ne décompresse qu'au moment de l'envoi vers l'interface de l'écran. Le cache L2 passe par ailleurs de 128 à 256 Ko, de quoi également d'éviter certains accès à la mémoire centrale. Au final, les techniques de cache et de compressions sans perte permettent par exemple de réduire la bande passante nécessaire de moitié dans Half-Life avec un gain de 30% par rapport au Tegra K1 qui était pourtant déjà plutôt efficace de ce côté.

Pour le reste, toutes les technologies supportées par les gros GPU de bureau le sont par le Tegra X1 : Direct3D 12, OpenGL ES 3.1, AEP, OpenGL 4.5, CUDA 6.0, MFAA, VXGI…


4K et 60 Hz
Le moteur vidéo, cette fois spécifique au SoC Tegra, a été lui aussi revu pour le X1. Nvidia s'est particulièrement penché sur le support de la 4K, qui lui permettra de se différencier par rapport à la concurrence sur un autre plan que la 3D. Tout le pipeline vidéo a ainsi été optimisé pour la lecture du contenu 4K à 60 fps, qui devrait être proposé notamment par le service de streaming de Netflix même s'il faut bien avouer que cela ne concernera qu'une minorité de vidéos et d'utilisateurs.


Cela passe bien entendu par un moteur de décodage 100% matériel. Il supporte la 4K à 60 fps en H.264, en H.265 (HEVC) ainsi qu'en VP9, avec un débit maximal non précisé. La profondeur des couleurs de 10-bit est également supportée en H.265 en 4K et 60 fps. Au niveau de l'encodage, Nvidia se "contente" par contre de la 4K à 30 fps en H.264 et H.265 et du 1080 à 60 Hz en VP8.

Deux écrans peuvent être supportés par le moteur d'affichage, compatible HDMI 2.0 et HDCP 2.2. Il supporte par ailleurs la technologie DSC de VESA qui permet de transmettre une image compressée à l'écran.

Le support de l'Adaptive Sync qui permettrait d'améliorer la fluidité dans le monde mobile de manière standardisée n'est par contre pas au menu. A cette question, Nvidia répond par son attachement à G-Sync accompagné d'un traditionnel "wait & see", de quoi nous laisser penser que cette technique d'affichage, ou un dérivé, pourrait être supporté sur le Tegra X1.


L'efficacité énergétique en démo
Pour mettre en avant les capacités de son SoC, Nvidia avait préparé quelques démos basées sur une plateforme de développement. Celle-ci est relativement compacte et se contente d'un dissipateur en aluminium relativement fin, censé représenter les capacités de refroidissement d'une tablette.

 
 

Quel est le TDP de ce SoC Tegra X1 ? Question délicate à laquelle il est toujours difficile d'obtenir une réponse directe. Pour ses démos, Nvidia parle d'environ 5W, mais lors de la présentation globale réalisée par son CEO, il était plutôt mentionné 10W.

 
 

Comme à son habitude, Nvidia exploite des comparaisons "isoperf" (à performances égales) pour mettre en avant l'efficacité énergétique de ses futurs SoC face aux solutions actuelles déjà sur le marché. Des données qui ont selon nous un intérêt limité puisque cette approche consiste à réduire drastiquement les fréquences et tensions du SoC le plus performant. Un calcul du rendement énergétique sur base des conditions d'utilisation réelles des puces est plus pertinent, mais cela ne permet pas d'aller chercher le fameux 2x, un must pour mettre en avant les nouveautés.

L'exemple le plus parlant est le test Manhattan, dans lequel le Tegra X1 se comporte très bien en doublant les performances par rapport au Tegra K1 et à l'A8x d'Apple. En réduisant les fréquences du Tegra X1, Nvidia observe un rendement énergétique supérieur de 77% (1.51W pour le GPU du Tegra X1, 2.68W pour celui de l'A8x). Nvidia nous indique par contre qu'à pleines performances (64 contre 33 fps), la consommation du GM20B se situe plutôt à environ 3.5W. Un petit calcul montre cette fois un gain du rendement énergétique de 48%. Un chiffre plus réaliste, mais qui reste un excellent résultat.


Le Tegra X1 face à la Xbox One ?
Souvenez-vous, lors de l'introduction du Tegra K1, il avait été comparé à la Xbox 360. Nvidia poursuit dans cette voie et pour terminer la présentation du Tegra X1, nous avons eu droit à la démo de l'Unreal Engine qui avait été utilisée pour mettre en avant les consoles de "nouvelle génération", la PS4 et la Xbox One.


Il est sans aucun doute quelque peu exagéré de dire qu'un SoC Tegra X1 dispose de capacité CPU et GPU identique à celles de ces consoles, mais le fait que cette démo (ou même une version allégée) tourne correctement sur une telle puce, montre bien les progrès qui ont été accomplis.

Si Nvidia annonce donc une fois de plus un SoC prometteur au CES, la question du timing de sa disponibilité n'a pas été abordée. Ce sera plus tard dans l'année et la concurrence proposera probablement des évolutions d'ici-là. Nvidia estime cependant que son nouveau bébé gardera la tête au niveau des capacités et des performances de son GPU. De quoi proposer une évolution de sa tablette Shield dans le courant de l'été ? Avec fonction G-Sync ?

Restera ensuite à voir quand une variante à base de cœurs Denver pourra être proposée mais l'absence totale d'information ou de démos à son niveau laisse penser qu'elle n'arrivera pas avant fin 2015 ou 2016.

TSMC et ARM partenaires pour le 10nm

Tags : 10nm; ARM; TSMC;
Publié le 02/10/2014 à 11:22 par Guillaume Louel

TSMC et ARM ont profité de l'ARM TechCon  pour renouveler leur partenariat technologique. Il s'agit cette fois ci de préparer le terrain pour le futur process 10FinFET de TSMC, un process de gravure en 10nm qui utilisera – comme son nom l'indique – des transistors en forme d'ailettes. Il s'agira de la troisième génération de processeurs FinFet (après le « 16FinFet » et le « 16FinFet plus »), sur une finesse de gravure qui pourrait voir arriver, pour la première fois, la lithographie EUV sur quelques unes des couches (voir cette actualité).


L'annonce d'aujourd'hui indique que TSMC et ARM travailleront conjointement pour porter les designs de processeurs basés sur l'architecture ARMv8 (64 bits) sur le process 10FinFet. Un travail préliminaire qui pourra ainsi être partagé avec leurs différents clients communs. TSMC et ARM avaient déjà collaboré de la sorte en réalisant un tape out de Cortex-A57 (finalisation des designs avant la mise en production des masques de photolithographie) en avril 2013, tandis que nous avions vus arriver la première puce fonctionnelle la semaine dernière. Soit presque 18 mois entre le premier tape-out et la première puce fonctionnelle.

Côté date, les deux sociétés évoquent le quatrième trimestre 2015 pour le tape out, pour des cores qui ne sont pas encore spécifiés (il s'agira surement des successeurs des Cortex-A57/A53). Pour la mise en production en volume du 10nm, il faudra attendre un peu plus, probablement courant 2017 même si pour l'instant TSMC n'a fourni aucune information. On rappellera que si le 20nm est en production actuellement chez TSMC (pour Apple et Qualcomm), le 16nm avait été annoncé en production pour le second trimestre 2015, avant d'être repoussé officiellement sur la seconde moitié de 2015 lors de la dernière conférence dédiée aux analystes de TSMC. Si des rumeurs en provenance de médias chinois font état du fait que ce process pourrait (de nouveau !) avoir été avancé au début de l'année 2015, il n'y a pas eu de confirmation officielle sur le sujet.

La prochaine conférence de TSMC se tiendra le 16 octobre prochain.

AMD annonce son projet Skybridge et le K12

Tags : AMD; ARM; ARMv8; Skybridge;
Publié le 05/05/2014 à 19:42 par Guillaume Louel

Ce n'était plus vraiment un secret, AMD s'intéresse de très près a ARM depuis quelques temps. Un intérêt qui s'était concrétisé avec l'annonce de Seattle, un SoC serveur fabriqué en 28nm qui prendra place dans la gamme Opteron, basé sur des cores ARM Cortex-A57. Lors d'une conférence dédiée aux investisseurs ce soir, AMD a effectué une (longue) démonstration de sa plateforme Seattle faisant fonctionner une installation LAMP (Linux, Apache, MySQL, PHP). AMD tenant à insister quelque peu maladroitement sur le fait que l'écosystème logiciel côté serveur n'est pas marié indubitablement au x86. C'est certes vrai, mais la démo au final aurait pu fonctionner de la même manière sur un simple NAS d'entrée de gamme équipé d'un ARM 32 bits !


Les prévisions d'AMD montrent un tassement du marché x86 dans les années à venir au profit d'ARM.

La vraie raison de cette conférence aux investisseurs n'était heureusement pas cette démonstration, mais l'annonce des projets à venir. C'est pour 2015 que les choses s'échaufferont avec l'arrivée d'ARM dans la gamme AMD ailleurs que dans les serveurs. C'est à cela que correspond le projet Skybridge. Il s'agit d'une prochaine génération de SoC qui sera basée sur un process 20nm (AMD n'a pas précisé s'il s'agissait de TSMC ou de GlobalFoundries). On retrouvera une base SoC commune (une « fabric ») avec un GPU GCN, le support de HSA et au choix des cores « Puma+ » ou des cores Cortex-A57.


L'avantage de la solution est de proposer des SoC qui seront « pin compatible » permettant de créer des designs uniques (au niveau des cartes mères) qui pourront accueillir au choix des SoC ARM et x86. Une idée qui permet en théorie de donner plus de flexibilité aux développeurs de matériels pour créer par exemple un design commun de tablette x86 ou ARM. AMD n'a pas évoqué précisément de marché visé mais le sous-entendu étant de viser plus effectivement le marché des tablettes – au moins en 2015. Si les smartphones ont été évoqués brièvement AMD n'a pas confirmé à partir de quand une déclinaison serait disponible, indiquant simplement ne pas chercher à viser la partie « entrée de gamme » de ce marché.


L'autre annonce concerne ce qui se passera à partir de 2016. Actuellement AMD n'utilise que des cœurs génériques conçus ARM, mais cela va changer. Le constructeur a annoncé disposer d'une licence « architecture » auprès d'ARM, une licence déjà utilisée par AMD pour concevoir l'architecture « K12 » qui sera une implémentation custom d'armv8 (à l'image de ce qu'a proposé Apple avec son A7).

En entrant sur le marché ARM, et plus particulièrement des designs customs, AMD arrive – un peu tard – sur un marché très ouvert, mais aussi très concurrentiel et ou les marges sont en général minces. Une situation renversée par rapport au marché x86 ou AMD n'a qu'un concurrent et où il profite, malgré tout, de marges historiquement plus importantes. En proposant des Cortex-A57 génériques pour 2015, AMD jouera avant tout sur son expertise graphique et son architecture GCN pour se différencier.

A sa décharge, AMD ne sera pas le seul à proposer des cores ARM génériques en 2015 suivi d'une architecture custom plus tard, c'est la stratégie qu'utilisera par exemple Qualcomm qui a annoncé des Snapdragon 808 et 810, Cortex-A57 (et A53) en 20nm fabriqués chez TSMC pour 2015 également en attendant un successeur de Krait (l'architecture custom de Qualcomm en 32 bits) pour plus tard.

ARM annonce le Cortex-A17

Tags : ARM; Mediatek;
Publié le 12/02/2014 à 16:59 par Guillaume Louel

Après l'annonce d'un Cortex-A12 au dernier Computex, ARM vient d'annoncer un nouveau design baptisé Cortex-A17 . Comme l'indique son nom, il s'agit non pas d'un design 64 bits (ARMv8 comme le sont les A53/A57) mais bel et bien d'un design 32 bits basé sur l'architecture ARMv7a que l'on connait sur les Cortex-A9, A12 et A15. ARM continuera de proposer les deux architectures en parallèle pour viser différents marchés. L'A17 étant, à l'image de l'A12, destiné au marché du milieu de gamme.


Les similarités avec le Cortex-A12 ne s'arrêtent d'ailleurs pas là et on pourra voir l'A17 comme une nouvelle version de l'A12. Contrairement à ce dernier qui devrait arriver dans la seconde moitié de l'année, l'A17 est prévu pour 2015. L'A17 reprend les bases de l'A12 à savoir une architecture OOO dual issue qui évolue par petites touches pour être 15% plus efficace. ARM donne assez peu de détails sur les changements si ce n'est qu'ils toucheraient principalement le contrôleur mémoire.

Ces 15% de performances permettent d'atteindre un niveau de performance équivalent à ce que proposait le Cortex-A15 avec un budget de transistors inférieur et une meilleure efficacité énergétique, et permettent enfin à ARM sur un plan marketing de tourner la page de l'A15. C'est d'ailleurs probablement ce qui nous vaut l'existence même de cet A17.

On notera que si ARM évoque 2015 pour la disponibilité des puces dans des périphériques, ses partenaires sont un peu plus optimistes. Mediatek a annoncé en parallèle  un A17 pour smartphone baptisé MT6595. Il s'agira d'un quad core avec support de big.LITTLE (l'intégration de quatre cores A7 très peu énergivores pour optimiser la consommation), le GPU étant un PowerVR Series 6. La disponibilité des puces est annoncée pour le second trimestre, les smartphones devraient suivre pour la seconde moitiée de l'année selon la marque chinoise.

AMD annonce les Opteron ARM Seattle

Tags : AMD; ARM; ARMv8;
Publié le 29/01/2014 à 13:21 par Guillaume Louel

AMD a profité de l'Open Compute Summit  (une conférence issu de l'Open Compute Project démarré par Facebook ) pour annoncer officiellement ses SoC serveurs basés sur une architecture ARM.

Ce n'est pas une surprise puisque le constructeur avait annoncé son intention dès 2012 suite au rachat de SeaMicro et l'année dernière, les roadmaps du constructeur incluaient l'arrivée d'un premier SoC baptisé Seattle pour la seconde partie de l'année 2014.


AMD annonce donc officiellement ces SoC qui porteront le nom d'Opteron A1100. Comme indiqué précédemment, AMD utilisera des cores Cortex-A57 de design ARM, et non un design custom. Ces derniers sont compatibles avec l'architecture ARMv8 qui apporte pour rappel le support du 64 bits. Ces puces sont destinées à des serveurs visant des charges légères (serveurs web, etc) à l'image des Opteron X1150 et X2150.

Ces SoCs sont fabriqués par GlobalFoundries en 28nm et intègrent huit cœurs Cortex-A57 et quatre Mo de cache de niveau 2, auquel AMD rajoute des blocs customs. Le tout fonctionne à une fréquence annoncée comme supérieure à 2 GHz pour un TDP de 25 watts.

Parmi les fonctionnalités custom, AMD intègre un contrôleur mémoire 128 bits compatible à la fois avec les standards DDR3 et DDR4. On retrouve également 8 lignes PCI Express 3.0 ainsi que de quoi gérer huit disques Serial ATA 6 Gb/s et deux ports 10 GbE.


AMD mettra à disposition un kit de développement en mars, mais il faudra attendre le quatrième trimestre pour voir arriver ces solutions dans le commerce. AMD dispose d'ambitions élevées avec ARM côté serveur, espérant pouvoir profiter de son expérience sur le marché de l'Opteron ainsi que celles acquises avec SeaMicro pour en capter une part importante.

AMD profite également du vide laissé par l'arrêt de Calxeda  à la fin du mois de décembre dernier pour se positionner. Reste que la disponibilité annoncée seulement pour le quatrième trimestre risque d'être tardive pour ce qui reste un SoC 28nm utilisant des cores non custom, et l'on devrait voir d'ici là d'autres acteurs émerger, possiblement en 20nm.


On notera enfin avec attention qu'AMD n'hésite pas à jouer la carte de l'alternative face au x86 indiquant que les OEM, ODM et les clients souhaitent « qu'ARM gagne », ce que l'on comprend entre les lignes comme une rébellion envers Intel dont la domination du marché x86 serveur s'accompagne de marges importantes. Reste à voir si la vision d'AMD se cantonne aux serveurs, ou s'il s'agit d'une vision plus générale, AMD déclinant déjà le x86 sur de multiples marchés.

Top articles