Actualités processeurs

Un nouvel Athlon FM2+ en approche

Tags : AMD; Athlon X2; FM2+; Kaveri;
Publié le 25/08/2014 à 11:41 par
Envoyer Imprimer

Nos confrères de CPU World ont noté l'apparition d'une nouvelle référence d'Athlon dans les listes de compatibilité de cartes mères FM2+ d'Asrock.


Il s'agirait du second Athlon de la gamme Kaveri après l'annonce il y a quelques jours de l'Athlon X4 860K. Les Athlon Kaveri sont pour rappel dépourvus de GPU, et cet Athlon 450 serait d'après les informations publiées par Asrock un modèle double cœur disposant d'une fréquence Turbo de base de 3.5 GHz ce qui laisse penser qu'il s'alignera sur les caractéristiques de l'A6-7400K, le GPU en moins. Pour rappel, l'Athlon X4 860K reprend les caractéristiques de l'A10-7850K. Différence cependant, d'après nos confrères son coefficient multiplicateur serait bloqué. On ne sait pas encore quand - et à quel prix - cet Athlon X2 450 fera son apparition.

AMD FX-8370 en approche ?

Tags : AM3+; AMD; AMD FX;
Publié le 22/08/2014 à 15:37 par
Envoyer Imprimer

Nos confrères de Xbit-Labs évoquent le lancement prochain d'une nouvelle déclinaison dans sa gamme FX en AM3+ : les FX-8370 et FX-8370E. Ces processeurs qui devraient être annoncés le premier septembre viendront s'insérer au-dessus du FX-8350 (voir notre test) qui avait été lancé pour rappel à l'automne 2012.


Côté caractéristiques, le FX-8370 reprendrait celles des FX-8350 à savoir huit cœurs (quatre modules) et un TDP de 125 watts en ajoutant 100 MHz côté fréquence. On passerait ainsi de 4.0/4.2 GHz (base/turbo) à 4.1/4.3 GHz. AMD proposerait également une version 95 watts de la même puce baptisée FX-8370E. Ses caractéristiques hors TDP seraient identiques, même si l'on ne sait pas quel impact ce TDP aurait sur le fonctionnement du turbo (voir cet article pour plus de détails sur le fonctionnement du Turbo sur les FX).

Côté prix, ces puces seraient annoncées en volume aux alentours de 189 dollars, une baisse de prix sur les autres modèles étant également attendue.

Nvidia présente Denver

Publié le 13/08/2014 à 13:10 par
Envoyer Imprimer

Après une annonce quelque peu confuse au CES d'un Tegra K1 en deux versions, Nvidia a profité de la conférence Hotchips pour donner quelques petits détails sur son architecture processeur Denver.


Pour rappel, Denver est une implémentation customisée de l'architecture 64 bits ARMv8. Il s'agira des premiers cores ARM custom proposés par Nvidia qui utilisait jusqu'ici des cœurs génériques ARM (Cortex-A9 dans Tegra 3, Cortex-A15 dans Tegra 4, etc…) dans ses puces Tegra. Il s'agit de la seconde architecture ARMv8 custom présentée pour l'instant, la première étant celle d'Apple (Cyclone) utilisée dans les ses SoC A7. En pratique, une version spéciale des Tegra K1 sera disponible avec deux cœurs Denver (contre quatre cœurs Cortex-A15 pour la version 32 bits du Tegra K1).

La présentation de Nvidia ne rentre pas forcément dans un très haut niveau de détails, mais l'on y trouve quelques grandes lignes intéressantes. D'abord sur les unités d'exécution :


Nvidia présente ce slide qui met face à face les unités d'exécution d'un cœur Cortex-A15 et d'un cœur Denver. On retrouve certains changements liés à ARMv8 comme le passage des unités Neon/FP (les instructions SIMD d'ARM) de 64 à 128 bits, et d'autres plus intéressants. On retrouve sept ports qui incluent un plus grand nombre d'unités, par exemple au lieu d'un seul port pour les Load et les Stores, les deux ports sont capables d'effectuer les deux types d'opération, et aussi des instructions entières. Le détail le plus important concerne surement le décodeur qui indique une phase de « prédécodage ».

De manière classique sur les Cortex-A, les instructions ARM sont décodés, réordonnées, (le principe de l'OoO, Out of Order), les registres sont renommés, puis les instructions sont dispatchées aux unités d'exécution. A l'inverse chez Intel, le jeu d'instruction x86 étant très large, les instructions x86 sont traduites en micro opérations - une sorte de jeu d'instruction réduit, interne aux unités d'exécutions – avant de subir les mêmes opérations de changement d'ordre, renommage de registres et de dispatch. Le prédécodage laisse penser que Denver utilise lui aussi un jeu d'instruction interne différent. Plus surprenant, Denver pourrait être une architecture hardware in-order.

C'est en tout cas ce que laisse penser la fonctionnalité la plus originale de Denver, ce que Nvidia appelle « Dynamic Code Optimization ». En pratique, il s'agit d'une couche logicielle qui fonctionne dans un espace mémoire (128 Mo) protégé, géré directement par le firmware et qui n'est pas accessible au système d'exploitation. Ce code logiciel fait tourner des threads cachés du reste du système dans ce que Nvidia appelle des « hidden time slices », on suppose qu'il s'agit d'un contexte dédié à l'utilisation de DCO. Que fait donc cet optimiseur ?


La liste des opérations ne trompe pas, on retrouve ici toutes les opérations effectuées par les frontend des processeurs Out of Order modernes, comme le réordonnancement d'instructions ou le renommage de registre. On trouve même quelques fonctionnalités un peu plus avancées que l'on a déjà vues chez Intel et AMD comme le dépliage de boucles.


En pratique le fonctionnement est – d'après les informations que nous avons - ainsi : le code ARM est décodé en micro instructions puis envoyé directement aux unités d'exécution. En parallèle, ce code est envoyé aux threads cachés DCO qui vont effectuer un décodage « OoO » optimisé du code ARM en micro instructions (l'optimisation est effectuée en profitant d'informations de profilage statique récupérées par l'exécution du code). Ce code est ensuite stocké dans le cache en mémoire principale de 128 Mo que nous évoquions plus tôt. La prochaine fois que ce segment de code se représentera, le code optimisé en micro instructions est récupéré du cache mémoire et exécuté directement à la place du code décodé en hardware.

Pour résumer tout cela en une phrase, Denver implémente de manière logicielle l'OoO d'habitude implémentée de manière matérielle dans les autres processeurs. Si cela vous dit quelque chose, c'est probablement parce que ce type de design avait été utilisé par Transmeta pour ses Crusoe. Une différence notable avec les Crusoe est que Denver peut exécuter directement le code ARM via un décodeur matériel (de manière moins performante, et nous le supposons, in-order). En supprimant un frontend couteux en transistors, on peut sur le papier disposer d'une plus grande marge de transistors à placer ailleurs (unités d'exécution ou même GPU), ou réduire la consommation. A l'inverse, une architecture « in-order » n'est pas, lorsqu'elle est en fonctionnement, particulièrement efficace d'un point de vue énergétique lorsqu'elle doit attendre après des instructions mémoires.

Reste que si ce genre d'architecture peut être très efficace dans des benchmarks arithmétiques, en pratique tout dépendra de la variété de code utilisée et de l'efficacité de cet « OoO » logiciel. DCO semble capable de travailler sur des blocs de taille variables pouvant aller jusqu'à 1000 micro opérations. Nvidia a ajouté un cache d'instruction de niveau 1 de 128 Ko qui peut contenir les blocs les plus utilisés, tandis que les autres seront stockés en mémoire (beaucoup plus lente) en attente d'être exécutés de nouveau.


Nvidia donne un exemple du fonctionnement en pratique. Sur ce schéma, on peut voir en haut en vert le « type » d'exécutions qui ont lieu sur les cœurs Denver durant le début d'un benchmark SpecINT 2k. Malheureusement, il n'y a pas d'échelle de temps mais l'on note en vert les instructions optimisées, en vert pale les instructions décodées en hard, et en pourpre/violet les instructions exécutées par DCO. Leur nombre est non négligeable particulièrement en début de benchmark. La proportion d'instructions issues du décodeur matériel décroit au fur et à mesure, remplacées au fur et à mesure par des instructions « optimisées ». On peut voir l'augmentation de l'IPC au fur et à mesure en bas.

L'architecture de Denver est pour le moins originale et les quelques détails donnés durant la conférence Hot Chips ne permettent pas vraiment de se faire une idée des performances réelles de la puce. Nvidia avance quelques benchmarks ou il place, dans des tests arithmétiques (et donc répétitifs, le cas le plus avantageux pour ce type d'architecture), Denver au niveau d'un Celeron Haswell 2955U (1.4 GHz, 15 watts) sans préciser le TDP ou la fréquence du Denver utilisé. Les performances dans un environnement réel ou cohabitent de multiples applications dont le code n'est pas forcément fait de traitements répétitifs dépendront de l'efficacité de cet OoO logiciel. La taille du cache d'instruction et sa rapidité pouvant devenir une ressource critique pour les performances.

La disponibilité des K1 Denver n'a pas été précisée, indiquée simplement à « plus tard cette année » par le constructeur.

Intel désactive TSX suite à un bug

Publié le 12/08/2014 à 19:39 par
Envoyer Imprimer

TechReport rapporte qu'Intel va déployer via de nouveaux firmware pour les cartes mères un nouveau microcode pour les processeurs Haswell visant à désactiver les instructions TSX que nous avions décrites ici.


Un développeur a en effet remonté à Intel un bug dans l'implémentation TSX au sein de Haswell pouvant entraîner des "défaillances logicielles critique". Ce bug a été confirmé par Intel qui n'a donc que d'autre choix de désactiver TSX.

Les premiers processeurs Broadwell seront également concernés par ce bug et auront donc le TSX désactivé en attendant un prochain stepping en cours de développement. Ce sera également le cas sur les Haswell-E/EP qui seront prochainement lancés sur la gamme Xeon, ce qui est assez dommageable vu que l'utilité de TSX se situe dans le monde professionnel. Selon AnandTech, Intel recommande dans ce cas d'attendre Haswell-EX, ce qui sous entend qu'aucun stepping correctif n'est prévu pour Haswell-E et qu'il faudra donc attendre Broadwell-E/EP dans un an pour disposer d'un correctif sur cette gamme de puce.

Intel précise son process 14nm

Tags : 14nm; Intel; Samsung; TSMC;
Publié le 12/08/2014 à 15:31 par
Envoyer Imprimer

En marge de son annonce sur Broadwell-Y, Intel a partagé quelques détails sur son process 14nm. Comme vous le savez, le process 14nm d'Intel souffre de retards. Le constructeur avait annoncé qu'il décalerait la mise en production d'un trimestre en novembre dernier, tout en publiant des indications autour de ses yields qui laissaient entendre un retard de 6 mois.

En pratique, il est difficile de mesurer réellement le retard du process même si Intel a partagé ce nouveau graphique de yields :


Plusieurs choses à voir sur ce graph, d'abord, si vous vous souvenez du dernier graphique de yields présenté par Intel, celui-ci diffère fortement. Là où le premier était aligné par rapport au début du développement du process, les graphiques sont désormais alignés sur la qualification du premier produit (Ivy Bridge en 22nm, Broadwell-Y en 14nm), étape préalable à la mise en production. Intel indique sur ce graphique que la qualification de Broadwell-Y a eu lieu en fin de second trimestre et qu'il est actuellement en production en volume. Si l'on ne connait pas la date précise de qualification d'Ivy Bridge, on sait que la production en volume avait débuté au troisième trimestre 2011, ce qui met donc au minimum deux ans et neuf mois entre la mise en production en volume du 22nm et celle du 14nm.

L'autre point le plus important concerne (on passera sur l'échelle absente une fois de plus) l'écart de yields entre la mise en production d'Ivy Bridge et celle de Broadwell-Y. Le constructeur a choisi, comme nous le supposions en novembre dernier, de lancer la production avec des niveaux de yields inférieurs. En pratique, le décalage de yields pour la mise en production, si l'on prend en compte la prédiction pour les prochains mois est de quatre mois (voir la ligne violette que nous avons rajouté au graphique). Ce qui ne signifie pas quatre mois de retard pour ce process – rappelez-vous que les graphiques ne sont plus alignés ! – mais qu'Intel a anticipé la mise en production de quatre mois par rapport à celle d'Ivy Bridge. Il est probable que, plus que le niveau de yields, ce soit une date butoir qui ait été utilisée pour déterminer la mise en production afin de s'assurer qu'un produit soit « livré » cette année.

En soit, ce choix est logique : le constructeur peut ainsi proposer un peu plus tôt des produits quitte à sacrifier sur ses marges, tout en honorant - on l'imagine - des contrats auprès de ses partenaires et en pouvant montrer aux investisseurs qu'un produit en 14nm a bel et bien été lancé en 2014. En pratique, si Intel pourra effectivement « lancer » un premier produit cette année, le gros du volume en 14nm devra attendre. Le constructeur ne le cache pas en indiquant que ses yields devraient être acceptables au premier semestre 2015 pour la production en volume de produits vendus en plus larges quantités que les Broadwell-Y.

Intel est également revenu sur la compétition en proposant une nouvelle version de son graphique à propos de la densité qui avait largement fait débat :


Cette fois ci, le constructeur mélange IBM et TSMC parmi ses concurrents, et met de côté Samsung (pour rappel, Samsung et GlobalFoundries ont annoncé un partenariat sur le 14nm autour du process 14nm développé par Samsung, hors de la Common Platform – l'alliance qui liait Samsung et GlobalFoundries à IBM). Le constructeur a le mérite d'indiquer la formule qu'il utilise pour mesurer la densité ce qui n'était pas le cas auparavant.

La densité des puces est un sujet pour le moins complexe et si la formule annoncée par Intel (gate pitch – l'écart entre deux transistors multiplié par metal pitch – l'écart de la couche métallique la plus basse qui sert à l'interconnexion des transistors) est correcte, elle ne prend en compte qu'en partie la question de la densité.

Intel a par exemple toujours été en retard sur ses concurrents sur la question du metal pitch. Le 22nm d'Intel disposait d'un metal pitch de 90nm… tout comme le 28nm de TSMC. En pratique, pour le 14/16nm, voici les chiffres qui sont annoncés :


C'est sur cette formule (90x64 comparé à 70x52) qu'Intel annonçait un gain de 35% par rapport à TSMC. Bien sur, la densité finale d'une puce ne dépend pas que de cette formule, les règles de design, la taille des SRAM, et d'autres facteurs jouent de manière importante sur la densité « réelle » de transistors obtenus au mm2 sur une puce, la formule metal pitch x gate pitch n'indiquant que le cas « idéal ». C'est sur ces autres facteurs que TSMC estime gagner 15% de densité « réelle » au total entre son process 20 et 16nm. Si l'on ne peut pas reprocher à Intel de choisir la formule qui l'arrange le plus pour mettre ses produits en avant, on peut apprécier que cette fois ci, la formule choisie soit au moins précisée !

On notera par contre qu'Intel continue d'ignorer Samsung qui devrait pourtant être son plus sérieux concurrent sur le 14nm. Samsung pour rappel avait annoncé une production en volume de son process 14nm pour la fin de l'année 2014.


Sur le papier et comme indiqué plus tôt, le process d'Intel semble être supérieur aux autres process 16/14nm de première génération annoncés (on se souviendra que et TSMC, et Samsung ont annoncés une seconde version de leurs process), en partie par le choix fait d'obtenir une réduction forte sur la taille des interconnections atteignant un metal pitch de 52nm qui sera en avance pour la première fois depuis plusieurs process sur ce que proposeront ses concurrents.


Il s'agira également de la seconde génération de FinFet pour Intel. Outre l'apprentissage effectué par le premier, on peut noter sur les photos fournies par le constructeur quelques changements dans la forme des Fin. Là ou en 22nm les gates avaient une forme trapézoidale, les fins ont désormais une forme rectangulaire plus proche de la forme idéale attendue. On se souviendra qu'IBM et la Common Platform avaient soulevés les questions de forme et de variabilité du process d'Intel :


Il sera intéressant de voir si Samsung (et TSMC) aura comme le laissait entendre IBM à l'époque appris de la première version du process d'Intel.


On notera également une augmentation de la hauteur des fins (de 34nm à 42nm) qui devrait permettre une amélioration des performances, quelque chose qui devrait être très utile notamment sur les usages SoC pour limiter la consommation. Si Intel ne donne pas de chiffre de performances concernant les transistors, le constructeur donne quelques chiffres concernant Broadwell-Y. Sur cette puce, et par rapport à son équivalent Haswell, les courants de fuites seraient réduits par deux, avec un rapport performance par watt de 2x.

Pour résumer, Intel semble avoir fortement optimisé son process pour les usages mobiles qui sont aujourd'hui les marchés les plus porteurs (qu'il s'agisse des PC portables ou des tablettes/smartphones) et il sera intéressant de voir comment les gains (forts) annoncés sur Broadwell-Y se traduiront sur le reste des produits 14nm du constructeur. Si le retard d'Intel dans la mise au point de son process est conséquent, et que le lancement de Broadwell-Y se fait dans des conditions non optimales (yields plus faibles qu'attendus, et produits à fort volumes repoussés en 2015), le constructeur semble disposer sur le papier d'un process solide et ambitieux, qui semble corriger les problèmes de sa première génération FinFet. Reste que les délais dans sa mise au point ont permis à la concurrence de se rapprocher - au moins dans les annonces avec un Samsung qui devrait être particulièrement agressif. L'avantage technique apporté par ses process de fabrication reste toujours réel et important pour Intel, et sur le papier son 14nm devrait permettre à Broadwell-Y des avancées notables. Mais la domination d'Intel sur le sujet des process ne semble plus - si l'on s'en tient aux annonces respectives des uns des autres - aussi hégémonique qu'elle le fut ces dernières années.


Top articles