Actualités processeurs

Skylake-X et Kaby Lake-X dans un an

Publié le 02/06/2016 à 12:12 par
Envoyer Imprimer

Benchlife.info  vient de publier quelques informations sur la plate-forme qui prendra la suite du LGA 2011-v3 qui vient d'accueillir Broadwell-E.

C'est dans un an environ que débarquera Skylake-X (et non-E), pour lequel aucun détail direct n'est donné. Côté plate-forme on aura droit à Basin Falls, qui sera utilisée pour les Skylake-X (i7) comme les Skylake-W (Xeon). Le Socket est dénommé R et dispose de 2061 pins, et on apprend côté CPU qu'on passera de 40 à 48 lignes PCIe Gen3 et de la DDR4-2400 à la DDR4-2667. Un autre Socket plus gros, le LGA 3647, devrait en parallèle faire son apparition, il sera destiné aux Xeon Phi ainsi qu'aux Skylake Xeon en versions 2, 4 ou 8 processeurs.

Le PCH serait pour sa part commun avec celui qui sera introduit en fin d'année avec les Kaby Lake, mais il est question cette fois de la gestion de 8 SATA contre 6 d'après les fuites précédentes sur cette série 200. La plate-forme est annoncée comme compatible avec les Cannon Lake-W en 10nm qui devraient débarquer en 2018.

Côté Kaby Lake et LGA 1151 cette roadmap pose question puisque si Kaby Lake arrivera sur portable en versions 2 coeurs au troisième trimestre 2016 puis en 4 coeurs sur portable et pc de bureau au trimestre suivant, il est également question d'un Kaby Lake-X pour le second trimestre 2017. Difficile en l'état de savoir de quoi il en retourne, peut-être qu'Intel a abandonné l'idée de sortir un Skylake 4+4e LGA 1151 en fin d'année pour lancer un peu plus tard un Kaby Lake avec cette même configuration, c'est-à-dire disposant d'eDRAM faisant office de cache L4.

2 puces pour les APU de 7è génération

Publié le 01/06/2016 à 15:31 par
Envoyer Imprimer

AMD profite du Computex pour annoncer ce qu'il appelle sa 7è génération d'APU, composée de deux puces : Bristol Ridge et Stoney Ridge.

Derrière ces puces se cache en fait la combinaison Excavator et GCN 1.2 déjà utilisée sur Carrizo, avec de menues améliorations destinées à tirer encore plus de ces puces malgré une gravure toujours en 28nm. La moitié des gains viendraient ainsi de modification de l'architecture des transistors chez GlobalFoundries, l'autre de modification permettant de mieux coller aux capacités individuelles de chaque puce ainsi que de la gestion, comme chez Intel depuis les Core M, de la température du système en sus de la température processeur afin d'allonger si possible la durée pendant laquelle l'APU peut aller au-delà de sa consommation de base.

 
 

Bristol Ridge est très (très) proche de Carrizo, d'ailleurs le nombre de transistor est identique à 3,1 milliards alors que la surface varie légèrement (250.4mm² au lieu de 244.6mm²). On trouve 2 modules x86 Excavator associés à 8 Compute Units GCN 1.2 et un soutbhridge gérant 4 USB 3.0, 4 USB 2.0 et 2 SATA 6 Gbs. La mémoire est gérée sur deux canaux et peut être de type DDR3-2133 ou DDR4-2400, alors que le nombre de ports PCIe Gen3 est de 12 (dont 8 pour un GPU externe). Il est décliné en gammes FX, A12 et A10, avec des variations au niveau des fréquences et du TDP mais aussi du nombre de CUs actives (6 à 8). Les puces les plus haut de gamme sont le FX 9830P qui avec un TDP de 35w fonctionne à 3/3.7 GHz côté CPU et 900 MHz au mieux côté GPU (en Carrizo on était au mieux à 3.4 GHz et 900 MHz), et d'autre part le FX 9800P qui est à 2.7/3.6 GHz et 758 MHz.

Stoney Bridge est pour sa part composé de 1.2 milliards de transistor sur 124.5mm², cette puce remplace Carrizo-L et permet à AMD d'unifier les architectures de sa gamme APU, chose qu'on ne pensait pas voir venir avant Zen. Cette fois on a droit à un module x86 Excavator et 3 Compute Units GCN 1.2 alors que la mémoire est gérée sur un canal permettant au mieux d'atteindre la DDR4-2133. On troque donc entre autre 4 petits coeurs x86 pour 2 plus performants, et le nombre d'unités GCN augmente de 50% alors qu'on dispose d'un moteur vidéo plus à jour capable de décoder le H.265 et de disposer d'une sortie HDMI 2.0. Cette puce est déclinée en tant que A9, A6 et E2, avec toujours un TDP de 15 watts mais des fréquences CPU et GPU qui varient ainsi qu'un nombre de CUs limité à 2 en E2.

Le premier produit utilisant ces APU sera l'HP ENVY x360 déjà annoncé il y a quelques semaines, il utilisera selon les versions l'une ou l'autre des puces.

 
 

ARM annonce le Cortex-A73 et le Mali-G71

Publié le 31/05/2016 à 18:15 par
Envoyer Imprimer

ARM vient d'annoncer de nouveaux blocs disponibles pour ses partenaires. Pour rappel, ARM développe en parallèle des architectures (ARMv8-A pour la dernière version 64 bits, le pendant du x86-64 dans le monde du PC) et propose aussi ses propres implémentations de coeurs qui peuvent être utilisés par ses partenaires sous licence (l'équivalent dans le monde PC serait Intel qui autorise ses partenaires à faire des versions "custom" de Skylake).

Certains des partenaires d'ARM disposent d'une licence dite "architecture" (Apple, Qualcomm, Samsung, Nvidia...) qui leur permet de réaliser leurs propres implémentations (de la même manière qu'AMD et Intel proposent des processeurs compatibles, mais différents derrière la même architecture x86-64), même si ces derniers proposent parfois les deux. Qualcomm propose par exemple des puces utilisant les Cortex (implémentation ARM) et ses propres Snapdragon.

La nomenclature des implémentations d'ARM a toujours été compliquée à comprendre, pour ne pas dire autre chose, et autant dire qu'aujourd'hui ARM n'arrange pas son cas avec l'A73. Il fait suite sur le papier au Cortex-A72 qui avait été annoncé en février 2015 même si d'un point de vue technique les puces sont différentes.

Ce diagramme permet d'y voir un tout petit peu plus clair. Après l'époque "simple" de l'A9, ARM a proposé d'un côté des cores de grande taille, visant les hautes performances (A15, A57 et A72), également appelés big. Il s'agit de designs "Out of Order" (le processeur peut changer l'ordre des instructions pour optimiser leur exécution).

En parallèle des coeurs de plus petite tailles ont été présentés (les coeurs LITTLE comme l'A7 et l'A53). Ils utilisent un design dit "In Order" (pas de changement d'ordre) qui simplifie l'implémentation, et réduit donc la consommation de la puce. Leur niveau de performance est plus bas, mais ils disposent d'un meilleur rapport performance/watts que les coeurs big. Leur intérêt théorique est de les mélanger pour créer une architecture asymétrique (big.LITTLE, voir la présentation ici) même si en pratique, ce n'est pas toujours ce qui s'est passé.

Les deux familles sont développées par des équipes différentes (Austin pour les big et Cambridge pour les LITTLE) et au milieu de tout cela, on retrouvait les A12 et A17, mélangés sur ce graph (par une troisième équipe a Sophia-Antipolis). Il s'agissait là aussi de designs "Out of Order" mais un peu plus optimisés pour un meilleur rapport performances/watts.

Si en théorie ces puces étaient présentées comme dédiées au milieu de gamme, en pratique elles proposaient surtout une alternative aux gros coeurs ARM dont la consommation était trop élevée, obligeant de limiter fortement les fréquences pour rester dans l'enveloppe thermique d'un smartphone. On a pu voir un certain nombre de retards lors de la génération A57, particulièrement chez Qualcomm, et une surconsommation importante par rapport à ce qu'espérait ARM. Une situation qui a même poussé certains des partenaires d'ARM a proposer des puces n'utilisant que les coeurs LITTLE, un comble.

Cortex A73 : 10nm

Le Cortex A73 est présenté par ARM comme son nouveau coeur big. Il fait suite à l'A72 (16nm) et sera proposé pour les processus de fabrication 10nm. Mais contrairement à ses prédécesseurs big 64 bits (A57 et A72, c'est dur à suivre !), il s'agit sur le papier du successeur des A12/A17 (qui eux n'étaient disponibles qu'en 32 bits).

Contrairement aux A57/A72 qui pouvaient décoder trois instructions par cycle, on se limite cette fois ci à deux sur l'A73. En contrepartie, le pipeline (le nombre d'étapes par lequel les instructions passent) est significativement réduit, passant de 15 à 11 étapes. C'est au niveau du front end (récupération des instructions, décodage, changement d'ordre) que la réduction se fait. On retiendra deux changements importants, d'abord le fait que les instructions en virgules flottantes/NEON (l'équivalent des instructions vectorielles type SSE dans les architectures x86) soient traitées séparément via un décodeur distinct. La seconde est un changement au niveau des instructions arithmétiques entières avec des unités moins nombreuses mais plus performantes.

 
 

Bien que décodant une instruction par cycle en moins, l'A73 permet sur le papier au final de dispatcher 6 micro-instructions par cycle, contre 5 pour l'A72. Si l'on ajoute toutes les autres optimisations (le sous système mémoire, point faible historique des Cortex semble avoir évolué), l'A73 est annoncé comme 10% plus performant que l'A72, à fréquence/process égal.

Dans le détail, ARM annonce plus spécifiquement 15% de gains sur les copies mémoire, et 5% sur un encodage FFMPEG utilisant les instructions vectorielles NEON. Notez qu'a process égal, un coeur A73 est 25% plus petit qu'un coeur A72 et consomme 20% d'énergie en moins. En 10nm, un coeur A73 ne mesure que 0.65mm2.

Pour les puces que l'on retrouvera dans le commerce, ARM annonce 30% de performances en plus par rapport aux A72 en profitant du 10nm et de la baisse de consommation pour augmenter la fréquence. Un autre gain significatif mis en avant par le constructeur est que ses puces ne devraient plus voir leur fréquence chuter drastiquement lorsque l'on utilise tous les coeurs en simultanée.

Sur le papier l'A73 est un meilleur compromis côté architecture que ses prédécesseurs, ce qui devrait ravir les partenaires d'ARM, assez peu heureux des A57. Si ARM vise le 10nm, en pratique il propose à ses partenaires des designs A73 en 28, 16 et 10nm. D'ici la fin de l'année, des SoC 16nm devraient faire leur apparition et c'est probablement là qu'on les trouvera en masse (le 10nm sera probablement, pour rappel, réservé au moins dans un premier temps aux gros acteurs du marché comme Qualcomm et Apple à l'image de ce que l'on avait vu avec le 20nm).

Mali-T71 et Bifrost

L'autre annonce d'ARM concerne les GPU. En plus de blocs CPU, ARM propose également à ses partenaires des blocs graphiques qu'ils peuvent utiliser ou non (d'autres sociétés comme Imagination Technologies proposent par exemple leur PowerVR) pour créer leurs SoC.

La nouvelle puce est baptisée T71 et vient faire suite aux GPU T800 dont nous vous avions parlé l'année dernière. Le changement de nomenclature annonce en réalité un changement d'architecture, on passe de l'architecture Midgard à la bien nommée Bifrost.

La transition est importante avec un changement complet de philosophie, passant d'un modèle VLIW (Very Long Instruction Word) à un modèle scalaire... soit exactement la transition qu'avait effectué AMD avec GCN !

 
 

La transition aux unités scalaires change en pratique l'ordre dans lequel les données sont traitées, en simplifiant la compilation des shaders (le parallélisme étant extrait des threads, et non d'assemblage d'instructions par le compilateur).

 
 

Les threads - clauses dans le langage ARM - sont particulièrement optimisées avec des caches a tous les niveaux (sous la forme de register file) pour s'assurer que les accès mémoires soient optimisés au mieux. Cumulé à tout les autres changements architecturaux (le tiler a également été modifié pour réduire sa consommation mémoire), ARM annonce 50% de gains de performances avec Bifrost.

En pratique le Mali-T71 est le premier GPU ARM utilisant Bifrost, il regroupera jusqu'à 32 shader cores (qui comptent chacun 12 unités scalaires) et reste compatible comme ses prédécesseurs avec OpenGL ES 3.x, OpenCL 2.0 et Vulkan. On rajoutera un dernier mot sur l'interconnexion puisque l'on a droit à un accès au cache fully coherent, ce qui signifie que CPU et GPU peuvent partager la même mémoire cache en opérant en parallèle sans blocage (à la manière de Kaveri chez AMD qui utilisait cependant deux bus distincts), ce qui pourra être utile pour des tâches compute ou l'on fait travailler de concert CPU et GPU (ce qui n'est pas forcément la majorité des usages sur les plateformes mobiles).

Intel lance les i7 BDW-E, i7-6950X en tête

Publié le 31/05/2016 à 08:00 par
Envoyer Imprimer

C'est aujourd'hui qu'Intel lance officiellement ses processeurs Core i7 LGA-2011 v3 Broadwell-E. Ils succèdent aux Haswell-E (i7-5960X et consorts) lancés en août 2014 et partagent la même infrastructure - une mise à jour de bios permettant de rendre les cartes mères X99 Express compatibles.

 
 

Broadwell-E et ce cher 14nm

L'architecture évolue légèrement par rapport à Haswell-E, mais il ne s'agit que d'un "Tick", Intel lui-même n'annonce pas plus de 5% de gain à fréquence égale pour cette micro-architecture. De ce côté Skylake reste le plus véloce, mais il reste limité à 4 coeurs en LGA 1151. L'autre nouveauté se situe au niveau de la finesse de gravure qui passe de 22 à 14nm, ce qui permet à Intel d'intégrer 10 coeurs, 25 Mo de cache LLC et 3,4 milliards de transistors sur un die de 246mm² alors qu'il fallait 355,5mm² pour les 8 coeurs, 20 Mo de cache LLC et 2,6 milliards de transistors composant dans le meilleur des cas l'i7-5960X. On notera que si la hausse du nombre de coeurs et du cache est de 25%, côté transistor on est à quasi 31% de plus.


Haswell-E à gauche, Broadwell-E à droite

La surface du die est en fait proche de celle de Gulftown (248mm² en 32nm) ou Ivy Bridge-E (257mm² en 22nm). On est par contre bien loin de Haswell-E et encore plus de Sandy Bridge-E (435mm²) dont la version maximale à 8 coeurs n'était toutefois pas proposé sous la gamme i7. Au-delà des mm², il faut avoir en tête que le 14nm coûte cher : même si c'est écrasé par une échelle logarithmique, le graphique ci-dessus datant de 2015 montre que le coût au mm² augmente nettement en passant de 22nm à 14nm avec 30 à 40% de plus, contre 10% entre 32nm et 22nm ! Même si tout ceci manque de détails, si les choses n'ont pas changé cela signifierait que le prix de production de Broadwell-E est proche de Haswell-E malgré un die nettement plus petit.

La gamme Core i7 Broadwell-E et ce (trop) cher i7-6950X

En pratique l'i7 Broadwell-E le plus haut de gamme, l'i7-6950X à 10 coeurs, est malheureusement réservé aux plus fortunés puisqu'au lieu de faire baisser d'un cran toute la gamme, l'i7-6950X est positionné à 1723$ ! Alors qu'il était initialement question de 1569$, les tarifs boites ont ensuite été communiqués et ces derniers gonflent les prix puisqu'il faut compter 22 à 154$ de plus sur BDW-E pour ces versions par rapport aux tarifs OEMs contre 7 à 60$ pour les HSW-E !

On est loin du tarif déjà fort onéreux mais désormais habituel de 1059$ (999$ en OEM) auquel était positionné l'i7-5960X ainsi que ses prédécesseurs. Les autres Broadwell-E sont également plus chers que leur prédécesseurs, ainsi les i7-6900K, 6850K et 6800K sont respectivement à 1089, 617 et 434$ alors qu'il fallait compter 1059, 594 et 396$ pour les i7-5960X, 5930K et 5820K !


[ Tarifs mis à jour (Boîte) ]  [ Tarifs initiaux (OEM) ]  

Intel profite du 14nm pour augmenter légèrement les fréquences de 100 à 200 MHz selon les versions, alors que la DDR4-2400 est officiellement supportée, même si en pratique Haswell-E allait déjà au-delà. Nous n'avons pas les fréquences de l'Uncore pour chacune des versions mais sur l'i7-6950X elle est à 2.8 GHz, en recul par rapport à l'i7-5960X qui était à 3 GHz de ce côté. On retrouve sur l'i7-6800K le même bridage que sur l'i7-5820K, il dispose donc de 28 lignes PCIe Gen3 contre 40 pour le reste de la gamme, un nombre qui sera toutefois suffisant à moins de multiplier les GPU.

Les overclockeurs sont soignés avec quelques fonctionnalités spécifiques, il est ainsi désormais possible de faire de l'overclocking par coeur mais aussi d'appliquer un offset négatif pour les charges AVX, afin par exemple d'être à 4.0 GHz sans AVX et 3.8 GHz avec. Intel reprend probablement pour un usage différent le Turbo des Xeon qui différenciait déjà le type de charge. C'est un détail mais on appréciera également une légèrement modification de l'IHS améliorant la prise entre les doigts, de quoi rassurer les 2011 pins du Socket quant elles voient le processeur en approche.

 
 

Puisqu'on parle de Turbo, les Broadwell-E intègrent une nouvelle version dénommée Turbo Boost Max 3.0. Si chacun des coeurs est capable d'atteindre la fréquence de Turbo Boost 2.0 pour peu qu'on se limite à en charger un ou deux en simultanés, par exemple 3.5 GHz sur l'i7-6950X, Intel a qualifié sur chaque processeur un coeur capable d'aller plus vite. Sur notre i7-6950X il s'agissait du second, capable d'atteindre 4.0 GHz, a priori la fréquence sera identique sur tous les 6950X. En attendant une mise à jour des systèmes d'exploitation nécessaire à une utilisation prioritaire de ce coeur, Intel fournit pour Windows un pilote associé à un utilitaire afin d'outrepasser le scheduler de l'OS. Ce n'est pas des plus élégants à l'usage, mais ça a le mérite en sus d'éviter des pertes de performances associées à l'Hyperthreading dans certains jeux. Une solution plus simple aurait été d'avoir un Turbo Boost "classique" allant un peu plus haut (sur tous les coeurs) ce qui ne semble pas hors d'atteinte vu les résultats en overclocking. Intel pose peut-être ici les bases d'une future variabilité entre les CPUs, à l'instar de ce que fait Nvidia avec son Turbo Boost sur GeForce, ce qui n'est pas forcément réjouissant.

Nos premiers tests

Vous l'aurez remarqué, contrairement à nos habitudes aucun dossier concernant ce lancement n'est disponible sur HardWare.fr. A cela plusieurs raisons, d'une part nous n'avons pas pu obtenir de Broadwell-E avant la dernière minute et d'autre part pour l'instant seul l'i7-6950X est en notre possession. Impossible dans ces conditions de publier notre test, d'autant que si ce modèle est peut-être le plus sexy pour les pontes du marketing chez Intel ces derniers nous semblent assez déconnectés de la réalité pour oser proposer un processeur à ce tarif.

En attendant donc un dossier à paraître courant juin couvrant une partie plus étendue de la gamme, voici quelques données pratiques avec pour commencer l'overclocking. Par défaut sous Prime95 le processeur fonctionne à 3.1 GHz avec une consommation mesurée à 117.6W sur l'ATX12V, en baisse notable par rapport à l'i7-5960X (151.2W), la tension par défaut de 0,99v aidant. Les 4 GHz sont atteints assez facilement avec une tension de 1,15v, puis les 4.2 GHz à 1,20v avec une consommation qui est toutefois quasiment doublée sur l'ATX12V. Les 4.3 GHz n'étaient par contre pas stables à 1.25v, et à 1.3v certains coeurs atteignaient leur limite de température de 100°C avec le Noctua NH-D15 et abaissaient donc leur fréquence (test hors boîtier, température ambiante 25°C). Il faut dire que près de 280W passent alors par l'ATX12V, 90% de cette puissance arrive au sein du CPU et doit in fine être dissipée alors que la densité augmente avec le 14nm... pas facile !

Vous pouvez également consulter ci-après les performances applicatives offertes par ce processeur dans notre protocole de test habituel, la partie jeu n'est pas encore terminée du fait des impacts du Turbo Boost 3.0. L'i7-6950X affiche une moyenne applicative en hausse de 19,5% face à l'i7-5960X. Les plus grosses hausses sont enregistrées sous V-Ray et Stockfish, avec respectivement 35 et 29% de mieux, soit plus que la hausse du nombre de coeurs… mais bien moins que les 63% de hausse tarifaire ! A défaut de concurrence sur le haut gamme, tout un chacun à en main les cartes qui permettront peut-être à ces tarifs de revenir à des niveaux plus raisonnables…


[ 3d studio max 2015 - Mental Ray 3.12 ] [ 3d studio max 2015 - V-Ray 3.0 ] [ Visual Studio 2013 ] [ MinGW-w64 - GCC 4.7.1 ] [ WinRAR 5.10 ] [ 7-Zip 9.20 ] [ x264 v2453 ] [ x265 v1.2+507 ] [ Lightroom 5.5 ] [ DxO Optics Pro 9.5 ] [ Stockfish 5 ] [ Houdini 4 Pro ] [ Moyenne applicative ]

1er tape-out 10nm ARM chez TSMC

Tags : 10nm; ARM; ARMv8; TSMC;
Publié le 18/05/2016 à 22:26 par
Envoyer Imprimer

ARM vient d'annoncer  qu'il avait effectué le tape-out d'un puce de test en 10nm chez TSMC. Cette puce intègre 4 coeurs Artemis, le successeur du Cortex-A72, utilisant l'architecture ARMv8-A mais un iGPU simplifié avec un seul coeur graphique. Le communiqué précise que le tape-out, c'est-à-dire l'envoi des informations chez TSMC pour graver la puce, a eu lieu au quatrième trimestre 2015.

ARM a précisé à AnandTech  que le tape-out avait en fait eu lieu en décembre, mais que si la validation de la puce de test est un succès il est question d'un retour de la puce chez ARM dans les semaines à venir, soit un délai tout de même assez long.


[ 1 ]  [ 2 ]  

Du coup les chiffres annoncées, qui font état selon les cas de 11-12% de performances en plus pour une même consommation que le 16nm ou d'une consommation réduite de 30% pour les mêmes performances, sont en fait des simulations. Dans le même temps la densité du 10nm TSMC devrait être jusqu'à 2.1x plus importante que celle du 16nm.

Cette annonce fait suite à un partenariat datant d'octobre 2014 sur le 10nm. Pour rappel le début de la production en volume pour le 10nm chez TSMC est prévu pour 2017, mais à l'instar du 20nm une partie des clients attendront le node suivant (7nm) en 2018.

Top articles