Actualités processeurs
APU13: Roadmap APU : Beema et Mullins en 2014
APU13: HSA: nouveaux membres, Oracle, Java...
APU13: Kaveri: TrueAudio, 856 Gflops et une date
Baisses de prix sur les APU AMD
Intel fabriquera des ARM 64 bits pour Altera
Kaveri A10-7850K et 7700K, des fréquences en retrait ?
Les hongrois de PROHARDVER! ont publié un extrait de documentation AMD révélant quelques caractéristiques des futurs APU Kaveri pour PC de bureau qui seront lancés mi-janvier :

Au moins deux modèles sont prévus, les A10-7850K et A10-7700K. Côté processeur on disposera dans les deux cas de 2 modules et 4 cœurs Steamroller. Si l'efficacité devrait être accrue par rapport à l'architecture Piledriver des APU actuels, la fréquence est plus basse avec des fréquences Turbo de 4 et 3.8 GHz ce qui limitera le gain de performance.
Un A10-6800K dispose pour rappel d'une fréquence de base de 4.1 GHz et d'une fréquence Turbo de 4.4 GHz. Quelle sera la fréquence de base cette fois ? Elle n'est pas indiquée mais lors de la conférence APU13 les calculs d'AMD étaient basés sur 3.7 GHz, ce qui pourrait donc être celle de l'A10-7850K.
Du côté du GPU intégré l'A10-7850K sera doté de 8 Compute Units (512 unités de calculs) alors que celui de l'A10-7700K en aura 6 (soit 384 unités). Dans les deux cas la fréquence GPU sera de 720 MHz, un chiffre revu à la baisse qui a contraint AMD à annoncer une puissance total de 856 Gflops alors qu'il visait au moins le Téraflop initialement. Par rapport aux APU actuels le GPU passe à l'architecture GCN plus efficace, plus exactement dans sa version "1.1", comme c'est le cas pour les GPU Hawaii et Bonaire, avec pour rappel quelques nouveautés niveau GPU computing et un support complet des Tiled Resources de DirectX 11.2.
Le moteur TrueAudio, qui prend également place dans l'APU de la PlayStation 4, est lui aussi de la partie et va pouvoir permettre de décharger les cœurs CPU tout en élargissant les possibilités au niveau du positionnement, de la fidélité des effets de type réverbération par exemple, tout du moins dans les jeux qui le supporteront. Kaveri supporte pour rappel la plateforme HSA dédiée au GPU computing à travers un espace mémoire unifié et uniforme entre le GPU et le CPU (hUMA), ainsi qu'à travers la technologie hQ (Heterogeneous Queuing) qui gère les interactions et créations de tâches entre les 2 types de cores présents dans l'APU.
Ces informations viennent donc confirmer les fréquences de Kaveri inférieures à ce qui était attendu, avec un recul par rapport aux actuels Richland que ce soit du côté du CPU ou du GPU. Bien entendu ils bénéficieront tout deux d'architectures plus efficaces qui devraient permettre un gain de performance au final, d'autant que côté GPU le nombre d'unités de calculs est en nette hausse sur la version la plus haut de gamme. En l'état il est difficile de savoir quelle est la cause de cette baisse, les Kaveri étant pour rappel gravés en 28nm bulk chez GlobalFoundries alors que les Richland utilisaient un procédé 32nm SOI.

Au passage une roadmap AMD portant jusqu'à 2015 a fait son apparition sur internet. Censée être tirée du même site, nous n'avons pas pu en retrouver trace. Elle semble toutefois crédible et montre l'arrivée en 2015 des APU Carrizo qui succéderont aux Kaveri et seront – entre autres – dotés d'une nouvelle architecture CPU. Bonne nouvelle, ils utiliseront toujours un Socket FM2+, il est donc important de ne plus acheter de carte mère FM2 à ce jour mais de se limiter aux FM2+ qui sont disponibles depuis plusieurs semaines maintenant.
Cette roadmap confirme également l'absence d'évolution sur la gamme AMD FX en AM3+ dans le futur puisqu'aucune nouveauté n'est prévue en 2014 et même en 2015. Pour rappel la dernière roadmap publique qui s'arrête à 2014 allait dans le même sens.
Des détails sur les (monstrueux) Xeon Phi de 2015
VR-Zone publie quelques slides intéressants sur la nouvelle génération de Xeon Phi nommée Knights Landing. On savait déjà que ces puces prévues pour mi-2015 seraient gravées en 14nm, géreraient l'AVX-512, la DDR4, le PCi Gen3 et seraient disponibles en version Socket comme sur des cartes PCI-Express. En termes de performances, Intel vise une puissance maximale triplée, de l'ordre de 3 Tflops en double précision, et une efficacité par watts également triplée.

On en sait maintenant plus sur les détails de la puce. Alors que Knight Corner intègre actuellement 64 cœurs x86 de type P54C (Pentium, à noter qu'au mieux 61 sont actifs sur les Xeon Phi 7100) disposant chacun de 512 Ko de cache L2 et pilotant une large unité de calcul vectorielle, sur Knights Landing ce sont désormais 72 cœurs de type Silvermont (la dernière architecture Atom lancée il y a peu, qui est cette fois out-of-order). Ils sont associés par paire, partagent un cache L2 de 1 Mo et gèrent chacun deux grosses unités vectorielles prenant en charge le traitement des instructions AVX-512.
Alors que les cartes Knights Corner gèrent au mieux 16 Go de GDDR5 offrant une bande passante de 352 Go /s, cette fois la mémoire sera composée de 8 à 16 Go de MCDRAM directement intégrée sur le packacing de la puce et offrant une bande passante pouvant atteindre 500 Go /s. Il faut y ajouter six canaux de DDR4-2400 permettant de gérer 384 Go supplémentaire avec une vitesse de 115,2 Go /s.

Enfin Intel y intégrera 36 lignes PCI Express Gen3, de quoi permettre d'éventuelles connexions entre plusieurs puces, ou avec des puces additionnelles. Un trimestre après le lancement des versions de base, une version "KNL-F" intégrant directement deux contrôleurs Fabric sur le packaging processeur verra le jour, elle permettra de disposer des liens optiques à haute vitesse et latence faible pour interconnecter les puces au sein d'un supercalculateur. Ces contrôleurs rajouteront 15W de consommation au TDP du package complet qui sera de 175 à 215W selon la version, contre 160 à 200W sans.

Contrairement à Knights Corner, Knights Landing sera utilisé sur Socket et il ne s'agira plus d'un simple co-processeur sur une carte fille, ce qui permettra de faire des serveurs utilisant seulement des Xeon Phi, de quoi augmenter notablement la densité pour les calculs massivement parallèles. Voilà un argument qui pourrait faire mouche dans ce secteur face aux offres Nvidia et AMD, sachant qu'une déclinaison sur carte fille de Knights Landing limitée à 2 canaux et 64 Go de DDR4 est également prévue pour fin 2015.
Intel fait un pas de plus vers le modèle foundry
Au-delà des informations sur le 14nm, l'information principale à retenir de la journée dédiée aux investisseurs du constructeur était sans aucun doute le pas de plus effectué en direction d'une activité de fondeur pour des clients tiers. Nous en avons déjà largement parlé, Intel dispose d'une petite activité de fondeur pour des clients tiers, qui s'est cantonnée dans un premier temps à des produits type FPGA.
Une activité qui s'est étoffée il y a moins d'un mois de cela avec l'annonce de la fabrication en 14nm de SoC/FPGA pour Altera, qui léger comble, incluent en prime pour la partie SoC un Cortex-A53 ARMv8. Au-delà du fait qu'Intel produise un SoC ARM, en pratique les produits d'Altera ne rentrent pas du tout en compétition avec les produits d'Intel. Cela risque cependant de changer, Brian Krzanich lors de sa présentation a montré le slide suivant :

Intel pousse donc de plus en plus son activité de fondeur tiers, passant de « quelques client stratégiques et choisis » comme le décrivait Mark Bohr en 2012 à « n'importe quelle société capable d'utiliser notre process ».
Questionné durant les sessions de Q&A sur le sujet, William Holt a confirmé qu'Intel pourrait produire pour des sociétés tierces des puces qui rentrent directement en compétition avec des produits proposés par Intel. A la question de savoir si Intel pourrait produire un SoC ARM qui entrerait en compétition avec les SoC x86 du constructeur, il aura ajouté « we'd rather get paid twice than once », faisant allusion au fait qu'il est plus profitable pour Intel de vendre l'IP (x86) et la puce fabriquée que simplement vendre la fabrication de la puce.
Dans un second Q&A, Brian Krzanich, CEO d'Intel aura confirmé une fois de plus l'ouverture de l'activité Intel Custom Foundry à tous, répétant que si le constructeur avait par le passé été assez timide dans ses initiatives, l'annonce faite ce jour correspondait bien à un changement de stratégie sur le long terme. Brian Krzanich aura confirmé lui aussi que même si des produits pouvaient rentrer en compétition avec ses propres puces, il était dans l'intérêt des investisseurs qu'Intel ne ferme plus la porte à d'éventuels clients.

Une offensive nouvelle qui s'est traduite par quelques petites piques envoyées vers TSMC et la Common Platform. D'abord envers le process 16nm de TSMC dont nous vous avions déjà parlé. TSMC compte en effet lancer la production en volume du 20nm en février 2014, puis du 16nm en février 2015. Pour arriver à cette rapidité, TSMC a choisi de conserver des similarités entre les deux process. Si le 16nm de TSMC apportera bien des gains de performances et de consommation, il apportera des gains réduits d'amélioration de densité (TSMC indique que le 20nm offre une densité 1.9x supérieure à son process 28nm, et que le 16nm offre une densité de 2.0x par rapport au 28nm).
Ce premier graphique est donc partiellement vrai (la courbe verte devrait un peu baisser au milieu). L'avantage que l'on peut en tirer est un autre problème. La question de la densité peut être un problème dans le cas où l'on tente de créer d'énormes puces, le reste du temps il s'agit avant tout d'une question économique. Augmenter la densité permet de produire plus de puces sur un wafer et donc d'en réduire le cout, mais le passage d'un process à un autre se traduit en général également par une augmentation du coût du wafer. Sans plus de détails sur le process de TSMC (qui en dévoilera un peu plus en décembre lors de l'IEDM), il est difficile de quantifier l'intérêt économique des deux solutions.

Intel profite de cette différence pour qualifier le 16nm de TSMC et de la Common Platform de 20nm FinFET. Un raccourci pas complètement honnête puisque, rappellons-le, le gate pitch (l'écart entre deux transistors) n'avait pas été réduit de manière aussi forte qu'a l'habitude entre le 32 et le 22nm chez Intel, comme nous l'avions mentionné ici. Dans tous les cas, la définition d'un process ne se fait pas par sa densité mais par ce que l'on appelle les feature size, la résolution à laquelle on peut dessiner (ce qu'on pourrait comparer en simplifiant par la taille d'une goutte d'encre sur une imprimante).
Intel donne quelques infos sur le 14nm
Intel tenait en fin de semaine dernière une journée dédiée aux analystes financiers, l'occasion pour nous de glaner quelques détails, plus particulièrement sur le 14nm qui était – de manière fort surprenante – massivement absent de l'Intel Developer Forum 2013.
En ce qui concerne le 14nm à proprement parlé, William Holt est revenu sur l'annonce du retard de Broadwell dont nous vous avions parlé précédemment. Pour rappel, Intel a indiqué qu'il décalerait le début de la production de ses puces 14nm d'un trimestre pour cause de yields plus faibles qu'attendus.

Intel a donné un peu plus d'informations sous la forme d'un graphique assez édifiant. Sur le graphique ci-dessus, Intel a dessiné l'évolution des yields (le pourcentage de puces produites « utilisables », une métrique qui n'est pas clairement définie et que William Holt indique – pour vous donner son niveau de précision - comme « relativement similaire » pour les deux cas) sur deux ans à la fois pour le 22nm et pour le 14nm. Ces deux courbes montrent donc, en théorie, des yields à des niveaux de développement et d'avancement comparables, c'est comme cela en tout cas que les a présentées William Holt. Comme toujours sur ces graphiques forts sensibles, l'échelle n'est pas précisée, un point sur lequel nous allons revenir. Le commentaire d'Intel est que les yields étaient significativement en retard même si des progrès récents sur les derniers mois montrent que le 14nm (en blanc) se rapproche du 22nm avec pour but d'être au niveau du 22 nm au premier trimestre prochain.
Intel indique que le délai – au-delà de la mise en production – est surtout lié aux conséquences des faibles yields sur l'année précédente qui ont « diminué le nombre de bonnes unités » disponibles pour les différentes phases de tests, validation ou développements annexes (les drivers). Des propos que l'on peut comprendre pour le public visé (les investisseurs) qui préfèrent entendre que le problème est derrière plutôt que devant. Nous nous devons cependant de modérer quelque peu l'enthousiasme du constructeur.

D'abord, nous avons tracé sur ce graphique en rouge le niveau du dernier point (indiqué comme un peu avant ou après la mi-novembre selon que l'on se fie au point ou à la ligne à laquelle il devrait être attaché…). Si l'on regarde précisément ou Intel en est aujourd'hui, les yields 14nm ont donc actuellement six mois de retard sur le 22nm, et non trois. La prédiction d'un rattrapage des yields pour le premier trimestre est donc avant tout basée sur la capacité d'Intel à rattraper ce qui ressemble à un tout petit gap sur cette échelle du graphique.
C'est l'autre point qui nous interpelle puisque pour rappel, la ligne jaune court de mai 2011 à février 2012, Ivy Bridge avait été lancé pour rappel en avril 2012. Or, si nous ne disposons pas d'un autre graphique de yields plus précis sur le 22 nm, Mark Bohr avait lors de l'IDF 2012 fourni le slide ci-dessous.

Ce slide mesure (avec une ambiguïté dans les échelles largement équivalente, pour ne pas dire supérieure !) la densité de défauts, ce qui n'est pas exactement l'inverse des yields même si les deux quantités sont inversement liées. Au minimum, on peut deviner qu'entre 2011 et 2012, l'évolution de la densité des défauts semble un peu plus dynamique que les yields très plats annoncés. Sans pouvoir en avoir la certitude, nous pensons que l'échelle du graphique de yields fournie par Intel est très compressée, diminuant quelque peu la réalité du travail restant à accomplir.
Cela ne remet bien entendu pas en cause la capacité d'Intel à lancer sa production ou ses futurs produits. Tant bien même que le rattrapage soit un peu plus long que prévu, le constructeur peut par exemple accepter de lancer la production avec des niveaux de yields un peu en dessous de ce qu'il attendait en rognant sur ses marges, ou lancer dans des volumes de production plus faibles le temps que le reste du travail (perpétuel) sur les yields se termine. Il faut également rappeler que Broadwell sera lancé de manière assez différente à ce qui s'était passé jusqu'ici chez Intel, dans un premier temps uniquement en format BGA pour les plateformes mobiles (qui sont toujours plus longues à adopter les nouvelles puces) puis, pour la fin d'année dans une version desktop qui cohabitera avec un Haswell Refresh en 22nm.
Ce changement des règles de lancement ne sera pas sans aider le constructeur et il serait fort intéressant de savoir en quelle mesure l'état du process 14 nm à influé sur la décision de ne pas lancer Broadwell en premier sur desktop comme à l'habitude. Une information qui avait filtré il y a un an de cela (soit six mois en amont du premier point de yield indiqué sur le graphique) et que l'on avait mise sur le compte de la volonté d'Intel de pousser sur la mobilité au détriment du desktop. Si la volonté sur la mobilité est bien entendu réelle, on aimerait savoir en quelle mesure l'état d'avancement du process 14nm a joué sur la décision.
Une chose est en tout cas certaine, si Intel n'a communiqué qu'il y a quelques semaines officiellement sur les problèmes de son 14nm, le constructeur était conscient de ces problèmes bien en amont. On notera que dans les questions/réponses, William Holt aura indiqué que si ce n'est pas la première fois qu'Intel rencontre des problèmes de yields de ce type, c'est la première fois depuis « un certain nombre de générations ».
On notera aussi un sous-entendu sur le multiple patterning, l'augmentation de son utilisation dans de plus en plus de couches des puces conduit à des interactions problématiques et complexes à débuguer. Officiellement Intel n'a pas vraiment dévoilé les différences entre le 22 et le 14nm, à part qu'il s'agira d'une seconde génération de tri-gate mais une augmentation du multiple patterning semble être au programme. On se souviendra que la Common Platform avait aussi fait ce choix (un peu contraint) dès le 20nm.

A gauche, une comparaison 32/22nm fournie par Intel à l'IDF 2011, à droite, le slide présenté par Intel comparant 22/14nm
Au-delà de tout ceci, Intel a également, par le biais d'un slide, donné un petit aperçu de ce qu'apporterait le 14nm. Là encore difficile d'en tirer quoique ce soit, à titre indicatif nous avons ajouté un graphique du même type comparant le 32 et le 22 nm. Attention cependant aux comparaisons hâtives. D'une, Intel a inversé les axes ce qui renverse quelque peu la donne et de deux, aucun point de référence n'est donné sur les axes, Intel se contentant d'indiquer des pourcentages. Difficile donc d'en tirer quoique ce soit si ce n'est que l'on attend un gain probablement un peu plus faible sur la vitesse des transistors qu'au passage 32-22 (les gros gains que l'on devine en bas à droite du second graphique sont à très faible tensions – ils correspondent au haut à gauche du graphique de gauche, ce qui ne correspond pas forcément aux tensions qu'Intel utilisera en pratique).
Roadmap AMD 2014, les FX sans successeurs
AMD a mis en ligne sa dernière roadmap publique . Si les nouveautés concernant les portables ou les serveurs ont déjà été détaillées par le passé, nous nous intéresserons ici à la partie desktop.

Sur l'entrée de gamme c'est l'APU Beema, dont nous avons déjà parlé ici, qui remplacera Kabini. Ils intégreront une évolution de l'architecture Jaguar et un Cortex-A5 afin de profiter de la plate-forme de sécurisation TrustZone d'ARM.
Kaveri est bien entendu présent, pour rappel cet APU apportera de multiples améliorations par rapport aux actuels Richland, avec notamment une évolution de l'architecture des cœurs CPU (Steamroller au lieu de Piledriver), un passage à l'architecture GCN pour le GPU, le HSA ainsi que l'AMD TrueAudio. Kaveri sera gravé en 28nm et nécessitera une carte mère FM2+. Attention, si la roadmap laisse penser que Kaveri verra le jour en 2013, sa disponibilité n'est pas prévue avant 2014. Une manière de ne pas avouer un retard évident, AMD insistant sur le fait que les livraisons aux intégrateurs commenceront bien fin 2013.
La réelle information de cette roadmap est en fait l'officialisation de la rumeur insistante qui courrait depuis des mois, à savoir l'abandon du segment "Performance" par AMD. Aucune nouveauté n'est en effet prévue pour 2014, et ce sont toujours les Vishera 32nm basés sur l'architecture Piledriver qui occuperont ce segment. La plate-forme AM3+ ne devrait ainsi pas connaitre d'évolution, que ce soit côté chipset avec par exemple des chipsets intégrant la gestion de l'USB 3 et du PCIe Gen3, ou côté processeur avec des processeurs 4 à 8 cœurs (2 à 4 modules) basés sur l'architecture Steamroller.
Alors qu'on espère que les développeurs de jeux parviennent enfin à se mettre au multithreading intensif en 2014, notamment sous l'effet des nouvelles consoles Xbox One et PlayStation 4 ou encore via l'arrivée de l'API Mantle, AMD qui doit logiquement se concentrer sur les segments rentables semble devoir abandonner la partie. Espérons que ce ne soit que temporaire !


