Page 1 - Une nouvelle plateforme, deux nouvelles architectures

Quasiment 3 ans après le lancement du LGA 2011-v3, Intel renouvelle sa plate-forme haut de gamme avec le lancement le 19 juin dernier du LGA 2066. L'occasion pour le fondeur de décliner, enfin, la microarchitecture Skylake sur ce segment, et de répondre à AMD et son ThreadRipper en déclinant à terme ses Core i9 jusqu'à 18 coeurs.

Le lancement de la dernière plateforme desktop haut de gamme d'Intel (HEDT, High End Desktop) est particulier à plus d'un titre. D'abord, nous avons eu l'occasion de vous le dire, par le fait qu'Intel a été très sélectif sur les publications qui ont reçus en temps et en heure les processeurs, privilégiant quelques medias américains. De notre côté nous n'avons reçu ces processeurs que le week-end dernier, ce qui a fortement limité nos possibilités pour vous proposer un test dans les temps.

Les problèmes logistiques ne sont cependant pas la seule particularité de ce lancement. En effet la nouvelle plateforme HEDT d'Intel n'a pas besoin de cela pour se distinguer. Elle apporte de nombreux changements, dont certains particulièrement bienvenus. En premier lieu on pensera aux cartes mères X299 qui inaugurent (une fois de plus) un nouveau socket, le LGA 2066. Pour cette génération Intel unifie ses PCH (le nom donné par Intel à ses southbridges qui gèrent les périphériques « lents », disques, réseau, son, USB, etc…), il s'agit du même chipset que l'on retrouve dans les Z270 (possiblement légèrement segmenté, on retrouve jusque 8 ports SATA sur les cartes mères X299). Un alignement particulièrement bienvenu puisqu'il permet de profiter des dernières technologies, les PCH des plateformes HEDT précédentes étant souvent en retard habituellement.

Au-delà de cette mise à niveau, ce sont les processeurs lancés qui surprennent. Ainsi on retrouve deux "architectures" différentes, Skylake-X et Kaby Lake-X. En pratique, nous avons eu l'occasion de vous en parler, les différences entre Kaby Lake et Skylake n'ont rien d'architectural. Il s'agit simplement des mêmes puces côté CPU, avec quelques correctifs du côté de l'IGP. Dans le cas des versions X, dépourvues d'IGP, la différence entre les deux semble donc insignifiante en théorie.

Les Kaby Lake-X ne sont disponibles qu'en versions 4 coeurs et l'on pensait surtout qu'il s'agissait pour Intel de proposer des processeurs plus abordables sur sa plateforme. Les choses sont un peu plus complexes, comme nous le verrons !

Car la star de ce lancement est censée être Skylake-X, prenant la suite de Broadwell-E, Intel y proposera des processeurs montant jusqu'à 18 coeurs... mais pas avant octobre ! En pratique aujourd'hui, seuls les modèles jusque 10 coeurs sont lancés, le plus haut de gamme étant le Core i9-7900X disposant de 10 coeurs (tout comme l'ancien haut de gamme de la plateforme Broadwell-E, le Core i7-6950X). Outre un gain de fréquence qui semble large, et une nouvelle architecture, le lancement de ce 7900X s'accompagne aussi d'une sauvage baisse de prix, le prix public passant de 1723 à 989 dollars. Un réalignement que l'on doit bien entendu en grande partie au réveil, enfin, de la concurrence.

Intel inaugure pour l'occasion la marque Core i9, même si, on s'en amusera, l'échantillon fourni que nous a fourni le constructeur est badgé "Core i7-7900X" dans ses registres ce qui trompe les différents outils d'identification... et Windows 10 !

Le Core i9-7900X vu en Core i7-7900X par Windows 10...

Nous vous proposons donc aujourd'hui un premier test des Core i9-7900X (Skylake-X) et Core i7-7740X (Kaby Lake-X), deux puces pas si identiques que nous aurions pu le croire, et qui nous laissent malgré tout un sentiment de déjà-vu...

Page 2 - Kaby Lake-X et Skylake-X, diamétralement opposés

Un Kaby Lake-X... pas très X

Commençons cet article en évoquant le cas le plus simple, celui de Kaby Lake-X. Lorsque l'on regarde les caractéristiques annoncées du Core i7-7740X, on retrouve des choses connues :

4 Coeurs/8 threads
8 Mo de cache L3
2 canaux mémoires DDR4
16 lignes PCIe

Pas la peine de faire durer le suspense, c'est effectivement les mêmes caractéristiques que les Kaby Lake classiques. En pratique Kaby Lake-X reprend le die des Kaby Lake... en désactivant l'IGP.

Cela veut dire que l'on s'attend à retrouver exactement le même type de performances que le 7700K, ce qui n'est pas forcément une mauvaise chose, mais aussi les mêmes limites. En effet en réutilisant ce die, Kaby Lake-X ne profite ni des 4 canaux mémoires présents sur les cartes mères (il faudra utiliser uniquement les slots marqués dans le manuel), ni des lignes PCI Express supplémentaires.

Le die de Skylake/Kaby Lake, la (large) partie gauche en rouge pointillés est désactivée sur le die pour créer Kaby Lake-X

L'idée derrière Kaby Lake-X est simplement de proposer - à moindre coût (pour Intel) - des processeurs 4 coeurs en réutilisant l'existant. Intel profite tout de même du socket plus large pour augmenter le TDP qui monte à 112 watts, et permet d'obtenir une fréquence de base de 4.3 GHz et des coefficients turbo à 4.5 GHz pour le 7740X que nous avons eu entre les mains. A propos de celui-ci, notez que tous ses coefficients turbo sont alignés, ce qui veut dire qu'en charge 4 coeurs, la fréquence restera à 4.5 GHz. Notez enfin que la fréquence Turbo en charge AVX est elle aussi alignée à 4.5 GHz, le TDP large le permettant.

Nous verrons en pratique les performances de cette puce mais nous ne nous attarderons pas plus sur ce qui est, au final, quelque chose d'assez connu. Si vous souhaitez plus de détails sur l'architecture, nous vous renvoyons à notre article sur Skylake premier du nom !

Un Skylake-X très différent !

Celui qui va le plus nous occuper est bien entendu Skylake-X. Et là, nous avons bel et bien droit à un grand nombre de nouveautés. D'abord d'un point de vue des dies, historiquement la plateforme HEDT d'Intel est conçue autour des dies fabriqués pour les Xeon.

Intel produit plusieurs dies pour construire sa gamme, dans les dernières générations on en retrouve trois qui se différencient par le nombre de coeurs qu'ils comportent. En pratique pour cette génération, on retrouve selon nos informations un LCC (Low Core Count) avec jusque 10 coeurs, un MCC (Medium Core Count) allant jusqu'à 18 coeurs, et un HCC (High Core Count) montant à 28. Notez que ces chiffres ne sont pas confirmés par Intel.

Le constructeur nous a fourni cette photo du die de Skylake-X, sans préciser de quelle version il s'agit. Nous supposons qu'il s'agit du MMC, la version 18 coeurs. On peut noter deux « blocs » légèrement différents en haut et en bas de la deuxième colonne, nous supposons qu'il s'agisse des blocs qui incluent les contrôleurs mémoires qui semblent séparés en deux. Skylake-SP inclut 6 canaux mémoires même si Skylake-X n'en exploite que quatre. Nous supposons que chaque bloc en contient trois.

Jusque Broadwell-E, Intel ne s'est servi que des dies LCC ce qui nous limitait à 10 coeurs dans la gamme. Dans un premier temps, les roadmaps avaient évoqué un modèle 12 coeurs qui laissait penser que le nombre de coeurs du LCC était peut être finalement de 12. Au final, après l'annonce de ThreadRipper, Intel a revu sa copie et rajouté en dernière minute des SKU montant à 18 coeurs, ce qui veut dire en pratique que ces puces exploiteront le die MCC. Et qui explique aussi leur absence aujourd'hui avec un lancement en deux temps !

Le Core i9-7900X (et les modèles inférieurs lancés en juin) exploitent donc tous le die Skylake-SP/Xeon LCC/10 coeurs.

Une architecture assez proche de Skylake, l'AVX-512 en plus

Dans les grandes lignes, Skylake-X/Skylake-SP change assez peu d'un point de vue micro-architecture du Skylake que l'on connaît et dont vous pourrez retrouver les détails dans cet article.

Ce qui change cependant, c'est l'ajout des instructions AVX-512, ou plus exactement d'une partie d'entre elle. Nous avions eu l'occasion d'en parler lorsque le constructeur avait présenté ce jeu d'instructions, il est composé en pratique de multiples jeux d'instructions qui sont disponibles en fonction des modèles, qu'il s'agisse des Xeon Phi ou des Skylake-SP.

Certaines instructions n'apparaitront pas avant Cannonlake

Il y a un socle commun, AVX-512F (Foundation) qui regroupe les instructions de base communes. A celles-ci s'ajoutent des opérations sur la détection de conflit (AVX-512CD) pour tenter d'améliorer la vectorisation automatique.

Xeon Phi a droit à quelques instructions exclusives. Certaines sont liées à son architecture particulières avec des instructions de prefetch dédiées (AVX-512PF), d'autres dédiés aux calculs d'exponentielles et d'inverses (AVX-512ER).

Pour Skylake-SP, on retrouve les extensions BW (instructions sur les entiers 8/16 bits), DQ (entiers/flottants 32/64 bits) et VL (gestion des registres).

Mais au-delà des instructions, la manière dont elles sont traitées est relativement mystérieuse. L'architecture Skylake contient déjà deux unités (placés sur les ports 0 et 1) capables de traiter les instructions AVX 256 bits. En les cumulant, on peut donc réaliser une instruction AVX 512 bits.

Les unités vectorielles sont regroupées sur les ports d'exécution 0, 1 et 5 dans l'architecture Skylake

Cela n'explique cependant pas la possibilité du 7900X de lancer deux instructions FMA (Fused Multiply Add, par exemple A = A * B + C) par cycle. Cela suppose que d'autres unités AVX soient présentes sur d'autres ports. Des unités FMA supplémentaires pourraient être présentes sur les ports 5 et 6, et désactivées sur les modèles les moins onéreux. Nous attendons une clarification d'Intel également sur ce point.

Page 3 - Nouveaux caches et nouvelle... interconnexion ?

Une nouvelle architecture de caches

C'est une des plus grosses surprises, Intel a décidé de changer drastiquement l'implémentation de la mémoire cache dans ses puces.

Au niveau du L1, en apparence rien ne change. On trouve toujours un cache de données de 32 Ko (avec une associativité 8-way). Un cache d'instruction de 32 Ko est également toujours présent, sans changement.

Par contre dès le niveau 2 les choses changent assez drastiquement. Chaque coeur dispose toujours de son propre cache de niveau 1 et de niveau 2, cependant le cache L2 voit sa taille augmenter significativement en passant de 256 Ko à 1 Mo. C'est donc quatre fois plus que Skylake, et deux fois plus que Ryzen. L'associativité évolue en fonction, on passe de 4-way à 16-way (et 8-way pour Ryzen pour les curieux).

Augmenter la taille du L2 sur le papier est un moyen assez simple d'augmenter les performances, s'il permet d'éviter un saut jusqu'au L3 (dont la latence est plus élevée et la bande passante plus basse). A latence/bande passante égale, quadrupler la taille du L2 serait donc une excellente chose.

Mais avant de parler de vitesse, parlons du L3...

Un L3... victime ?!

C'est clairement une des plus grosses surprises de ce lancement, Intel a décidé de mettre de côté son système de cache L3 inclusif pour passer... à un cache type victime. Pour rappel, historiquement les caches L3 d'Intel étaient de type inclusif. Cela veut dire qu'une donnée présente dans le L2 était copiée dans le cache L3. Il y a de multiples avantages à cette approche qu'Intel mettait en avant. Un exemple simple est lorsqu'un coeur a besoin de données placées dans le L2 d'un autre coeur : les données sont déjà dans le L3, évitant de devoir aller les récupérer dans le L2 de l'autre coeur (ou en mémoire).

Le L3 de Skylake-X est donc de type exclusif, on parle aussi de cache victime puisqu'il se remplit des données qui ont été éjectées des L2 des coeurs. Si cette description vous rappelle quelque chose, c'est peut-être parce que c'est exactement le même type de cache L3 que l'on retrouve sur... Ryzen.

Et en pratique ?

Avant de vous donner les chiffres de bande passante ci-dessous, nous devons vous indiquer que nous ne sommes pas les seuls à avoir eu peu de temps pour travailler sur notre article. Les auteurs des outils de tests que nous utilisons régulièrement, que ce soit Hwinfo64 ou Aida64 ont également eu assez peu de temps pour s'adapter aux particularités de Skylake-X qui change beaucoup de choses, particulièrement dans la manière de détecter correctement la fréquence du processeur et de la BCLK.

Intel a ajouté de nouveaux mécanismes qui font que le processeur doit rapporter lui-même ces informations, mais ces dernières sont assez mal documentées ce qui peut générer des erreurs dans certains outils qui ne lisent pas forcément correctement les fréquences. Nous tenons une fois de plus à remercier la persistance et la patience des auteurs des dits logiciels, qui nous ont amplement aidés une fois de plus !

De la même manière, les tests de bande passante n'ont pas forcément été "optimisés" même s'ils semblent corrects à première vue.

Pour ce test, nous avons configuré le 7900X en mode "8 coeurs" en désactivant deux de ses coeurs. Nous désactivons l'HyperThreading, et la fréquence des puces est réglée à 3 GHz. Cela nous permet d'obtenir une comparaison directe avec le Core i7-6900K et le Ryzen 1800X.

Regardons donc ce qu'il en est des caches de Skylake-X :

[ Skylake-X ] [ Broadwell-E ] [ Zen ]

Mettons de côté un instant la latence que nous avons marqué en orange pour comparer les bandes passantes en lecture entre 7900X et 6900K.

En terme de bande passante, sur le L1, on est en pratique plus lent de 11% en lecture et un tout petit peu plus en écriture. Rien de grave, si l'on compare à Ryzen par exemple, Intel continue d'avoir des L1 excessivement rapides.

Par contre quand on regarde le L2, les choses sont toutes autres. Certes, la bande passante en écriture/copie ne baisse que de 12/13%, mais la bande passante en lecture est divisée par trois ! Nous ne l'avons pas remis sur ce graphique, mais ce chiffre de bande passante en lecture est même inférieur à... Piledriver. On restera prudent, nous le verrons un peu plus bas le L2 semble avoir un fonctionnement différent de ce que les caractéristiques brutes fournies par Intel peuvent laisser penser, et cela impacte probablement cette valeur de bande passante.

Mais si l'on regarde maintenant le L3, les choses sont dans la même lignée. Cette fois les opérations de lecture/copie sont deux fois plus lentes sur Skylake-X que sur Broadwell-E, et en lecture on divise une fois de plus par trois les performances.

Autant dire que ces chiffres ne sont pas bons, et si une fois de plus nous vous rappellerons qu'il est possible que les outils de mesures d'Aida64 ne détectent pas correctement certains détails, ou ne soient pas adaptés à certaines particularités de Skylake-X, l'ordre de grandeur général semble bien être celui-ci.

Pour ce qui est de la latence, là aussi on est circonspect. La latence du L1 est semblable, mais celle du L2 augmente, s'alignant un peu plus sur Zen que sur Broadwell-E. Et pour le L3, là aussi, la latence est très élevée, presque 50% supérieure à celle de Broadwell-E.

Afin d'y voir plus clair, nous avons utilisé le benchmark de latence avancé d'Aida64 qui nous permet de mesurer la latence en fonction de la taille des accès. Pour rappel, on regardera l'évolution sur le graphique en trois morceaux :

0 à 32 Ko (L1)
32 Ko à 1 Mo (L2)
1 Mo à 12 Mo (L3)

Voyons ce que cela donne en pratique :

[ Core i7-7900X ] [ Core i7-6900K ] [ Ryzen 7 1800X ]

Sur le L1, on ne voit pas de surprise, on se retrouve à un niveau cohérent et qui ne bouge pas (la latence est de 4 cycles). Sur le L2 par contre, nous nous posons quelques questions. Le benchmark "rapide" d'AIDA64 nous indiquait une valeur assez élevée, qui correspond peu ou prou à des accès sur un peu moins d'un Mo. Normal, c'est bien la taille du L2 avancée par Intel. Sauf que ce qui est surprenant, c'est que ce L2 ait une latence variable en fonction de la taille des accès. Les 256 premiers Ko (taille historique du L2 Intel) ont une latence très basse tandis qu'au-delà la latence monte. C'est intriguant, et montre peut être que ce L2 aurait un fonctionnement un peu plus complexe qu'a l'habitude.

Pour ce qui est du L3, on voit là aussi que la latence n'est pas la même à 1.5 Mo qu'au-delà, à 12 Mo cette latence augmentant assez nettement (passé 14 Mo, on est en mémoire centrale). Il y aurait donc un effet, bien qu'avec un impact très léger, sur la latence.

Terminons par ce que l'on devine en bas de notre graphique, à savoir la bande passante et la latence mémoire. Dans ce test, nos plateformes modernes utilisent 4 barrettes de DDR4-2400 CL15 (et DDR3-1600 CL9 pour le FX), en quadruple canal sur les Intel. Nous utilisons le test intégré d'Aida64 :

Sur la bande passante mémoire, Intel semble progresser dans ce test qui reste on le rappellera très théorique. La bande passante en écriture s'aligne sur celle en lecture ce qui semble intéressant. Mais l'on notera que la latence semble là aussi largement supérieure à ce qu'elle était sous Broadwell-E !

Essayons de garder ces détails à l'esprit pour appréhender l'autre gros changement effectué par Intel sur Skylake-X...

Page 4 - Sortie de ring : place au mesh !

Sortie de ring : place au mesh !

La réorganisation des caches est intimement liée à une autre réorganisation massive dans Skylake-X : l'interconnexion des coeurs entre eux. Avant de parler de la nouvelle organisation, regardons l'ancienne :

Ce slide d'Intel n'indique pas le bon nombre de coeurs, le schéma est cependant correct

Sur ces schémas, on peut voir côte à côte les différentes organisations des dies (LCC, MCC, et HCC). Broadwell-E, comme nous vous le rappelions un peu plus tôt, utilisait le LLC pour des puces incluant jusque 10 coeurs. Dans ces configurations, chaque coeur disposait de son propre "slice" de cache L3 (LLC), et tous les coeurs étaient reliés les uns aux autres par un double ring bus très rapide. Dans les cas des dies MCC/HCC, deux rings bus étaient utilisés, interconnectés l'un à l'autre.

L'avantage principal d'un ring bus est qu'il dispose d'une très large bande passante, chaque coeur ayant son propre "arrêt de bus" pour envoyer et recevoir des données. Il en va de même pour les contrôleurs mémoires (en orange), les liens PCI Express (en bleu) et les liens vers d'autres éventuels processeurs (via les liens QPI, en jaune).

Un type d'architecture bien rôdé, très utilisé aussi bien dans les CPU que les GPU et qui, dans le cas de l'implémentation d'Intel, donnait de très bons résultats jusqu'ici.

Place au... mesh interconnect

Pour Skylake-X, Intel adopte un nouveau type d'interconnexion dont on retient avant tout le nom : mesh. Quelque chose que l'on traduira comme un maillage. Intel est assez peu disert sur le fonctionnement exact mais nous a fourni ce schéma :

L'idée est d'organiser le die en une série de blocs. On y retrouve sur cet exemple fictif des blocs coeurs + cache L3 qui nous rappellent quelque peu les blocs actuels, mais aussi des blocs pour les contrôleurs mémoires, d'interconnexions ou d'IO (comme le PCIe).

Chaque bloc dispose cette fois ci d'un switch intégré (en vert) qui relie le bloc sur des « axes de circulation », en rouge, qui sont horizontaux ou verticaux. Une grille qui ressemble quelque peu à une organisation de circulation dans une ville américaine organisée en blocks.

Il serait trompeur de voir chaque axe en rouge comme un ring bus indépendant, car en pratique les choses deviennent beaucoup plus complexes. Les données doivent désormais transiter dans deux sens (horizontalement et verticalement), ce qui demande une logique au niveau du switch qui doit lire la source et la destination des paquets pour voir dans quel sens il doit les rerouter (horizontalement ou verticalement). Un mécanisme beaucoup plus complexe qui, c'est tout à l'honneur d'Intel, semble avoir un impact assez léger côté latence (une première approximation rapide nous fait estimer grossièrement à 1/2ns chaque saut), même si cela ajoute une touche de variabilité.

Si l'on reprend notre illustration du die, on voit bien le parallèle avec le schéma ci-dessus, on tournera dans sa tête d'un quart de tour vers la droite le die pour retrouver un alignement très proche du schéma

En matière de bande passante cependant, les chiffres théoriques rapportés nous montrent que ce n'est peut-être pas aussi performant qu'un ring bus traditionnel. Et là, difficile en quelques heures de vous donner une analyse plus fine, d'autant qu'Intel est jusqu'ici silencieux sur les détails d'implémentations. Comment fonctionne par exemple l'algorithme des switchs ? Les données se déplacent elle toujours verticalement avant d'entamer une éventuelle transition horizontale comme sur Knights Landing ? Quel type de mécanisme anti congestion est mis en oeuvre ? Y a t-il une priorité sur les échanges entre coeurs vis à vis d'échanges contrôleur mémoire core ou inversement ? Quid des données en provenance du PCI Express ? Avoir plus de "routes" peut sembler une bonne solution pour améliorer la densité d'informations qui transitent, mais de la même manière qu'en urbanisme, ce sont les intersections et leurs congestions qui deviennent le facteur limitant quand on multiplie les routes.

Sans plus de détails sur l'implémentation on ne peut que supposer, mais il est possible qu'un test théorique, fait pour stresser massivement la bande passante soit l'un des pires cas possible pour le mesh, cas qui ne se reproduirait pas forcément en utilisation normale. Nous tenterons de voir si un impact se dessine dans nos tests pratiques.

Qui plus est, la question de l'emplacement d'un core devient importante. Les cores dans les coins sont moins bien interconnectés que les autres (ils ont moins de "voisins"), tandis que les switchs centraux seront probablement les plus congestionnés.

Certains d'entre vous se demanderont probablement "pourquoi" ? Intel sur ce point est très vague, un simple billet de blog très marketing nous explique que cela permet d'améliorer la "scalabilité". De notre côté nous voyons plusieurs facteurs.

D'abord le premier est qu'Intel travaille depuis des années sur des solutions de ce type. En fouillant dans nos archives, il y a de fortes chances que l'on retrouve des simulations d'Intel lors d'IDF lointains montrant leurs travaux théoriques autour de la question. Intel effectue énormément de recherche sur ce type d'interconnexions, remontant au moins à la genèse de son projet Larrabee. Son petit fils spirituel, Knights Landing, utilise d'ailleurs un type d'interconnexion identique pour ses 76 coeurs.

D'un point de vue théorique, les meshs permettent d'améliorer les interconnexions (on est relié à quatre voisins, contre deux dans un ring bus), et donc de réduire la latence moyenne théorique en réduisant la distance entre les cores. D'un point de vue théorique, cela semble vrai même si en pratique nous notons une latence plus élevée pour le L3 et les accès mémoires. Cette dernière est peut être liée à des détails d'implémentations particuliers, et ne remettent pas forcément en cause le concept de mesh en général.

Reste que si l'on peut penser que la solution a été amplement réfléchie, fortement simulée, et savamment étudiée, on peut se demander légitiment si elle était nécessaire, ou optimale, pour un die ne comptant que 10 coeurs ? Les modélisations statistiques ont elles prises en compte tous les types de charges, qui mêlent intercommunication entre les coeurs, bande passante PCI Express et contrôleurs mémoires ? Seul Intel le sait bien évidemment, on tentera de voir en pratique si ces changements de topologies massifs, et théoriquement bienvenus, ont un impact sur les performances pratiques.

Notez enfin que nous avons posés de très nombreuses questions à Intel sur ce mesh dont nous attendons encore les réponses. La question de la fréquence de cette interconnexion, la latence d'un "saut", l'algorithme, la largeur des liens, la bande passante, tous ces détails d'implémentations sont particulièrement importants pour évaluer la solution. Nous complèterons cet article si Intel nous donne plus de détails, bien évidemment !

Page 5 - X299, Asus Prime X299-A, gamme LGA 2066

X299, Asus Prime X299-A, la gamme

Mettons de côté un instant les histoires de caches et de mesh pour revenir à des choses plus concrètes, comme la plateforme ! Nous en avons rapidement parlés, la nouvelle plateforme s'articule autour d'un nouveau socket, le LGA 2066. On retrouve toujours un mécanisme LGA (les pins sont dans le socket et non derrière le processeur) que l'on ouvre et ferme avec deux bras. La bonne nouvelle est que le système de fixation des ventilateurs n'évolue pas, les systèmes compatibles LGA-2011 fonctionneront tels quels sur les cartes mères X299.

Les cartes mères utiliseront donc un chipset baptisé X299, même si en pratique il s'agit du même PCH que celui utilisé sur les Z270. Il n'y a pas de fonctionnalités supplémentaires, si ce n'est le VROC dont nous vous avions parlés il y a quelques semaines de cela, et le fait que 8 ports SATA soient exploitables contre 6 précédemment. Pour le reste le chipset est identique et nous vous renvoyons à cet article pour plus de détails.

Cela ne veut pas dire pour autant que les cartes mères sont les mêmes ! Car outre le socket et un chipset commun, il faut prendre en compte les particularités de ce qui est intégré dans le processeur. Quatre canaux mémoires sont gérés au maximum et côté PCI Express, jusque 44 lignes sortent du processeur pouvant être configurés en x16/x16/x8 sur trois ports PCI Express.

En pratique, nous vous avons présentés ces dernières semaines les gammes de cartes mères des constructeurs Asrock, Asus, Gigabyte et MSI.

Asus Prime X299-A

Pour réaliser notre test, Asus nous a fourni une carte mère Prime X299-A qui représente pour rappel son offre "entrée de gamme", mais qui n'est pas pour autant dépourvue de LEDs RGB !

En pratique la carte inclut trois ports PCI Express reliés au processeur, pouvant fonctionner en x16/x16/x8 avec un processeur adéquat, mais aussi deux ports PCIe 4x (en x4 et x1) et 2 ports PCIe x1.

Dans le cas de l'utilisation d'un processeur Kaby Lake-X, il faudra placer ses barrettes mémoires dans les slots C et D, et dans les slots gris dans une utilisation avec un Skylake-X pour profiter des quatre canaux.

D'un point de vue utilisation, par défaut, la carte mère démarre avec l'option "MultiCore Enhancement" active qui pour rappel overclocke les coefficients multiplicateurs Turbo. Nous désactivons cette option pour nos tests, bien évidemment. Asus ne semble pas effectuer d'autres overclocking malicieux ou qui nous aurait jusqu'ici échappé. Un jour, le constructeur arrêtera d'activer par défaut son overclocking Turbo, nous n'en doutons pas...

On se doit de vous indiquer que nous avons eu quelques problèmes d'USB avec le BIOS 402 (le BIOS publique disponible au moment où nous écrivons ces lignes), certains ports ne répondant pas sous Windows, un problème qui s'est renouvelé plusieurs fois durant nos tests. Difficile de dire s'il s'agit d'un problème de BIOS ou plus général de plateforme, l'USB reste pour rappel géré par le chipset Intel qui nous a habitués à ce type de dysfonctionnements.

Pour le reste nous n'avons pas eu de problème particulier à noter, y compris en passant d'un Skylake-X à un Kaby Lake-X. Il s'agit d'une situation qui concernera fort peu de monde, mais certains de nos confrères ont vu griller un processeur en passant de l'un à l'autre sur certaines cartes mères, la gestion des tensions étant différente. Heureusement pour nous, le problème ne s'est pas posé et semble réglé par Asus tout du moins.

Asus nous a également fourni (après quelques incompréhensions) un nouveau BIOS apportant une nouvelle version du microcode pour Skylake-X. Baptisée 0501, elle apporte effectivement une nouvelle version du microcode pour ces processeurs, même si nous n'avons pas noté de différences de performances.

Core i7-7740X : Kaby Lake-X

Nous avons testés deux processeurs sur cette nouvelle plateforme, le premier étant le Core i7-7740X. Il s'agit d'un Kaby Lake-X, à savoir un Kaby Lake classique (4 coeurs/8 threads) avec l'IGP désactivé, mais placé dans un socket LGA 2066 avec un TDP plus élevé, 112 watts.

Cela se voit sur les fréquences puisque si sa fréquence de base est de 4.3 GHz, sa fréquence Turbo est de 4.5 GHz, y compris pour sa fréquence Turbo AVX !

Core i9-7900X : Skylake-X

L'autre processeur testé est un Core i9-7900X, il s'agit d'un modèle 10 coeurs/20 threads annoncé pour 140 watts de TDP.

Pour rappel notre exemplaire de Core i9 s'identifie comme un Core i7...

Sa fréquence de base est de 3.3 GHz et côté fréquences Turbo, Intel nous a communiqué les coefficients suivants :

4.3 GHz sur 1C/2C
4.1 GHz sur 3C/4C
4.0 GHz au-delà

Par-dessus cela, il faut ajouter Turbo Boost 3.0, il s'agit pour rappel d'un Turbo "supplémentaire" géré de manière logicielle. La bonne nouvelle est que désormais, le fonctionnement est transparent sous Windows 10, il ne sera plus nécessaire d'installer le pilote d'Intel. Ce Turbo Boost 3.0 permet sur le 7900X d'atteindre 4.5 GHz si la charge ne porte que sur un ou deux coeurs. Nous avons pu constater qu'il était bel et bien actif sur notre plateforme de test sous Windows 10.

On vous rappellera enfin que la gamme d'Intel se lancera par étape successives. Le constructeur nous a confirmé que le modèle 12 coeurs devrait être annoncé en août, tandis que les modèles suivants (14/16/18 coeurs) sont attendus pour octobre. Les fréquences ne sont par contre toujours pas connues.

Après tant de théorie, passons un peu à la pratique !

Page 6 - Piledriver, Zen, Broadwell-E et Skylake-X à 3 GHz

Piledriver, Zen, Broadwell-E et Skylake-X à 3 GHz

Nous avons tenu à regarder les performances des différentes architectures d'Intel et d'AMD à fréquence égale. Pour effectuer cette comparaison, nous utilisons des puces 8 coeurs sur chacune des architectures.

Nous cadençons pour ce test nos FX-8350 (Piledriver), Ryzen 7 1800X (Zen) et Core i7-6900K (Broadwell-E) à 3 GHz. Ne disposant pas encore de puce Skylake-X 8 coeurs, nous avons désactivés deux coeurs à notre 7900X afin de pouvoir obtenir un point de comparaison.

Le SMT/HyperThreading est actif sur ce test pour les processeurs qui disposent de cette technologie. Nous utilisons 4 barrettes de 4 Go de DDR4-2400 15-15-15-35 1T sur les plateformes DDR4, et 4 barrettes de 4 Go de DDR3-1600 9-9-9-24 1T pour le FX.

Avant d'aller plus loin, certains des résultats pourront paraître… déroutants. Nous avons effectués un grand nombre de vérifications pour nous assurer qu'il n'y avait pas de problèmes avec notre plateforme, et passé beaucoup de temps à vérifier avec Asus si la cause n'était pas forcément liée à un BIOS, comme évoqué par certains de nos confrères, mais aussi avec Intel a qui nous avons fait part en amont de nos résultats. Si un problème spécifique peut toujours nous avoir échappé, nos résultats ne sont pas isolés et font écho à ce qu'ont rencontré certains de nos confrères.

Dans les applications

Nous calculons un indice 100 sur Piledriver, commençons par les applications :

On ne reviendra pas sur le fait que le FX soit loin derrière, nous allons nous concentrer bien entendu sur Skylake-X même si l'on le garde comme base pour calculer nos indices.

D'abord si l'on regarde l'indice applicatif, on peut voir que globalement, Skylake-X fait légèrement mieux que Broadwell-E. L'écart est cependant infime, on parle de 1.5% de gain ce qui n'est pas exceptionnel.

Et quand on regarde dans le détail, on ne peut pas s'empêcher d'avoir un petit sentiment de déjà vu. Il y a en effet trois applications ou Skylake-X fait nettement moins bien que Broadwell-E : 7-Zip, WinRAR et Lightroom, avec des déficits de 6.8, 10.3 et 10.5% ! Ces déficits sont tout saufs anodins et assez rares pour être signalés.

Mais, ce qui nous donne ce petit air de déjà vu, c'est que ce n'est pas la première fois que l'on parle de ces trois applications. Trois applications qui sont aussi celles où Zen accusait son plus fort déficit face à Broadwell-E...

Dans les jeux

On se pincera avant de regarder la situation dans les jeux 3D :

Que dire... Oui vous ne rêvez pas, Skylake-X à 3 GHz est en moyenne 12.7% plus lent que Broadwell-E dans les jeux.

Et quand l'on regarde dans le détail, il y a de quoi se gratter la tête, Skylake-X est systématiquement plus lent que Broadwell-E... et parfois même plus lent que Zen parfois tancé sur ce point ! On notera les performances particulièrement en dessous sous Civilization VI, près de -26% qui indiquent peut être un autre problème spécifique dans ce titre.

On fera un petit aparté sur F1 2016 pour ne pas féliciter Codemasters qui n'a toujours pas pris le temps de sortir un patch pour son jeu qui corrigerait la détection du SMT qui handicape pour rappel Zen dans ce titre. Un comble étant donné que Codemasters est un partenaire historique d'AMD !

En moyenne à 3 GHz, l'écart entre Zen et Skylake-X n'est que de 5.25% à l'avantage de la nouvelle architecture d'Intel, là où l'on était jusqu'ici à un peu plus de 20%.

Page 7 - Impact du SMT/HT

Impact du SMT/HT

Nous regardons l'impact de l'HyperThreading sur Skylake-X. Pour ce test nous reprenons une fois de plus notre configuration "uniformisée" à savoir un Core i9-7900X auquel nous désactivons deux coeurs.

Tous les processeurs sont cadencés à 3 GHz et nous comparons les performances pour chaque puce avec et sans le HT/SMT. Nous normalisons à 100 les performances avec HT/SMT désactivé.

Nous utilisons 4 barrettes de 4 Go de DDR4-2400 15-15-15-35.

Commençons d'abord par les applications :

Il y a un peu moins de surprises cette fois ci, on note quand même que globalement, Skylake-X gagne un peu plus de performances (un peu plus de 3%) avec l'HyperThreading actif que Broadwell-E. On ne notera aucun gain dans Lightroom ce qui indique peut être une mauvaise détection de l'HT sur les nouveaux Skylake-X, ou qu'autre chose bride ici les performances.

Regardons maintenant ce qui se passe dans les jeux.

Les jeux ont rarement profité de cette technologie associée à un nombre de coeurs élevés. En pratique pas vraiment de changement sur Skylake-X avec des pertes sensiblement équivalentes à ce que l'on retrouve sur Broadwell-E, même si parfois légèrement amplifiées.

En moyenne on perd 2.8% de performances ce qui reste assez négligeable lorsque l'on compare cette perte aux gains apportés dans les applications.

Page 8 - Overclocking en pratique

Overclocking en pratique

L'overclocking chez Intel reste dans la lignée de ce que l'on connait. On dispose de deux modes de réglages pour les tensions, soit une tension fixe, soit un réglage par offset, et l'on peut changer les coefficients multiplicateurs sur le Core i9-7900X.

Pour réaliser nos overclockings, nous avons décidés de régler la tension de manière fixe dans le BIOS, et d'y changer les coefficients multiplicateurs. Car si Intel fourni bel et bien une version de son outil d'overclocking XTU, nous n'avons pas réussi à lui faire changer les coefficients multiplicateurs avec Skylake-X. Le logiciel fonctionnait par contre avec Kaby Lake-X…

La tension par défaut de fonctionnement de notre Core i9-7900X est, selon le BIOS, de 1.054V en charge, une tension qui varie cependant en fonction du type de charge. Nous utilisons Prime95 en version 28.10 en mode FFT 256k In-line et dans ce mode, nous notons que le VID est plus contenu, restant dans les réglages par défaut à 0.964V.

En pratique cette tension est limitée par le fait que le coefficient multiplicateur n'est pas à 40x comme l'on pourrait s'y attendre, mais flirte autour de 36x. Faire sauter les diverses « power limit » font lever cette restriction.

Une des plus grosses critiques que l'on peut faire aux processeurs LGA 2066 en matière d'overclocking est qu'Intel est revenu en arrière. Contrairement aux dernières générations qui étaient soudées, les dies sont désormais reliés à l'IHS par une pate thermique. De quoi réduire le potentiel d'overclocking en théorie à cause de températures élevées, nous verrons en pratique ce qu'il en est.

Pour réaliser ce test, nous utilisons un (énorme) radiateur Noctua D15 équipé de deux ventilateurs. Nous indiquons la tension (VID), la consommation à la prise ainsi que mesurée à l'ATX12V. La température rapportée est celle des sondes internes du processeur, nous utilisons la sonde « Core Max » de hwinfo64 qui rapport la température maximale des coeurs. Voyons ce que cela donne !

Core i9-7900X

On commence par le Core i9-7900X qui ne démérite pas totalement. Si l'on met de côté le fait qu'il ne tourne pas vraiment à 4 GHz à sa tension par défaut, il monte assez facilement en fréquence. La consommation, par contre, explose assez rapidement et à 4.6 GHz on double presque la consommation tirée de l'ATX12V ! C'est la température au final qui nous bloque puisque bien que stable à 4.7 GHz, dans cette configuration certains cores commencent à throttler selon ce que nous rapporte hwinfo64.

Nous en sommes restés là, bien que clairement limité par l'interface thermique, le potentiel est bien là contrairement à notre i7-6950X qui ne dépassait pas les 4.2 GHz.

Core i7-7740X

Que faut-il attendre d'un Kaby Lake, quand notre 7700K atteignait tout juste les 4.9 GHz ?

Petite surprise, la montée en fréquence se fait excessivement facilement puisqu'à 1.2V, on tourne à 4.9 GHz sans sourciller. On finira à 5.1 GHz en montant la tension à 1.3V, c'est encore raisonnable et si la température est élevée là aussi (particulièrement quand on considère notre système de refroidissement), le résultat est plutôt bon.

La lecture du VID est bloquée sur notre 7740X, elle était bien réglée à 1.3V dans le BIOS

On sera donc un peu frustré avec nos résultats sur l'overclocking, le potentiel de Skylake-X dans ce domaine semble plutôt bon même s'il faut relativiser la température avec la consommation hallucinante qui traversait ce pauvre CPU à 4.7 GHz ! Dans le cas de notre Kaby Lake-X on est plutôt agréablement surpris par la fréquence atteinte. Outre les questions de socket, nous pensons que cela illustre aussi les progrès des process 14nm d'Intel ces derniers mois ce qui est plutôt positif pour les futurs Coffee Lake à venir.

Page 9 - Consommation, efficacité énergétique

Comme toujours, nous mesurons la consommation et l'efficacité énergétique de nos plateformes. Nous avons légèrement changé notre protocole, remplaçant Fritz Chess Benchmark que nous utilisions pour calculer l'efficacité par x264. Cela nous permet en prime de vous proposer des mesures d'efficacité sur les processeurs à plus de 8 coeurs (Fritz Chess Benchmark étant limité à 16 threads).

Performances sous x264

Nous commençons par les mesures de performances sous x264, la mesure est effectuée sur un thread, et sur le nombre maximal de threads présents sur le processeur :

On remarquera rapidement la large performance multi coeurs du Core i9 !

Consommation

Regardons maintenant la consommation, nous la mesurons à la fois à la prise ainsi que sur l'ATX12V :

[ ATX12V (W) ] [ 230V (W) ]

Si l'on commence par regarder la consommation au repos, on peut voir que le Core i9 s'en tire un peu mieux que ses prédécesseurs en réduisant cette dernière. Une bonne chose. Globalement si l'on regarde la consommation du 7740X, on peut être surpris, elle est tout de même significativement inférieure à celle du 7700K qui consommait plus fortement. L'utilisation de tensions plus basses, et un process qui s'améliore doit être à créditer à ces gains.

On notera cependant qu'en charge le 7900X consomme nettement. L'utilisation des unités AVX sous x264 joue ici un rôle. Malgré tout, le 7900X reste dans son TDP annoncé ce qui est appréciable (le 1800X maltraite pour rappel inutilement la notion de TDP pour ne pas le respecter en pratique selon nos critères).

Efficacité énergétique

Nous croisons enfin les données de consommation sur l'ATX12V avec les chiffres de performances, pour obtenir l'efficacité :

Avec de fortes performances relevées et des consommations plus contenues sur un coeur, le 7900X progresse nettement face au Core i7-6950X. Cependant en charge pleine, son surplus de performances ne permet pas de compenser sa consommation en charge plus élevée avec un rendement légèrement inférieur que le 6950X. La prestation reste très bonne et il faudra voir si les modèles 8 et 6 coeurs peuvent s'approcher de l'efficacité excellente du Ryzen 7 1700.

Le 7740X se distinguera ici en étant le plus efficace sur un coeur !

Page 10 - Protocole de test

Pour ce test, nous utilisons la dernière version de notre protocole introduit plus tôt dans l'année.

Pour rappel, ce protocole inaugure plusieurs changements, à commencer par l'utilisation de Windows 10 dans sa version "Anniversary Edition". Afin de limiter la variabilité durant les tests, nous désactivons un maximum de tâches, services, et fonctionnalités qui peuvent se déclencher de manière intempestive. Nous vous renvoyons à l'article ci-dessus pour plus de détails. Notez en prime que pour garantir l'équité, nous désactivons le Core Parking pour les processeurs Ryzen, ce dernier étant actif par défaut sous Windows 10 alors qu'il est désactivé pour les processeurs Intel. Quelque chose qui est désormais corrigé par les pilotes AMD qui installent un profil de performances Windows différent.

Pour la partie processeur, les tests utilisés sont :

7-Zip 16.04
WinRAR 5.40
Visual Studio 2015 Update 3
MinGW 64/GCC 6.2.0
Adobe Lightroom 6.7
DxO Optics Pro 11.2
x264 r2744
x265 2.1 (18/12)
Stockfish 8
Komodo 10
Mental Ray (3ds Max 2017)
V-Ray 3.4

Tous les benchs applicatifs sont lancés deux fois, le système étant redémarré au milieu. Notre protocole est pour rappel automatisé. Nous prenons le meilleur score des deux runs, en pratique la marge d'erreur est très faible. Lightroom, ayant un peu plus de variabilité, est lancé quatre fois.

Et les jeux !

La seconde partie de notre protocole concerne les jeux et là aussi nous avons renouvelé notre sélection de titres.

Les jeux modernes ont beaucoup changé dans leur comportement. Si historiquement les jeux étaient souvent limités par les performances sur un coeur (et donc par la fréquence), de plus en plus de titres tirent parti du multithreading au point que la fréquence n'est plus forcément le facteur limitant. Nous verrons au cas par cas ce qui se passe dans ces jeux.

Un des critères pour l'inclusion dans notre protocole est que le processeur joue un rôle ! Il nous parait strictement inutile de vous montrer des benchmarks où tous les processeurs produisent, à la marge d'erreur près, le même nombre d'images par seconde tout simplement parce que la carte graphique est le facteur limitant. Il est très facile de vous montrer, par exemple en montant la résolution, que deux processeurs font "jeu égal". Cela ne nous parait pas une bonne méthode.

Nous avons donc cherché des jeux modernes où le processeur joue un rôle. Dans tous les cas nous utilisons une scène gourmande pour le processeur, et si possible reproductible (l'intelligence artificielle, tout comme certaines générations aléatoires peuvent ajouter une dose de variabilité dans certains titres).

Nous décrivons dans chaque cas l'endroit où nous effectuons nos mesures et si nous avons cherché des endroits dans les jeux où le processeur est le plus limitant, les scènes choisies restent représentatives de l'expérience réelle.

Côté sélection, nous avons donc retenu :

Project Cars
F1 2016
Civilization VI
Total War : Warhammer
Grand Theft Auto V
Watch Dogs 2
Battlefield 1
Witcher 3

Chaque test est effectué en tout 15 fois (trois fois 5 tests, avec un redémarrage au milieu). Nous vous indiquons la moyenne des 15 résultats.

Configurations de test

Pour être le moins limité possible par la carte graphique, nous avons opté pour une GeForce GTX 1080. Nous overclockons cette dernière légèrement (+100/+400 MHz) tout en utilisant un profil de ventilation très agressif pour limiter l'impact de la variabilité du Turbo Boost 3.0. Nous utilisons les pilotes GeForce 378.49 pour nos tests.

Nous utilisons côté plateformes :

AM4 : Asus Crosshair VI Hero
AM3+ : Asus Sabertooth 990FX R2.0
LGA 2066 : Asus X299-A
LGA 2011-v3 : Asus X99-Deluxe
LGA 1151 : Asus Z170-A
LGA 1150 : Asus Z97-A
LGA 1155 : Asus P8Z77-V Pro

Côté mémoire, nous utilisons 16 Go de RAM sous la forme de 4 barrettes. Selon ce que supportent les plateformes, il s'agit de :

DDR4-2400 15-15-15-35 1T
DDR3-1600 9-9-9-24 1T

Enfin, pour être complet, nous utilisons un bloc d'alimentation Seasonic Platinum 660 (80 Plus Platinum).

Passons enfin aux performances !

Page 11 - Compression : 7-Zip et WinRAR

Nous commençons notre tour des applications par les logiciels de compression de fichiers.

7-Zip 16.04

Nous compressons un répertoire d'Arma II (un peu plus de 3.5 Go) avec le logiciel de compression 7-Zip. Nous utilisons l'algorithme de compression le plus performant, à savoir le LZMA2 en mode maximal (9).

Nous avions noté que 7-Zip semblait, à fréquence égale, souffrir un peu plus que les autres applications. Le surplus de fréquence proposé par le Core i9-7900X ne compense pas tout ce déficit et il reste 10% d'écart à combler avec le Core i7-6950X. Face au Ryzen 7 1800X, qui aime encore moins ce test, le Core i9 garde un avantage conséquent, un temps de compression inférieur de 24.3%.

Pour le 7740X les choses sont plus simples, l'écart est d'un pourcent dans ce test face au 7700K.

WinRAR 5.40

Nous compressons toujours un répertoire d'Arma II, mais ce dernier est un peu plus gros (7.5 Go, il inclut des extensions). Nous jouons sur la quantité de fichiers pour obtenir des temps de benchmarks satisfaisants, il ne s'agit en aucun cas de comparer directement les deux logiciels (une comparaison de la taille des fichiers obtenus s'imposerait). Nous utilisons le mode de compression Ultra qui tire parti du multithreading.

La situation se répète sous WinRAR pour le 7900X, avec un déficit a combler plus large, 18.3% face au 10 coeurs de génération précédente d'Intel. L'honneur reste sauf face à Ryzen avec un temps de compression 28.8% inférieur.

Le 7740X est 1.5% plus rapide que son clone en LGA 1151.

Page 12 - Compilation : Visual Studio et MinGW-w64/GCC

Nous continuons avec les compilateurs C/C++.

Visual Studio 2015 Update 3

Nous compilons les bibliothèques C++ Boost avec le compilateur de Visual Studio 2015 Update 3 en édition Community.

Les choses vont beaucoup mieux dans ce test beaucoup plus arithmétique. Le temps de compilation est 14.3% inférieur avec le 7900X qu'avec le 6950X, bien aidé par le bond en fréquence. L'avantage reste conséquent face au Ryzen 7 1800X qui dispose à sa décharge de deux coeurs en moins, de moins de fréquence et d'un TDP inférieur !

Il serait dommage d'oublier de dire que le 7740X profite d'un temps de compilation 1.8% inférieur par rapport au 7700K !

MinGW 64/GCC 6.2.0

Nous compilons là aussi les bibliothèques C++ Boost avec la version 6.2.0 de GCC sous l'environnement MinGW 64.

Sous GCC, le temps de compilation est réduit de 14.6% par rapport au 6950X, un écart proche de celui noté plus tôt.

Avec 1.7% de différence de temps de compilation, le 7740X se révèle être un bon test pour vérifier la marge d'erreur de notre protocole de test !

Page 13 - Encodage vidéo : x264 et x265

Poursuivons maintenant avec les logiciels d'encodage vidéo.

x264 r2744

Nous encodons un extrait de Blu-Ray (1080p) d'une minute environ ayant un débit moyen de 23 Mbps. La version de x264 (64 bits) utilisée est compilée par komisar avec GCC 4.9.2.

Nous utilisons le preset slower sur un encodage mode CRF (facteur 20). Une version récente de FFmpeg officie comme serveur d'image.

Les options exactes utilisées sont :

--preset slower --tune grain --crf 20 --ssim --psnr

Les choses se passent très bien sous x264 avec un gain massif de 26.6% en nombre d'images par secondes compressées pour le 7900X face au 6950X. L'architecture Skylake aide ici, tout comme la fréquence importante.

Le 7740X voit un gain plus mesuré, on s'en doutait, seulement 2.1% face au 7700K.

x265 2.1 (18/12)

Nous encodons le même extrait de Blu-Ray avec une version de x265 (64 bits) cross-compilée avec MinGW .

Nous utilisons le preset slower sur un encodage en mode CRF (facteur 16) en activant des optimisations psychovisuelles.

Les options utilisées sont :

--crf 16 --preset slower --me hex --no-rect --no-amp --rd 4 --aq-mode 2 --aq-strength 0.5 --psy-rd 1.0 --psy-rdoq 0.1 --bframes 3 --min-keyint 1 --ipratio 1.1 --pbratio 1.1 --ssim --psnr

La situation reste très favorable sous x265 même si les gains sont un peu moins elevés, « seulement » 20.9% d'avantage pour le 7900X face au 6950X.

Avec 2.3% d'avance, le 7740X tente de se faire remarquer face au 7700K...

Page 14 - IA d'échecs : Stockfish et Komodo

Passons à cette particularité de notre protocole de test, les IA d'échecs !

Stockfish 8

Nous utilisons la dernière version en date du moteur d'échecs open source Stockfish, l'un des deux meilleurs moteurs du moment. Trois exécutables sont disponibles, une version basique 64 bits, une version SSE4 (popcnt) et une version BMI (Haswell et supérieurs). Nous lançons les trois versions à la suite et récupérons le meilleur score des trois.

Nous laissons tourner le moteur jusqu'au 31ème tour en début de partie, puis nous notons la vitesse, exprimée en Kilonoeuds par seconde

Le test est réalisé dans l'interface Arena en version 3.5.1.

Une fois de plus, ce test qui réussissait très bien aux Ryzen réussit fort bien à Skylake-X. Le 7900X augmente son nombre de coups évalués de 20.7%. Le 7740X s'offre 1.9% d'avance face au 7700K.

Komodo 10

L'autre moteur que nous testons est Komodo. Ce moteur commercial est passé devant Stockfish et Houdini dans les derniers classements. Contrairement à Stockfish, un seul exécutable est fourni. Nous utilisons là aussi l'interface Arena pour réaliser le test.

Nous laissons tourner le moteur jusqu'au 29ème tour en début de partie, puis nous notons la vitesse, exprimée en Kilonoeuds par seconde.

Les gains sont beaucoup plus mesurés sous Komodo, avec seulement 7% d'avance cette fois-ci pour le 7900X face au 6950X. Le 7740X tasse ses ambitions ne dominant le 7700K que de 0.3% !

Page 15 - Traitement photos : Lightroom et DxO Optics Pro

Passons maintenant aux traitements de photos RAW.

Lightroom 6.7

Nous utilisons la version 6.7 d'Adobe Lightroom. Nous désactivons l'accélération GPU et effectuons des traitements d'export avec notamment une correction d'objectif.

Le niveau de multithreading n'a pas beaucoup été amélioré par rapport à l'ancienne version que nous utilisions, nous continuons donc d'effectuer deux exports JPEG en parallèle de deux lots de 96 photos issues d'un Canon 5D Mark II.

Ce logiciel ne réussissait pas aux Ryzen, et il en va de même pour notre Skylake-X qui reste 23.7% plus lent que le modèle qu'il remplace. Le 7740X montre que nos marges d'erreurs dans ce logiciel sont malheureusement plus grandes qu'on le souhaiterait, se plaçant 0.9% derrière le 7700K.

DxO Optics Pro 11.2

Nous utilisons la version 11.2 du logiciel Optics Pro de DxO. Nous traitons cette fois-ci 48 photos RAW issues d'un 5D Mark II auquelles nous appliquons diverses retouches (compensation d'exposition, réduction du bruit, corrections optiques, etc).

Nous réglons le nombre de photos à traiter en parallèle sur le nombre de coeurs physiques présents sur le processeur (le maximum autorisé par le logiciel).

DxO est beaucoup plus favorable au 7900X qui réduit le temps de traitement de 7.2% par rapport au 6950X. Le 7740X se venge, probablement vexé du test précédent avec 2.3% de mieux que le 7700K ! On ne lui en voudra pas.

Page 16 - Rendu 3D : Mental Ray et V-Ray

Enfin, pour terminer notre tour applicatif, regardons les performances dans les moteurs de rendu 3D.

Mental Ray

Nous lançons le rendu d'une scène préparée par Evermotion. Nous utilisons la version de Mental Ray incluse dans 3ds Max 2017, le rendu est effectué en 480 par 300 afin de conserver un temps de test convenable.

Nous n'allons pas vous redire que ce test réussissait fortement aux Ryzen. Remarquez, c'est trop tard, vous ne serez donc pas surpris de voir l'excellente performance du 7900X, réduisant de 24.6% le temps de calcul face au 6950X. Le 7740X reste dans son allure habituelle, -1,9% par rapport au 7700K.

V-Ray 3.4

Nous utilisons le moteur de rendu alternatif V-Ray, toujours sous 3ds Max 2017 pour rendre une version adaptée de notre scène. Le rendu est effectué cette fois-ci en 1200 par 750.

V-Ray profite un peu moins, même si le 7900K réduit le temps de calcul de 16.7% dans ce test face au Broadwell-E 10 coeurs. Le 7740X termine notre protocole applicatif avec 1.8% de marge sur le 7700K dans ce test !

Allons voir maintenant si la situation dans les jeux, particulière à 3 GHz, se retrouve compensée avec l'avantage de fréquence apporté par Skylake-X…

Page 17 - Jeux 3D : Project Cars et F1 2016

Nous continuons avec les jeux, en regardant d'abord les performances dans deux simulations de course automobile. Tous nos tests sont réalisés en 1080p. Comme indiqué précédemment, nous avons choisi des jeux, des réglages graphiques ainsi que des scènes qui soient à la fois représentatives de l'expérience de jeu, et où le processeur peut faire la différence. Vous présenter des benchs dans des situations où seul le GPU fait la différence, et donc où tous les processeurs auraient le même score, n'aurait strictement aucun intérêt.

Project Cars

Nous regardons les performances sous l'excellent Project Cars, dans sa version 64 bits. Nous mesurons les performances sur 20 secondes lors d'un départ sur le circuit "California Highway Etape 1" dans une course de GT3. Le jeu est réglé en mode Ultra avec l'anti-aliasing désactivé.

Les choses ne commencent pas particulièrement bien dans ce titre avec un déficit de performances de 15.1% face au 6950X pour le 7900X. Plutôt préoccupant puisque l'on se retrouve entre un 3930K et un 3970X... pour ne pas dire derrière un Ryzen 7 1800X.

Le 7740X est 0.8% devant le 7700K, il est en tête sous ce bench.

F1 2016

La dernière version en date du jeu de F1 de Codemasters utilise un nouveau moteur plus moderne et mieux threadé.

Nous mesurons les performances via le benchmark intégré sur le circuit de Melbourne, sous la pluie. Le jeu est réglé en mode Ultra et nous baissons d'un cran les réflexions, baissons au maximum le post processing, le flou et désactivons l'occlusion. Ces options impactent toutes la charge GPU : en les désactivant on se retrouve moins limité par la carte graphique. Notez qu'il serait possible d'être encore moins limité en baissant d'autres options, cependant contrairement à celles que nous avons retenues, elles ont un impact parfois très important sur la charge CPU. Notre réglage tente d'être le plus proche d'une utilisation réelle, pour la question de l'utilisation processeur.

Sous F1 2016, le déficit accusé par le 7900X se réduit, il n'est que 5.3% plus lent que le 6950X et distance de 15% le Ryzen 7 qui pâtit, on le rappellera, d'une non détection de son SMT par ce jeu. Le 7740X fait peu ou prou le même résultat que le 7700K.

Page 18 - Jeux 3D : Civilization VI et Total War : Warhammer

Nous enchaînons avec deux jeux de stratégie.

Civilization VI

La version VI de Civilization apporte là aussi un nouveau moteur qui a la particularité d'être compatible DirectX 12. Nous utilisons ce mode, le jeu est réglé en Ultra avec l'anti-aliasing désactivé. Nous utilisons le benchmark graphique intégré. Il est à noter qu'un benchmark de l'intelligence artificielle est également présent. Malheureusement, celui-ci montre que cette dernière n'est que peu ou pas threadée, ne réagissant qu'à la fréquence ! Dommage pour les joueurs !

La situation est préoccupante sous Civilization VI qui historiquement ne réussissait pas trop aux Skylake. Sur cette plateforme Skylake-X les choses sont sensiblement identiques et cette fois ci le retard accusé par le 7900X face au 6950X. Le 7740X fait 2.2% de mieux que le 7700K, un score honorable mais qui ne lui permet pas de prendre la tête de ce graphique.

Il est curieux que l'architecture Skylake, indépendamment qu'elle soit sous la forme X ou non, ou du socket utilisé, ait des performances en retrait face aux plateformes précédentes. A défaut de nous l'expliquer, nous constatons que cette particularité reste aujourd'hui avec les deux nouveaux processeurs ajoutés à notre protocole. Prenons un instant pour noter qu'un Ryzen 7 1700 fait mieux que le 7900X dans ce test.

Total War : Warhammer

Ce nouvel opus dans la série des Total War a droit lui aussi à une nouvelle version du moteur graphique de The Creative Assembly. Un mode DirectX 12 est présent, mais il est malheureusement significativement moins performant sur notre GeForce GTX 1080 de test. Nous utilisons donc le mode DirectX 11. Nous mesurons les performances sur la première scène de campagne du jeu. Un benchmark est également intégré au jeu, et s'il semble gourmand à l'oeil, en pratique il ne l'est pas du tout pour le processeur.

Dans Total War, la situation reste compliquée pour le 7900X, 16.7% derrière le 6950X. Le 7740X reste 1.3% devant le 7700K et domine ce test. Et une fois de plus, le Ryzen 7 1700 est devant le 7900X…

Page 19 - Jeux 3D : GTA V et Watch Dogs 2

Poursuivons maintenant avec deux titres en mode ouvert particulièrement gourmands.

Grand Theft Auto V

Pour la cinquième itération de son jeu phare, Rockstar a proposé un portage PC beaucoup plus intéressant que pour la quatrième version. Le moteur profite en prime bien du multithreading. Nous utilisons le benchmark intégré au jeu, en choisissant la pass 4 proposée (la scène la plus gourmande et la plus représentative pour le processeur). Le jeu est réglé en Ultra sans anti-aliasing.

La situation semble se répéter une fois de plus sous GTA V avec un déficit d'images par secondes de 22.6% pour le 7900X face au 6950X. De quoi placer ce nouveau venu derrière les trois Ryzen 7, une fois de plus. Le 7740X profite de 1.7% d'avance face au 7700K, dominant une fois de plus la largeur de ce graphique.

Watch Dogs 2

Le titre d'Ubisoft dispose lui aussi d'un moteur particulièrement bien threadé. Nous mesurons les performances sur un déplacement dans une zone particulièrement dense et gourmande de la ville. Le jeu est réglé en mode Ultra, nous désactivons le SSAO.

L'écart est moins prononcé sous Watch Dogs 2, le 7900X n'étant que 11.7% derrière le 6950, et devant les Ryzen 7 pour sauver l'honneur. Le 7740X est 0.3% devant le 7700K.

Page 20 - Jeux 3D : Battlefield 1 et The Witcher 3

Passons aux deux derniers titres de notre comparatif :

Battlefield 1

Ce dernier opus dans la série des Battlefield utilise le moteur Frostbite 3 de Dice. Si ce moteur dispose d'un mode DX12, là encore il est moins performant sur notre GeForce GTX 1080, nous testons donc en DX11. Malgré tout, le Frostbite 3 est très multithreadé. Nous mesurons les performances sur un déplacement prédéfini dans une zone particulièrement gourmande. Le jeu est réglé en mode Ultra, nous réglons le FOV au maximum (105°). Pour éviter la limite GPU, nous désactivons le HBAO et réglons l'éclairage sur élevé, et nous passons le post-traitement en mode normal.

-14% d'images par seconde pour le 7900X par rapport au 6950X, un score qui le place entre un Ryzen 7 1700 et un Ryzen 7 1700X… Le 7700K et le 7740K font jeu égal.

The Witcher 3

Nous terminons sur le très populaire The Witcher 3 de CD Projekt RED. Nous mesurons les performances sur un déplacement prédéfini en entrant dans une partie gourmande de la ville de Novigrad.

Le déficit est cette fois ci plus léger sous Witcher 3, seulement 7.5% par rapport au 6950X pour le Core i9. Le 7740X termine dans la marge d'erreur.

Page 21 - Indices de performance

Voyons maintenant ce que tout cela donne lorsque nous calculons nos indices. Nous utilisons le Core i5 2500K comme indice 100, même si pour plus de lisibilité nous ne l'affichons pas dans ce graphique. Vous pouvez le retrouver dans nos articles précédents en cas de nostalgie.

Moyenne applicative

La moyenne applicative est plutôt en faveur du 7900X. Le tout frais Core i9 propose en moyenne 11.4% de performances en plus que son prédécesseur, le 6950X en Broadwell-E. De quoi creuser également l'écart avec le 1800X de 33%, même si on vous l'a déjà dit, le combat ne se fait pas vraiment à armes égales. Tout au plus au moment où nous écrivons ces lignes, il s'agit des deux processeurs desktop les plus haut de gamme proposés par AMD et Intel (une situation qui changera avec le lancement de ThreadRipper chez AMD, mais aussi des modèles 12 à 18 coeurs de Skylake-X chez Intel).

Le 7740X est totalement prévisible dans ce test avec seulement 1.6% d'avance face au 7700K. Aucune surprise de ce côté !

Moyenne en jeux 3D

Si vous n'avez pas zappé les pages précédentes, vous ne serez pas surpris de voir le Core i9 ainsi malmené. Avec en moyenne 14.6% de déficit par rapport à Broadwell-E, la chute est rude pour le nouveau venu qui vient s'intercaler… entre les Ryzen 7 1700X et 1700. Et si l'on oublie la concurrence, le 7900X obtient la même moyenne que le 3970X…

Le 7740X en Kaby Lake-X dispose d'un avantage en moyenne assez léger par rapport au 7700K, 0.8%. Ces deux processeurs continuent de dominer assez nettement les performances dans les jeux, ce qui montre une fois de plus que malgré nos efforts pour trouver des jeux modernes multithreadés, la fréquence reste encore reine en 2017.

Page 22 - Un air de déjà vu...

Habituellement les lancements des plateformes Intel haut de gamme sont sans grande surprise, reprenant les architectures précédemment introduites sur le grand public en en amplifiant les bénéfices via le nombre de coeurs, canaux mémoires, lignes PCIe ou encore la taille des caches. Il n'y a ainsi pas grand-chose à critiquer sur le plan purement technique, au contraire du marketing qui se faisait plaisir tant que le tarif que sur la segmentation à outrance. Cette fois, il n'en est rien.

Car alors que l'on s'attendait à ce que Skylake-X suive la recette assez classique utilisée par Intel ces dernières années pour sa plateforme desktop haut de gamme, le constructeur a décidé d'effectuer de gros changements. Un L2 plus gros, le passage à un cache L3 de type victime, et l'arrivée d'un nouveau type d'interconnexion (de type mesh) avaient attirés notre curiosité.

En pratique, la latence des caches, en hausse, et la bande passante en baisse par rapport à la génération précédente nous rendent quelque peu perplexes sur les choix effectués par le constructeur. Et les résultats pratiques obtenus dans les jeux nous déboussolent.

Le constructeur devra se poser des questions sur ce nouveau choix d'interconnexion et savoir s'il était, oui ou non, le choix le plus adapté pour une plateforme desktop mise en avant auprès des joueurs, en tout cas dans son implémentation actuelle qui semble clairement être limitante.

Et c'est peut être ici qu'Intel touche les limites de sa stratégie qui vise à utiliser les mêmes dies pour sa gamme Xeon et pour sa gamme desktop haut de gamme. Les choix effectués pour l'un, dans le but de monter toujours plus le nombre de coeurs, se ressentent aujourd'hui nettement sur l'autre.

Et très franchement, il nous est difficile de ne pas faire un parallèle avec la situation du lancement de Ryzen. Il y a bien entendu un certain nombre de choix techniques proches qui n'ont pas manqué de nous interpeler : L2 plus large, L3 type victime, un nouveau type d'interconnexion et des latences en hausse. Des causes similaires qui produisent des effets proches : une grande partie des tests qui ne réussissaient pas à Ryzen ne réussissent pas non plus particulièrement aux nouveaux Skylake-X.

Mais c'est aussi les raisons derrière ces choix qui sont communes. Dans le cas d'AMD, c'est avant tout une question de moyens limités qui a poussé le constructeur à développer un die unique, pour le décliner à toutes les sauces, de discutables « portables » à une gamme desktop large, jusque des versions serveurs 32 coeurs en utilisant 4 dies sur un même package ! Un choix de nécessité qui a imposé des concessions et avec elles, des conséquences.

Voir Intel, dont les moyens sont « différents », se retrouver par ses choix effectués souffrir de conséquences similaires pour une partie importante des usages visés par sa plateforme - les jeux - est plus compliqué à justifier. Particulièrement quand ces processeurs doivent faire suite à un Broadwell-E très à l'aise sur le sujet, et accompagner l'actuelle plateforme LGA 1151 qui brille amplement sur ce terrain… et bénéficiera prochainement d'un passage à 6 coeurs.

Si l'on tente de faire fi de ces choses, le Core i9-7900X propose tout de même un bond en avant de 11.4% sur le plan applicatif en moyenne par rapport à son prédécesseur, ce qui reste une excellente performance. Le fait qu'il soit significativement plus abordable avec un prix public qui redevient plus « raisonnable » (il faut toujours compter un peu plus de 1100 euros… contre 1800 euros précédemment !) compenserait presque le déficit noté dans les jeux. Ou le surplus de consommation - net- noté par rapport à son prédécesseur.

Mais la grille de lecture a aujourd'hui changée pour Intel qui doit de nouveau accepter la comparaison face à son concurrent. Et l'arrivée des Ryzen 7 1800X complexifie quelque peu la situation pour la nouvelle gamme du constructeur. Alors certes, l'écart applicatif reste net pour ce modèle 10 coeurs face au plus gros Ryzen disponible aujourd'hui, mais ce dernier fait légèrement mieux en moyenne dans les jeux pour la moitié du prix, quelque chose qui ne rendra pas forcément la comparaison très favorable pour les déclinaisons 8 et 6 coeurs de l'architecture Skylake-X que nous n'avons pas encore testées. Sur le pur plan applicatif, il faudra attendre l'arrivée de ThreadRipper pour pouvoir faire une comparaison à prix ou caractéristiques équivalentes.

A gauche le Core i7-7740X, à droite le Core i9-7900X

On terminera au final par le cas du Kaby Lake-X dont, pour être honnêtes, nous n'attendions pas grand-chose. Il faut dire que ses caractéristiques ne semblaient pas révolutionner le genre. En réutilisant le die des Kaby Lake classiques dans un socket différent, le tout avec un écart de fréquence assez léger, on s'attendait à une prestation proche. C'est ce que l'on a eu en applicatif et aussi en jeux. Ce léger avantage permet au 7740X d'être, bon gré mal gré, le meilleur processeur d'Intel aujourd'hui dans les jeux dans notre protocole.

Côté prix, le 7740X est sensiblement équivalent au 7700K, mais le cout de la plateforme est tout autre avec des cartes mères à plus de 250 euros alors qu'on ne profitera pas d'une partie de leurs fonctionnalités avec un Kaby Lake-X. Difficile donc de justifier cette différence par rapport au LGA 1151 qui dispose d'options nettement plus abordables pour y accueillir un 7700K, ce qui rend l'acquisition d'un Kaby Lake-X peu justifiable.

Bousculé par AMD avec le lancement de Ryzen, mais aussi celui à venir de ThreadRipper qui est à l'origine des versions 14 à 18 coeurs de Skylake-X, la réponse apportée par Intel n'est donc pas pleinement convaincante et il semble urgent d'attendre, pour qui voudrait un tel niveau de performance applicatif, de voir ce que vaudra le nouveau venu d'AMD. Et en ce qui concerne plus spécifiquement les performances en jeu, les regards se porteront désormais vers Coffee Lake et ses 6 coeurs en LGA 1151.