HardWare.fr


DDR3, influence des canaux & timings
DiversMémoires
Publié le Mercredi 12 Janvier 2011 par Guillaume Louel

URL: /articles/814-1/ddr3-influence-canaux-timings.html


Page 1 - Introduction



Mise à jour le 12/01/2011 : Nous avons rajouté la plateforme Sandy Bridge à notre dossier, via les processeurs Core i7 2600K et Core i5 2500K testés sur une carte mère Asus P8P67.



Depuis l’arrivée de la DDR3, la question de l’impact de la mémoire sur les performances globales des machines semble s’être placée un peu en retrait. Quand la latence focalisait toutes les discutions autour de la DDR2, le passage à la DDR3 a réorienté le débat.

En partie à cause des orientations prises par le JEDEC pour l’élaboration du standard de la DDR3. Deux objectifs ressortaient, réduire la consommation et augmenter significativement la bande passante.

Entre temps les contrôleurs mémoires se sont adaptés à ces changements, le plus important étant l’intégration du contrôleur mémoire directement au sein du processeur (historiquement il était placé dans le northbridge), une voie entamée par AMD en 2003 avec ses Athlon 64 (à l’époque, mémoire DDR première du nom) et qu’aura adoptée Intel avec l’introduction de ses Core i (en socket 1366 et 1156). Les processeurs ont également vu augmenter la taille de leur mémoire cache et la généralisation des caches de niveau 3, dans le but toujours de mieux cacher la latence. L’influence s’est sentie jusque dans les pipelines puisque préempter au plus tôt les opérations mémoires est devenu une contrainte obligée pour les ingénieurs derrière les architectures.


Avec toutes ces tentatives de mitigation du rôle de la latence dans la mémoire, faut-il pour autant dire que seule la bande passante compte aujourd’hui ? Après tout, le troisième canal mémoire des Core i7 est souvent décrit comme n’apportant que peu d’améliorations sur les performances.

Nous allons donc essayer de faire le point sur toutes ces questions, afin d’y voir plus clair sur la mémoire et ce sur les plateformes du moment, socket AM3 chez AMD et sockets 1155 (Sandy Bridge), 1156 (Lynnfield/Clarkdale) et 1366 (Nehalem) chez Intel.


Page 2 - Les plateformes, le test

Les plateformes
Pour réaliser notre dossier, nous avons utilisé les quatre plateformes du moment à savoir le socket AM3/890 chez AMD, et les sockets 1155/P67, 1156/P55 et 1366/X58 chez Intel. Si toutes intègrent le contrôleur mémoire directement dans le processeur, elles ont chacune leurs particularités. Par exemple, depuis le Phenom, AMD intègre un mode d’accès mémoire baptisée Unganged qui permet au contrôleur d’effectuer deux opérations 64 bits en simultanée (y compris une lecture et une écriture), ce mode adapté par défaut par tous est celui que nous avons utilisé.

De son côté le contrôleur mémoire des processeurs socket 1366 sont les premiers à intégrer un troisième canal mémoire. Il permet également un fonctionnement asymétrique permettant de d'utiliser 4 (ou 5 barrettes mémoires). Avec 4 barrettes de 2 Go par exemple, deux espaces mémoires physiques distincts sont définis, un espace de 6 Go accessible en triple canal tandis que le second espace de 2 Go, qui correspond à la barrette isolée, sera accédé de facto en alternance en simple canal. La possibilité n'est pas unique, mais Intel dit avoir travaillé pour maximiser les performances dans ce mode.

Bien qu’il soit le plus récent, le contrôleur mémoire intégré aux processeurs socket 1156 (Lynnfield) est le plus simple, il s’agit d’un contrôleur double canal sans plus de particularités. On notera tout de même qu’Intel opère une segmentation dans ses modèles. Ainsi s’il est possible d’utiliser de la DDR3 1600 avec un Core i7, ce n’est pas possible avec un Core i5 qui ne dispose pas des coefficients multiplicateurs nécessaires pour dépasser la DDR3-1333 sans changer la fréquence du bus système (BCLK).

Avec Sandy Bridge et le socket 1155 lancé début janvier 2011, Intel a quelque peu changé les règles en matière d’overclocking. Avec une fréquence BCLK complexe à faire bouger de plus de 7 MHz en pratique, Intel a décidé de libérer le coefficient multiplicateur de la mémoire en compensation. On peut ainsi utiliser de la mémoire pouvant atteindre jusque 2400 MHz, pour peu que l’on utilise une carte mère P67.

Le test
Pour réaliser nos tests, nous avons utilisé les plateformes suivantes. Pour chaque plateforme, nous avons utilisé deux processeurs disposant d’un nombre de cœurs différents, qu’il s’agisse d’une différence physique (4 et 6 cœurs physiques pour l’AM3 et le LGA1366) ou virtuelle (absence de l’HyperThreading dans les Core i5 750 et core i5 2500K).

- Asus Rampage II Gene (LGA1366)
- Intel Core i7 975X (4C/8T, 3.33 GHz) et Core i7 980X (6C/12T, 3.33 GHz)
- Gigabyte 890GPA-UD3H (AM3)
- AMD Phenom II X4 965 (4C/4T, 3.4 GHz) et Phenom II X6 1090T (6C/6T, 3.2 GHz)
- Asus P7P55D Deluxe (LGA1156)
- Intel Core i5 750 (4C/4T, 2.66 GHz) et Core i7 860 (4C/8T, 2.8 GHz)
- Asus P8P67 (LGA1155)
- Intel Core i5 2500K (4C/4T, 3.3 GHz) et Core i7 2600K (4C/8T, 3.4 GHz)
- GeForce GTX 480, Forceware 260.99 WHQL
- Samsung HD 501LJ 500 Go + Western Digital Raptor 300 Go
- Windows 7 64 bits

Plusieurs kits memoires (G.Skill et Corsair) nous aurons servis, nous remercions le magasin Nicolas et Fils  pour leurs prêts. Côté logiciels nous avons utilisé plusieurs tests théoriques proposés par les logiciels Aida64 et RightMark Memory Tester, ainsi que des tests applicatifs via 7-Zip (dont nous avions déjà relevé la capacité à utiliser un troisième canal mémoire), Avidemux et x264 pour l’encodage vidéo, ainsi que GTA IV pour représenter la partie jeu.



Page 3 - Influence du nombre de canaux



Nous avons commencé par regarder l’impact du nombre de canaux mémoires sur les performances, une question particulièrement intéressante quand l’on discute des Core i7 et de leur contrôleur triple canal.

Latence
Nous avons commencé par vérifier l’impact du nombre de canaux sur la latence et la bande passante mémoire, nous utilisons de la DDR3-1333 9-9-9-24 pour tous ces tests. Nous avons utilisé Aida64 (anciennement Everest) pour mesurer les valeurs de latences.



Passer d’un à deux canaux aura un impact négligeable chez Intel, et nul chez AMD grâce au mode Unganged. Le mode triple canal augmente de son côté la latence de manière significative, presque 10ns sur chacun de nos processeurs. Le score lorsque l’on utilise quatre barrettes (ce que nous appelons entre guillemets Quad) sur les processeurs LGA1366 est relativement bas, un artefact des deux espaces mémoires distincts. On notera tout de même une légère optimisation de la plateforme Sandy Bridge puisque la latence en mode double canal est ici légèrement inférieure à celle en mode simple canal contrairement aux plateformes précédentes.

Bande passante
Passons à la bande passante mémoire en lecture, relevée là encore via Aida64 :



Plusieurs points à remarquer, d’abord, l’écart assez significatif que l’on trouve sur la plateforme LGA 1366 d’Intel. Malgré une fréquence égale et plus de cœurs, la partie uncore du Core i7 980X fonctionne plus lentement, 2.0 GHz au lieu de 2.66 GHz sur les Gulftown en 32 nanomètres. Le socket 1155 arrive à tirer 1 Go/seconde supplémentaire de bande passante par rapport au socket 1156, de quoi expliquer les aptitudes des processeurs Sandy Bridge dans les tests limités par la mémoire. Chez AMD, les performances sont excessivement basses.

Le test d’Aida n’utilise qu’un seul thread pour réaliser ses lectures mémoires. Nous avons donc réalisés les mêmes mesures de bande passante sous RightMark qui utilise un thread logiciel par cœur/thread hardware (jusque 8) :



La situation s’améliore un peu pour l’offre d’AMD mais elle reste la moins efficace en double canal. Les écarts se creusent cette fois ci beaucoup plus significativement entre le 975X et le 980X. De manière intéressante, la hiérarchie donnée par RMMT avec un seul thread reste identique à celle obtenue avec Aida64. A nombre de canal égal, les Sandy Bridge arrivent à détrôner le 975X qui régnait jusqu’ici sur ce test.

7-Zip
Nous utilisons le mode de compression LZMA2 de 7-Zip, multithreadé et très gourmand. La taille du dictionnaire est réglée à 32 Mo et l’on utilise un thread logiciel par cœur/thread matériel du processeur. Avec 12 threads, on atteint donc 3.53 Go nécessaires. Nous utilisons une barrette de 4 Go de mémoire en mode simple canal pour éviter tout problème de swap disque.



Les cœurs supplémentaires aident particulièrement du côté du Phenom, indépendamment du nombre de canaux. Sur les Core i7 1366 la différence est négligeable en simple canal. Le passage de 8 à 12 threads ne changeant rien, la bande passante étant déjà saturée par les 8 premiers threads. Passer de 2 à 3 canaux apporte un gain de performances de 7.3% sur notre quad core haut de gamme, tandis que le six cœur voit ici un gain de 12.3%, malgré une bande passante théorique maximale moindre. Sur LGA 1156, le gain lié au second canal est assez limité sur l'i5-750 avec 3,7%, contre 11,2% avec l'i7-860 qui supporte l'HyperThreading. Le gain est limité de la même manière sur LGA 1155, mais l’on notera que, de part la meilleure gestion de la bande passante mémoire, les performances relatives des nouveaux Sandy Bridge brillent ici.

Avidemux/x264
Nous utilisons Avidemux pour compresser en H.264 un fichier source MPEG-2 type transport stream 720p, via le codec x264.



Avec un écart mince ou inexistant entre un et deux canaux, les résultats sont par la suite figés. Le nombre de canaux mémoire n’est pas le facteur limitant ici pour le couple Avidemux/x264.

Grand Theft Auto IV
Il s’agit ici du nombre d’images par seconde recueillis sur une scène gourmande sur l’autoroute, avec une résolution de 1280 par 1024. Le patch 1.0.7.0 est appliqué.



Le passage du double au triple canal apporte un très léger gain sur nos deux processeurs qui en sont capables, mais le gros des performances reste lié au passage d’un à deux canaux.


Page 4 - Latence, bande passante



Passons maintenant à l’influence de la fréquence et des timings mémoire sur les performances. Pour chaque plateforme, nous vérifierons les performances avec de la DDR3 cadencée à 800, 1066, 1333 et 1600 MHz ainsi que des timings de 7-7-7-19, 8-8-8-20 et 9-9-9-24 lorsque ceux-ci sont supportés. Nous avons également ajouté, pour la plateforme Sandy Bridge, les tests à 1866 et 2133 MHz, avec les timings 9-9-9-24 et 8-8-8-20 (uniquement à 1866 MHz).

Latence
Commençons par la latence, mesurée comme auparavant via Aida64.



A titre de détail, il est intéressant de noter que le ralentissement du contrôleur mémoire des Gulftown se sent surtout avec de la mémoire DDR3-1333 et 1600 ou les écarts sont les plus élevés en faveur du Core i7 975X.

Il est surtout important de remarquer que contrairement à ce qui pouvait se passer avec de la DDR et DDR2, la fréquence prime toujours sur les timings et ce sur toutes les plateformes. Il n’y a guère qu’entre de la mémoire DDR3-1333 9-9-9-24 et de la DDR3-1066 7-7-7-19 que la règle s’inverse, et ce uniquement sur les plateformes Core i7 en LGA1366. Notez que l’on passe sous les 40 nanosecondes sur la plateforme Sandy Bridge à 2133 MHz.

Bande passante (monothreadée)
Continuons avec la mesure de bande passante monothreadée relevée par Aida64.



En termes de bande passante, c’est logique, c’est bel et bien la fréquence qui prime sur les timings, mais peut être pas autant que l’on aurait pu le croire. Ici tous nos processeurs sont limités par l’utilisation d’un seul et unique thread ce qui fait ressortir le rôle des timings sur la bande passante. Les processeurs en socket 1155 sont de loin les plus efficaces, même à haute fréquence où le contrôleur mémoire intégré ne flanche pas. Le 980X déçoit tandis que les Phenom II confirment ce que nous avions vu en regardant l’influence des canaux mémoires.

Bande passante (multithreadée)
Passons à la mesure théorique de bande passante multithreadée via RMMT.



A fréquence égale, le Core i7 975X domine le reste du plateau. Par rapport au Core i7 860, le Core i7 2600K apporte tout de même un bond en avant de 11%. Notons que la mémoire DDR3 1600 n’apporte rien en termes de bande passante au Phenom II X4 965. Si le Phenom II X6 1090T et son nouveau die s’en tirent légèrement mieux, le gain de performances est excessivement modeste. Le tassement de la bande passante se ressent déjà sur les plateformes AMD entre la DDR3-1066 et la DDR3-1333. Espérons que Bulldozer corrigera le tir de ce côté.


Page 5 - 7-Zip, Avidemux, GTA IV



Terminons par nos tests applicatifs, ou nous observons l’influence de la fréquence et des timings sur les performances.

7-Zip


Le test de compression de 7-Zip confirme l’importance de la bande passante sur les timings, même si ces derniers ne sont pas sans jouer de rôle. La manière assez maigre dont le Phenom II X4 965 arrive à exploiter la mémoire DDR3-1600 confirme les tests théoriques. L’impact de la mémoire est extrêmement élevé dans les performances puisqu’entre la plus lente et la plus rapide des mémoires, on réduit d’un quart le temps nécessaire à la compression. Les gains apportés par la fréquence supplémentaire sur les processeurs LGA 1155 sont cependant infinitésimaux.

Avidemux/x264


Toutes les compressions, si avancées soient elles, ne sont pas forcément limitées par la mémoire. Avidemux et x264 nous le démontrent ici. La latence qui baisse au fur et à mesure que l’on augmente les timings et la fréquence permet de réduire les temps de compression, mais de manière mesurée, 5% tout au plus. La fréquence prime une fois de plus sur les timings mémoires. De la même manière, les LGA 1155 ne sont pas capables de tirer partie efficacement de la mémoire à 1866 ou 2133 MHz dans ce test.

Grand Theft Auto IV


Avec des écarts qui vont jusque 20% de bout en bout, GTA IV profite assez bien de mémoire rapide. L’augmentation de la fréquence prime sur les timings une fois de plus. C’est dans ce test que l’on observera la meilleure utilisation de la bande passante mémoire supplémentaire offerte, que ce soit par le triple canal des Core i7 1366, ou par la mémoire cadencée plus rapidement des LGA 1155.


Page 6 - Conclusion



Quelques conclusions s’imposent à la fermeture de notre dossier. La première est que si l’on pouvait débattre entre privilégier fréquence ou timings à l’époque de la DDR2, aujourd’hui la question est réglée : la fréquence prime sur le reste dans quasiment tous les cas. Si vous avez le choix entre une mémoire DDR3-1333 en CAS9 ou une mémoire DDR3-1066 en CAS7, il n’y a pas de débats, la DDR3-1333 l’emporte. Seule exception à la règle, la DDR3-1600 CAS9 est moins véloce en pratique que la DDR3-1333 CAS7 sur AM3.

Est-ce à dire que la latence n’a plus d’importance aujourd’hui ? Pas vraiment, elle continue à jouer un rôle majeur dans nombre de tests. Augmenter la fréquence a cependant un impact plus élevé sur les latences qu’un saut de un ou deux timings vers le bas, tout simplement. Cumulé à l’avantage procuré par la bande passante supplémentaire, le choix est facile.


Du côté des prestations théoriques, on retiendra les efforts fait par Intel successivement sur ses offres en LGA1156 puis en LGA1155. Ces contrôleurs mémoires intégrés sont particulièrement véloces et la levée de la restriction du multiplicateur mémoire sur les processeurs Sandy Bridge est toujours bonne à prendre. Si cela permet d’atteindre des sommets dans les tests théoriques, en pratique, l’avantage procuré par de la mémoire très haut de gamme est relativement infime, sauf dans le cas du très particulier GTA IV. De quoi relativiser le surcout imposé par ces solutions qui nécessitent en prime généralement un refroidissement dédié.

En ce qui concerne la plateforme haut de gamme d’Intel, le LGA1366, nous pouvons confirmer plusieurs points. D’abord le passage au triple canal provoque une augmentation significative de la latence, ce qui limite dans nombres de cas les gains que pourrait procurer le troisième canal mémoire dont l’intérêt est pour le moins mesuré. Ensuite le contrôleur mémoire ralenti du 980X peut remercier ses deux cœurs supplémentaires qui lui permettent de garder la tête face au modèle quatre cœurs. Il sera intéressant de voir, au troisième trimestre 2011, ce qu’apportera en la matière le successeur du LGA1366, le LGA2011. Un quatrième canal mémoire est prévu, ce qui devrait en premier lieu permettre d’améliorer facilement la densité mémoire des plateformes serveurs. L’impact sur les performances sera cependant intéressant à noter.

Terminons par l’offre d’AMD qui montre son âge. Le contrôleur mémoire intégré aux Phenom II peine à tirer partie pleinement de la mémoire DDR3-1333 et 1600, avec une utilisation de la bande passante qui plafonne beaucoup trop rapidement. Les performances dans le test monothreadé montrent également les limites d’une architecture dont l’on attend avec impatience la succession, prévue au second trimestre avec Bulldozer.


Copyright © 1997-2025 HardWare.fr. Tous droits réservés.