16 cœurs en action : Asus Z9PE-D8 WS et Intel Xeon E5-2687W

Tags : ASUS; Intel; LGA 2011; Xeon;
Publié le 09/05/2012 par
Imprimer
Configuration

Nous avons mesuré les performances de cette plateforme avec trois configurations processeurs différentes :
  • 2x Xeon E5-2687W
  • 1x Xeon E5-2687W
  • 1x Core i7 3960X


Pour le reste notre configuration était équipée comme suit :
  • Carte mère Asus Z9PE-D8 WS
  • 8 x 4 Go DDR3 1600 9-9-9
  • SSD Corsair F120 (système)
  • SSD OCZ Vertex 3 MaxIOPS (benchs)
  • Radeon HD 6670
  • Alimentation Corsair TX 850
  • Windows 7 64 bit SP1

Dans le cas d'un test mono socket, la quantité de RAM est divisée par deux bien entendu, ce qui n'aura aucun impact en pratique pour nos benchs. En ce qui concerne le système d'exploitation il est important de noter que Windows 7 supporte les plateformes jusqu'à deux sockets. Au-delà, l'utilisation de la déclinaison serveur (Windows 2008 R2) est indispensable. En pratique le noyau de Windows 7 supporte nativement la gestion de NUMA, 2008 R2 n'apportera rien du côté des performances processeurs à ce type de plateforme.

Consommation

Nous avons mesuré la consommation à la prise dans trois scénarios : au repos, en charge sous Cinebench, en charge sous Prime95.


La consommation au repos de notre Xeon E5 seul est équivalente à celle du Core i7 3960X. En charge, on notera que les deux cœurs supplémentaires engendrent une consommation à la prise d'un peu plus de 29 watts supplémentaires sous Prime95.

En ce qui concerne la plateforme 2S, si la consommation au repos est contenue, en charge on va jusque frôler les 500 watts pour la plateforme complète ! Avec de la mémoire registered/ECC, significativement plus gourmande, nous avons atteint les 541 watts à la prise, à titre indicatif, sous Prime95 !

Latence mémoire

Nous nous sommes attardés sur les performances théoriques des contrôleurs mémoires, ce qui a été l'occasion de voir les limites de certains benchmarks. Nous avons tout d'abord mesuré la latence mémoire via AIDA64 :


On notera ici un tout petit avantage pour le Xeon E5 par rapport au Core i7, la mesure la plus intéressante étant bien entendue la latence mesurée en mode 2S (2 sockets) : utiliser deux processeurs en simultanée rajoute, malgré NUMA, une vingtaine de millisecondes de latence moyenne. Si vous avez lu le debut de notre article, ce gain de latence ne vous surprendra pas ! Cela pourra être un facteur mitigeant légèrement la scalabilité des performances pratiques.

Bande passante multithreadée

Terminons enfin les mesures mémoires par RMMT, le bechmark multithreadé intégré à Rightmark. Afin de bypasser le copieux cache L3, les opérations mémoires sont effectuées sur des blocs de 32 Mo pour chaque cœur. Comme nous l'indiquions précédemment, ce benchmark est limité à 8 threads en forçant l'affinité sur les cœurs de manière non optimale, nous limitons donc chaque die à quatre cœurs pour pouvoir utiliser les deux contrôleurs.


Grâce à NUMA, les performances explosent comme on l'attendait et l'on rate d'un cheveu le seuil des 90 Go/s de bande passante cumulée en lecture ! Si la bande passante mémoire n'est pas toujours un facteur limitant dans les performances pour les applications grand public, il ne faut pas oublier qu'ici, il y a 32 threads à alimenter en mémoire. Cette bande passant ne sera donc probablement pas inutile… Mais assez de mesures théoriques, passons (enfin !) à la pratique.
Vos réactions

Top articles