Intel Pentium 4 E « Prescott »

Publié le 02/02/2004 par
Imprimer
L´architecture en pratique – cache & instructions
Avant de nous attaquer aux performances applicatives du Prescott, nous avons voulu voir quel était son comportement dans trois domaines bien précis, à savoir son cache, l’influence de ce dernier sur les performances et l’HyperThreading.


Comme vous pouvez le voir, les temps de latences, exprimés en cycle d’horloges, des caches L1 et L2 (mesurés avec cachemem) sont bien plus importants sur le Prescott que sur le Northwood. Il faut noter que mesurer la latence du cache L1 est complexe, et qu’il est tout à fait possible que cette latence plus élevée découle d’autres paramètres de l’architecture du Prescott.

En terme de bande passante, le Prescott s’avère aussi rapide en lecture, mais plus lent pour ce qui est de l’écriture des données. Les caches du Prescott sont certes doublés, mais ils sont donc également plus lents. Ceci est notamment lié à la volonté qu’à Intel de monter en fréquence, puisque avec le même temps de latence de 4.7ns, avec 16 cycles de latence comme sur le Northwood on peut atteindre 3.4 GHz, contre 4.9 GHz pour 23 cycles comme sur le Prescott.

Afin de voir quel pouvait être l’influence de la vitesse du cache, nous avons utilisé un petit logiciel de test fournis par nos confrères d’Onversity . Ce logiciel a l’avantage d’effectuer quelques tests parmi lesquels l’exécution d’une addition, d’une multiplication d’entier et d’une instruction de décalage, le tout avec 3 tables de 40 Ko d’une part et 3 tables de 4 Mo d’une part. Dans le premier cas, on reste donc au sein du cache L2.


Lorsqu’on reste au sein du cache L2, le Northwood est pas moins de 40% plus rapide que le Prescott sur une addition, ceci étant dû aux latences trop élevées du cache L2. Par contre, lorsque l’on passe sur des tables de taille plus importante, le Prescott est 44% plus rapide, ceci étant dû en partie à la taille du cache et aux améliorations apportées au prefetching matériel du Prescott.

Bizarrement, on remarque la même chose avec l’instruction de décalage (shift), cette dernière étant 56% plus rapide sur le Northwood dans le premier cas et 40% plus rapide dans le second cas. Etant donné que ce type d’instruction peut désormais être calculé via une ALU fonctionnant à vitesse double, le Prescott devrait mieux tirer son épingle du jeu.

Pour ce qui est de l’instruction imul (multiplication d’entiers), le fait de ne plus devoir passer par la FPU est très avantageux puisque même quand on reste au sein du cache L2 le Prescott est 22% plus rapide, cet avantage passant à 86% avec des tables de taille plus importante.

Bref, les fortes latences inhérentes à la mémoire cache du Prescott peuvent dans certains cas être très négatives pour les performances. Selon les applications, ce dernier pourrait être notablement en retrait par rapport au Northwood ...
Vos réactions

Top articles