Les informations tombant à la pelle depuis quelques jours, il est maintenant temps de vous faire un petit récapitulatif sur Larrabee, le futur « GPU » massivement parallèle d’Intel. Celui-ci est conçu autour de cœurs P54CS, c'est-à-dire identiques aux premiers Pentium gravés en 0.35 µm, sortis en 1995. Ces cœurs sont de type super-scalaire, mais restent In-Order (comme sur l'Atom), donc incapable de réorganiser les données pour une meilleure efficacité. Chacun de ces cœurs est capable de traiter 4 threads en hardware, a été modifié pour supporter le jeu d’instructions 64-bit EM64T et dispose de 32 Ko de cache L1 ainsi que de 256 Ko de cache L2, ponctionné sur un gros cache L2 global. Bien sûr, ce n’est pas avec de simples cœurs de Pentium que Larrabee sera un foudre de guerre.
Pour cela, Intel a couplé ces cœurs simplistes à de super-unités de calculs SIMD baptisées VPU (Vector Processing Unit) et des raffinements technologiques à la mode comme le FMA (Fused Multiply-Add), le FMS (Fused Multiply-Substract) ou d’autres types d’opérations indispensable dans les applications graphiques. L’ensemble de ces nouvelles instructions est baptisée LRBni (Larrabee New Instructions) et peut être vu comme une extension au jeu d’instructions x86 comme le MMX ou le SSE. On trouve au total 79 nouvelles instructions : 32 destinées aux opérations arithmétiques et logiques sur les vecteurs, 14 pour les FMA/FMS vectoriels, 2 pour la comparaison de vecteurs, 11 pour les masques de vecteurs, 8 pour les load/stores (oui, toujours de vecteurs), 4 vectorielles diverses et enfin 8 scalaires. Ces VPU seront équipés de 32 registres de 512 bits, de quoi traiter 16 float32, 16 int32, 8 float64 ou 8 int64 avec une seule instruction et ainsi offrir un débit top-moumoute. Cache et cœurs seront connectés ensemble par l’intermédiaire de bus en anneau (ring) ultra-rapides et unidirectionnels.
Côté mémoire, Larrabee utilisera 1 ou 2 Go de GDDR5, connectés aux cœurs par le biais de deux contrôleurs 256-bits. Dans un premier temps, la mémoire sera cadencée à environ 750 MHz, de quoi offrir un débit de 2*96 Go/s, soit 192 Go/s.
Parlons maintenant des aspects concrets de fabrication. Actuellement, le premier prototype de Larrabee, qui est sorti des chaines de fabrications d’Intel il y a quelques semaines, embarque 32 cœurs (je les ai comptés sur le wafer de Gelsinger…), 8 Mo de cache L2 (32 x 256 Ko) et est cadencé à une fréquence comprise entre 1.5 et 2 GHz (je l’ai lu dans les entrailles d’une loutre). La bête est gravée en 45 nm, ce qui implique une dissipation thermique énorme. En effet, avec 1.7 milliards de transistors et un die d’un peu moins de 600 mm², c’est plus de 200 Watts qu’il faut dissiper.
Selon toutes vraisemblances (même si là, je suppute) Intel ne proposera jamais cette déclinaison dans le commerce : elle sera uniquement destinées aux développeurs et s’accompagnera d’un SDK adéquat. En 2010 par contre, il faudra bien qu’Intel sorte Larrabee sous une forme ou une autre. Deux options possibles : soit la déclinaison 64 cœurs / 16 Mo L2, gravée en 32 nm, est prête à temps et c’est celle-là qu’Intel mettra sur le marché, soit ce n’est pas le cas et la situation va vite s’avérer très délicate. Mon esprit tourmenté me fait bien penser à une solution double dies (deux dies 32 cores / 8 Mo en 45 nm au sein d’un même package), mais une telle extrémité ne serait probablement pas viable techniquement. Quoique les alims de 1000 Watts sont disponibles en masse désormais…
Une chose est sur, Larrabee est encore très loin d’avoir dévoilé tous ses secrets.
Vers le forum 