| Modifié le le 9 juillet 2025
L’architecture qui anime les nouvelles GeForce RTX 5000 marque un tournant dans l’histoire de Nvidia dont on se souviendra pour longtemps. La situation toute en paradoxes qui entoure la sortie de ces nouveaux GPU est unique dans l’histoire de l’accélération graphique sur PC. On vous explique.
Dégraisser l’architecture de tout ce qui est inutile au gaming ? Déjà fait avec les GTX 900, débarrassées de la double précision. Repousser encore d’un cran les limites de consommation ? À 320 W pour la RTX 4080 et 450 W pour la RTX 4090, les GPU atteignent déjà des valeurs qui frôlent l’indécence. Puisque élargir la surface des puces n’est plus possible pour les mêmes raisons (en plus de coûter extrêmement cher), on peut retourner le problème dans tous les sens, Nvidia est dos au mur. La solution doit venir d’un changement radical d’architecture, mais après 30 ans d’évolution technique et d’optimisation, c’est bien plus facile à dire qu’à faire.
Le problème de Turing.
Ce mur technologique, Nvidia l’a anticipé il y a longtemps et pour cause, Turing (RTX 2000) avait affronté une problématique similaire. À l’époque où les cartes les plus haut de gamme de la marque ne dépassaient que rarement les 250 W et où la tarification d’un wafer pouvait encore se compter sur cinq chiffres, il avait été possible de gonfler significativement la taille des GPU pour contourner le problème. On se souvient malgré tout que la RTX 2080 Ti repoussa le prix d’une carte graphique grand public à 1199 $. Nvidia réalisa à l’époque qu’il fallait revoir sa copie et tenter de trouver une alternative à la puissance de calcul exponentielle que nécessitent des moteurs graphiques de plus en plus gourmands pour un rendu visuel qui ne suit pas la même courbe. La solution qui émerge de la firme de Jensen Huang est alors de pousser la technique du lancer de rayon, réservée jusqu’alors au monde du rendu 3D professionnel, et de contenir la puissance pharaonique nécessaire à son usage en temps réel par l’emploi de modèles neuronaux spécialisés dans le traitement de l’image. Un chantier ambitieux qu’il était impossible de réaliser sur une seule génération et qui nous mène là où nous en sommes aujourd’hui.
Faire du neuf avec du vieux.
Pour Nvidia, le moment est venu de concrétiser ce projet initié il y a sept ans avec une architecture de rupture. En l’état, Blackwell est la première génération de cartes de l’histoire du constructeur qui ne propose qu’un gain minime, voire négligeable au moment de sa sortie. Voilà une situation difficilement compréhensible pour les joueurs, qui ont accueilli très timidement ces nouvelles cartes sans comprendre à qui elles se destinent. Il n’est plus question sur cette génération de tenter de gonfler à nouveau les performances de shading brutes, mais de braquer un bon coup vers l’ère du rendu neuronal. Car si en surface Blackwell ne semble pas très différent d’Ada au support près de la génération de trames multiple, c’est plus en profondeur que les changements sont à chercher, surtout du côté des tensor cores et de leur rôle au sein du pipeline graphique. On notera malgré tout un changement intéressant au niveau des CUDA cores : il n’y a plus de distinction entre les unités capables de travailler à la fois sur des nombres entiers et flottants 32 bits et celles uniquement capables de prendre en charge les flottants, car elles sont désormais toutes aptes à gérer les deux types de données.Blackwell n’est deux fois plus rapide qu'Ada que lorsqu’on utilise des modèles accélérés dans la précision la plus basse supportée par l’architecture.
Précision moindre et débit supérieur.
Les unités matricielles sont donc au cœur de la révolution du neural rendering et ce sont elles qui ont reçu toute l’attention de la firme pour cette nouvelle génération. Pour leur cinquième itération, les tensor cores se sont vu ajouter le support de formats de données en faible précision comme le FP4, les nombres à virgule flottante codés sur 4 bits. Pour simplifier, cette très faible précision reste suffisante pour obtenir des résultats pertinents avec des réseaux neuronaux dont l’empreinte mémoire se retrouve fortement réduite et dont la vitesse d’inférence est multipliée sur les processeurs prenant en charge ce format de données. Ce seul changement permet à Nvidia d’annoncer des débits d’opérations matricielles deux fois supérieurs à ceux des cartes Ada, dont le support ne descendait qu’au FP8. Attention donc lorsque l’on compare les deux générations : Blackwell n’est deux fois plus rapide que lorsque l’on utilise des modèles accélérés dans la précision la plus basse supportée par l’architecture. En pratique, les différents modèles du DLSS utilisent du FP16 et du FP8 et ne profitent pas de ce changement.
Le point DLSS4.
L’appellation DLSS4 et ce versioning un peu maladroit cachent en réalité plusieurs fonctionnalités : un algorithme de mise à l’échelle, Super Resolution, un mécanisme d’interpolation, Frame Generation, et un algorithme de débruitage de l’image, Ray Reconstruction. Pour sa quatrième version, le modèle neuronal chargé de l’upscaling passe sur une nouvelle architecture, un transformateur. Dans les grandes lignes, il s’agit d’un type de modèle déjà très largement employé dans le traitement du langage (GPT, par exemple) et les générateurs d’images les plus performants (comme Flux), dont les mécanismes d’attention permettent de garder une cohérence forte dans les données manipulées par le réseau. Le gain de qualité est à tel point significatif que les modes performances peuvent être envisagés sans craindre de grands sacrifices visuels. Bonne nouvelle, le modèle n’est pas exclusif aux cartes Blackwell car toutes les GeForce RTX peuvent en bénéficier. Il en va en revanche autrement pour le mécanisme de génération de trames multiple, uniquement compatible avec les RTX 5000. Les moteurs OFA, autrefois chargés de construire la carte du flux optique, passent le relais à un autre modèle neuronal et un mécanisme hardware exclusif aux cartes Blackwell se charge de cadencer l’interpolation des images (jusqu’à trois pour le mode 4X) générées par IA.
L’IA, vous connaissez ?
Si pour l’instant, le deep learning dans le jeu vidéo est cantonné à du post-traitement, Blackwell pousse le concept plus loin avec l’intégration de l’inférence au plus profond du pipeline graphique. Le principe du neural shading consiste à pouvoir appeler des algorithmes de deep learning dès les premières étapes du rendu. La couleur d’un pixel usuellement déterminée par un shader, un programme issu du moteur du jeu et exécuté sur les CUDA cores, peut désormais l’être par le résultat de l’inférence d’un petit réseau neuronal. Cette nouvelle manière d’imaginer le graphisme ouvre de nombreuses perspectives, mais nécessite à la fois de réimaginer la manière dont on rend une scène 3D et de repenser le hardware pour donner un rôle plus central aux unités matricielles. Côté software, Vulkan ouvre les hostilités avec le support des cooperative vectors permettant d’inférer un modèle d’IA directement dans un pixel shader (la fonctionnalité arrive bientôt sur DirectX 12). Du côté matériel, Nvidia répond à la problématique de la gestion de ces nouvelles tâches par l’introduction d’un processeur dédié à la gestion des contextes GPU.
Et un processeur IA de plus.
L’AMP, ou AI Management Processor, est un petit CPU architecturé autour du jeu d’instructions RISC-V et gravé au sein même du GPU, dont le rôle est de décharger le pilote (et donc le processeur central de la machine) de la responsabilité de distribuer les différentes tâches de rendu aux sous-unités qui composent le GPU. Couplé au moteur Shader Execution Reorder qui passe en version 2 sur Blackwell, cet ordonnanceur matériel a pour but de maximiser l’occupation du GPU en réduisant les latences qui pourraient être induites par la parallélisation des différentes tâches de rendu. Son rôle est crucial pour permettre l’utilisation concomitante de réseaux neuronaux, d’appels aux moteurs d’intersection des RT Cores et à l’exécution des programmes sur les unités FP32 classiques. En pratique, cela permettra de pouvoir utiliser un modèle de langage pour animer les PNJ d’un jeu vidéo en minimisant l’impact de son accélération sur le frame rate. Et plus que de pouvoir faire causer vos avatars dans un clone hasardeux des Sims, ces optimisations vont permettre l’emploi de tout un arsenal de techniques basées sur le deep learning pour gérer (plus efficacement que des shaders classiques) la compression et le filtrage des textures, l’illumination de la scène ou encore l’animation de modèles 3D.Pour répondre aux besoins des nouveaux moteurs de jeu dont la technologie Nanite gère dynamiquement les niveaux de détails géométriques par groupes de triangles, Nvidia adapte la manière dont ses RT Cores construisent et parcourent l’arbre BVH.
Nouveaux traitements de la géométrie.
L’IA n’est évidemment pas le seul domaine dans lequel Nvidia a concentré ses efforts. On l’a dit, la volonté première d’intégrer de l’intelligence artificielle dans le rendu est de soulager les besoins énormes que requiert le lancer de rayons en temps réel. Alors pour cette quatrième génération de RT Cores, dédiés à l’accélération des calculs liés au ray tracing, la firme annonce un débit de tests d’intersection entre les rayons et la géométrie deux fois plus élevé que sur Ada. On ne parle pas réellement de performance brute multipliée par deux, comme si la firme avait augmenté d’autant le nombre de RT Cores sur Blackwell : il n’y en a toujours qu’un par Stream Multiprocessor, mais Nvidia a opéré des évolutions importantes dans la manière qu’ont ces sous-unités de traiter la géométrie d’une scène 3D.Pour répondre aux besoins des nouveaux moteurs de jeu et notamment l’Unreal Engine 5, dont la technologie Nanite gère dynamiquement les niveaux de détails géométriques par groupes de triangles, Nvidia adapte la manière dont ses RT Cores construisent et parcourent l’arbre BVH (ou Bounding Volume Hierarchy, une façon d’organiser et regrouper la géométrie en une arborescence évitant de tester tous les triangles de la scène). La structure de ce dernier repose désormais sur des clusters partitionnés, qui évitent d’avoir à le reconstruire en entier à chaque changement dans les objets 3D. Cette technique permettra en outre de laisser le GPU gérer seul ce type de niveau de détails pour réduire encore un peu la charge CPU. Un nouveau moteur hardware s’occupe de tester les intersections entre rayons et clusters, et cet ensemble de techniques est regroupé sous la dénomination RTX Mega Geometry. Il est conçu pour pouvoir traiter les scènes extrêmement riches en triangles, les primitives du rendu 3D. Cela ne signifie pas pour autant que le frame rate des titres actuels explose sur RTX 5000, mais qu’il va être possible d’appliquer fidèlement du ray tracing sur des décors à la géométrie très complexe dans les jeux à venir : le gain est surtout visuel.
Améliorations sur la vidéo.
Les dernières améliorations apportées à l’architecture concernent le traitement des flux vidéo. Les moteurs d’encodage/décodage supportent désormais l’échantillonnage YUV 4:2:2, un format de compression intermédiaire des couleurs qui propose un équilibre entre qualité plus élevée que l’encodage 4:2:0 couramment utilisé et taille de fichiers plus léger que l’échantillonnage natif 4:4:4. L’encodeur AV1 des cartes Blackwell propose aussi un nouveau mode ultra qualité, Nvidia renforçant sa volonté de proposer des GPU polyvalents capables de s’attaquer, au-delà du jeu, à la production vidéo et au streaming. Notons que la RTX 5090 embarque trois encodeurs et deux décodeurs. Les connectiques DisplayPort passent en version 2.1b, supportant théoriquement des définitions allant jusqu’à 16k 60Hz, 8K 165Hz ou 4K 360Hz, à condition d’utiliser un câble DP certifié DP80LL.
Nvidia révise ses gammes.
La gamme Blackwell grand public s’articule autour de quatre GPU, les GB202, GB203, GB205 et GB206, tous épaulés de mémoire GDDR7. Le premier est exclusif à la carte la plus performante, mais aussi la plus prohibitive de sa génération, la RTX 5090. Composé de 170 Stream Multiprocessors pour 92,2 milliards de transistors, il dépasse le record jusqu’alors détenu par la RTX 4090 et les 76,3 milliards de transistors de son AD102. Les mensurations de ce nouveau flagship sont sans commune mesure avec le reste de la gamme puisque le GB203, qui équipe pourtant les onéreuses RTX 5080 et RTX 5070 Ti, n’est physiquement et techniquement que la moitié de ce monstre. L’écart entre haut de gamme et « très haut de gamme » n’a jamais été aussi marqué et si l’on en doutait encore, les cartes vendues sous la nomenclature XX90 depuis Ampere sont bien des Titan. Le bigchip est, depuis les RTX 4000, l’exclusivité de cartes semi-professionnelles plutôt destinées aux créateurs de contenu qu’aux joueurs : le tarif recommandé de 2239 € éloigne de toute manière le grand public du dernier modèle.Nvidia ne cache pas le fait que les cartes Blackwell n’ont que peu d’intérêt pour les possesseurs de RTX 4000.
Peu d’écart significatif avec les RTX 4000.
Avec le lancement de la RTX 5080 et de son GB203 reprenant à l’identique la configuration du précédent AD103, il est clair que les ambitions du reste du catalogue ne sont plus de creuser un écart significatif avec les cartes sortantes. La puissance brute du GB205 équipant la RTX 5070 ne surclasse que de peu celle précédemment offerte par l’AD104 bridée de la RTX 4070 et il en va de même pour le GB206 chargé de prendre le relais de l’AD106, doté du même nombre d’unités de traitement.Des RTX 5080 jusqu’aux RTX 5060 Ti, les nouvelles références ne proposent qu’un gain moyen souvent marginal par rapport aux modèles qu’elles remplacent. Le gain de bande passante autorisé par la GDDR7 permet certes de libérer les bus mémoire étroits des GB205 et GB206, mais comme on l’a dit, cette relative stagnation est une première pour la marque qui ne nous avait pas habitués à ça (si l’on met de côté le refresh des cartes Fermi, GTX 400 et 500, remontant à 2012). La génération de trames multiple permet d’exploiter des moniteurs hautes fréquences en partant d’un frame rate natif relativement bas, mais en attendant la démocratisation du neural shading, c’est à peu près tout ce que Blackwell apporte en jeu dans l’immédiat. Nvidia est bien conscient de la problématique et ne cache pas le fait que les cartes Blackwell n’ont que peu d’intérêt pour les possesseurs de RTX 4000.