NVIDIA dévoile le superordinateur IA Vera Rubin POD à 40 racks pour les charges de travail agentiques
Iris Coleman 16 mars 2026 19h48
NVIDIA annonce le Vera Rubin POD équipé de 1 152 GPU sur 40 racks, offrant 60 exaflops et une performance d'inférence 10 fois supérieure par watt par rapport à Blackwell.
NVIDIA vient de dévoiler les spécifications de son projet d'infrastructure IA le plus ambitieux à ce jour. Le Vera Rubin POD intègre 1 152 GPU Rubin sur 40 racks, offrant 60 exaflops de puissance de calcul et 10 pétaoctets par seconde de bande passante totale de montée en charge. Les unités de production seront livrées au second semestre 2026.
Les chiffres sont impressionnants : 1,2 quadrillion de transistors, près de 20 000 puces NVIDIA, toutes conçues pour fonctionner comme un seul superordinateur cohérent. NVIDIA revendique une performance d'entraînement 4 fois supérieure et une performance d'inférence 10 fois supérieure par watt par rapport à son architecture Blackwell actuelle, avec des coûts de token réduits à un dixième des niveaux actuels.
Cinq systèmes de racks spécialement conçus
Le POD combine cinq systèmes distincts à l'échelle du rack, chacun ciblant des goulets d'étranglement spécifiques dans les charges de travail IA modernes :
Vera Rubin NVL72 sert de moteur de calcul principal. Chaque rack intègre 72 GPU Rubin et 36 CPU Vera connectés via NVLink 6, qui fournit 3,6 To/s de bande passante par GPU, soit plus de bande passante totale que l'ensemble de l'internet mondial, selon NVIDIA. Le système cible les quatre lois de mise à l'échelle de l'IA : pré-entraînement, post-entraînement, mise à l'échelle au moment du test et mise à l'échelle agentique.
Les racks Groq 3 LPX s'attaquent au problème de latence. Avec 256 unités de traitement du langage par rack utilisant une architecture uniquement SRAM, ceux-ci s'associent au NVL72 pour offrir ce que NVIDIA affirme être 35 fois plus de tokens et 10 fois plus d'opportunités de revenus pour les modèles à mille milliards de paramètres par rapport à Blackwell.
Les racks CPU Vera fournissent des environnements sandbox pour les tests d'Agents d'IA. Un seul rack maintient plus de 22 500 environnements d'apprentissage par renforcement simultanés, essentiels pour valider les sorties d'IA agentique avant le déploiement.
Les racks BlueField-4 STX introduisent ce que NVIDIA appelle le « stockage natif IA » via la plateforme de mémoire contextuelle CMX. En déchargeant le cache KV vers un Stockage hors ligne dédié à haute bande passante, le système revendique 5 fois plus de tokens par seconde et une efficacité énergétique 5 fois supérieure aux approches traditionnelles.
Les racks réseau Spectrum-6 SPX relient le tout avec des commutateurs 102,4 Tb/s dotés d'optiques co-packagées.
L'argument économique des tokens
NVIDIA présente cela autour d'une réalité de marché spécifique : la consommation de tokens dépasse maintenant 10 quadrillions par an, et le passage des interactions humain-IA aux interactions IA-IA accélérera considérablement cette croissance. Les systèmes agentiques modernes génèrent des volumes massifs de tokens de raisonnement tout en augmentant les exigences de cache KV, exactement le goulet d'étranglement que cette architecture cible.
Les benchmarks InferenceMax de SemiAnalysis tiers cités par NVIDIA montrent que les systèmes Blackwell actuels offrent déjà une performance 50 fois supérieure par watt et un coût par token 35 fois inférieur par rapport au H200. Vera Rubin vise à étendre cette avance.
Ingénierie thermique et énergétique
L'architecture de rack MGX de troisième génération introduit le lissage de puissance intelligent avec 6 fois plus de stockage d'énergie au niveau du rack (400 joules par GPU) que les générations précédentes. Cela réduit les demandes de courant de crête jusqu'à 25 % et élimine le besoin de packs de batteries massifs.
Tous les racks fonctionnent à des températures d'admission d'eau chaude de 45°C, permettant aux centres de données dans de nombreux climats d'utiliser le refroidissement par air ambiant. NVIDIA affirme que cela libère suffisamment d'énergie pour ajouter 10 % de racks supplémentaires dans le même budget énergétique de l'installation.
Perspectives d'avenir
Au-delà de la configuration POD initiale, NVIDIA a présenté le Vera Rubin Ultra NVL576 s'étendant à 576 GPU sur huit racks, et l'architecture Kyber de nouvelle génération ciblant le NVL1152 avec 144 GPU par rack. La feuille de route suggère que NVIDIA voit les domaines NVLink multi-racks comme l'avenir de l'infrastructure IA, pas seulement des GPU plus grands, mais des architectures système fondamentalement différentes.
Pour les entreprises planifiant des investissements en infrastructure IA, le message est clair : l'économie du calcul IA passe de l'optimisation au niveau des puces à l'optimisation au niveau des installations. Ceux qui construisent des centres de données maintenant font face à un choix entre les systèmes de génération actuelle et l'attente de la disponibilité de Vera Rubin fin 2026.
Source de l'image : Shutterstock- nvidia
- infrastructure ia
- vera rubin
- centres de données
- ia d'entreprise



