Nvidia Blackwell Ultra : l’« IA agentique » passe à la vitesse supérieure

ACTUALITÉS TECH – Au lieu de se concentrer sur les cartes GeForce RTX 5000 Super, Nvidia se concentre sur l’IA.

 

Depuis son envol initial en 2022, l’industrie de l’IA s’est complexifiée, et l’on observe désormais un basculement marqué vers le calcul « agentique », porté par des applications et des wrappers construits autour de modèles de frontière. Dans le même temps, pour des fournisseurs d’infrastructure comme Nvidia, disposer d’une bande passante mémoire et d’une puissance suffisantes est devenu essentiel afin de répondre aux exigences de latence des frameworks d’agents – et c’est précisément ce que l’entreprise vise avec Blackwell Ultra. Dans un nouveau billet de blog, Nvidia a testé Blackwell Ultra sur InferenceMAX de SemiAnalysis, avec des résultats jugés impressionnants.

La première infographie de Nvidia met en avant une métrique baptisée « token/watt », sans doute l’un des indicateurs les plus importants à prendre en compte dans les conceptions actuelles de hyperscalers. L’entreprise dit s’être concentrée à la fois sur la performance brute et sur l’optimisation du débit: avec le GB300 NVL72, Nvidia annonce une hausse de 50x du débit par mégawatt par rapport aux GPU Hopper. La comparaison ci-dessous illustre le meilleur état déployable pour chaque architecture.

Infographie Nvidia : comparaison token/watt et débit - GB300 NVL72 vs Hopper

Nvidia met aussi en avant sa technologie NVLink. Blackwell Ultra passe à une configuration de 72 GPU, réunis au sein d’une seule structure NVLink unifiée, avec une vitesse d’interconnexion annoncée à 130 TB/s. Face à Hopper (limité à une conception NVLink à 8 puces), Nvidia met en avant une architecture, une conception de rack et – surtout – le format de précision NVFP4, ce qui expliquerait la domination du GB300 en matière de débit.

Infographie Nvidia : NVLink, échelle 72 GPU et conception Blackwell Ultra (GB300 NVL72)

Dans ce contexte de vague « d’IA agentique », les tests du GB300 NVL72 se concentrent également sur les coûts par token et sur les améliorations mentionnées plus haut. Nvidia évoque une réduction par 35 des coûts, calculés par millions de tokens, ce qui ferait de cette solution l’option d’inférence la plus attractive pour les laboratoires en périphérie et les hyperscalers. Les lois de l’échelle resteraient inchangées, tout en progressant à un rythme inédit; parmi les principaux catalyseurs de ces gains, l’entreprise cite sa structure de co-design et la fameuse loi de Huang.

Comparer directement à Hopper est, de l’aveu même du contexte, un peu injuste si l’on tient compte des différences progressives entre nœuds de calcul et architectures; Nvidia a donc aussi opposé le GB200 au GB300 (NVL72s) sur des charges à long contexte. Le contexte est un verrou majeur pour les agents, car maintenir l’état d’une base de code complète exige un usage agressif des tokens. Avec Blackwell Ultra, Nvidia annonce jusqu’à 1,5x de baisse des coûts et un traitement de l’attention deux fois plus rapide, ce qui le rend particulièrement adapté aux charges de travail agentiques.

Blackwell Ultra étant actuellement en phase d’intégration chez les hyperscalers, il s’agit de l’un des premiers ensembles de benchmarks pour cette architecture, et Nvidia estime avoir conservé une bonne scalabilité, en phase avec les usages modernes de l’IA. Avec Vera Rubin, l’entreprise anticipe encore de meilleures performances au sein de la génération Blackwell, ce qui contribue à expliquer sa domination actuelle dans la compétition d’infrastructure.

Source: WCCFTech, Nvidia

Spread the love
Avatar photo
Anikó, our news editor and communication manager, is more interested in the business side of the gaming industry. She worked at banks, and she has a vast knowledge of business life. Still, she likes puzzle and story-oriented games, like Sherlock Holmes: Crimes & Punishments, which is her favourite title. She also played The Sims 3, but after accidentally killing a whole sim family, swore not to play it again. (For our office address, email and phone number check out our IMPRESSUM)