TECH ACTUS – Le GB300 affiche un gain de performances significatif par rapport aux racks IA GB200.
Les racks IA GB300 NVL72 d’Nvidia ont été testés sur les derniers modèles open source de DeepSeek, et les résultats s’annoncent réellement prometteurs grâce au fine-tuning et à une inférence optimisée. Avec le GB300, l’objectif prioritaire d’Nvidia était d’assurer des performances optimales en long contexte, afin de tirer parti de la vague d’IA agentique. La Large Model Systems Organization (LMSYS) a évalué le GB300 NVL72 sur l’inférence en long contexte, et les résultats paraissent particulièrement encourageants. Les tests intègrent également du routage logiciel au niveau de l’infrastructure.
Comme les charges de travail en long contexte déplacent la pression vers la VRAM des GPU, l’équipe LMSYS a intégré le PD (Prefill-Decode) Disaggregation, un mécanisme largement utilisé pour maintenir de très grands contextes de tokens. La PD Disaggregation répartit le travail entre différents « nœuds » matériels afin d’éviter les goulots d’étranglement. La phase de pré-remplissage – pour simplifier, le traitement du prompt – et la phase de décodage – la génération des tokens – peuvent être bien mieux optimisées grâce à la disaggregation, ce qui améliore nettement les performances.
L’équipe LMSYS a aussi appliqué plusieurs autres techniques d’optimisation, notamment le chunking dynamique pour obtenir des réponses rapides et optimales dans des fenêtres de long contexte, ainsi qu’une conversion efficace de la capacité KV (key-value). Sur les progrès générationnels, l’équipe met en avant trois axes de référence : analyse du débit, capacité et ratio de latence. Le GB300 NVL72 affiche 1,53x de débit de pointe à 226,2 TPS/GPU (tokens par seconde), 1,87x de vitesse côté utilisateur – un bond massif en TPS/utilisateur via le MTP (Multi-Token Prediction) – et un avantage de latence de 1,58x face au GB200 NVL72.
D’après LMSYS, le GB300 apporte en moyenne un avantage de 1,4x à 1,5x par rapport au GB200, surtout dans les scénarios sensibles à la latence, et comme l’accent est mis sur les charges de travail agentiques, Blackwell Ultra est le mieux placé pour en tirer profit. Même si Blackwell Ultra semble clairement dominant en latence et en débit, les données de TCO dont parle l’industrie n’ont pas encore été mises sur la table, en particulier alors que les coûts de déploiement ont grimpé avec le GB300.
Il semble qu’Nvidia ne se contente pas, génération après génération, d’améliorer l’architecture : la marque s’attaque aussi à des contraintes propres à l’industrie. Dans le cas de Blackwell Ultra, les métriques de latence montrent une amélioration marquée. C’est l’une des raisons pour lesquelles, dans les environnements agentiques, le GB300 devient le choix de référence des hyperscalers et des neoclouds.




