ACTUALITÉS TECH – Alors que la plateforme Rubin approche de sa sortie, le GB300 fondé sur Blackwell laisse très loin derrière lui la plateforme Hopper.
Le Nvidia Blackwell GB300 a établi un nouveau record dans AA-AgentPerf, un nouveau benchmark qui mesure les charges de travail d’intelligence artificielle fondées sur des agents. Le benchmark d’Artificial Analysis mesure combien d’agents actifs un déploiement d’inférence peut prendre en charge sous des charges réalistes, qui comprennent des trajectoires d’agents réelles (sessions de codage à plusieurs tours avec raisonnement entrelacé, appels d’outils et longueurs de contexte variables, et non des prompts synthétiques uniformes), des charges parallèles soutenues (les agents simulés maintiennent des requêtes continues et en cours, sollicitant la réutilisation du KV-cache, le décodage spéculatif et le comportement du planificateur), des niveaux de SLO du marché (seuils de performance définis à partir des données de benchmarking d’API serverless d’Artificial Analysis, reflétant les niveaux de qualité de service observés chez les fournisseurs), une mise à jour continue (les résultats sont actualisés au fur et à mesure que de nouveaux matériels, ensembles logiciels et versions de modèles deviennent disponibles), ainsi qu’un état prêt pour la production (les modèles sont testés avec des optimisations réalistes et des topologies de déploiement à l’échelle de la production).
Le benchmark AA-AgentPerf sert à mesurer trois indicateurs clés qui constituent la base des déploiements modernes d’IA. Il s’agit du Time to First Token (TTFT), c’est-à-dire la latence par requête entre l’envoi de la demande et la réception du premier token de sortie, du débit de sortie (tokens de sortie par seconde et par requête, mesurés après la réception du premier token) et du débit de sortie du système (tokens de sortie agrégés par seconde sur l’ensemble des agents parallèles).
Nvidia vient de publier ses premiers résultats de performance fondés sur AgentPerf, obtenus avec le modèle DeepSeek V4 Pro fonctionnant sur la plateforme GB300 NVL72. Ce modèle représente le type de Frontier models qui alimentent aujourd’hui les agents et qui sont largement utilisés dans le domaine de l’intelligence artificielle. Lors du premier cycle de mesures de performance, Nvidia a obtenu les performances les plus rapides avec le matériel GB300, offrant un avantage de 20 fois par mégawatt par rapport à l’ancienne plateforme HGX H200. Le GB300 peut prendre en charge jusqu’à 60 000 agents simultanés par mégawatt, ce qui constitue un bond énorme par rapport à Hopper. Nvidia affirme que ces performances mettent en évidence la capacité du Nvidia GB300 NVL72 et de Blackwell à exécuter des charges de travail de codage agentique à grande échelle, tout en exploitant pleinement les GPU au cours de plusieurs sessions d’agents simultanées.
Pour l’avenir, Nvidia Rubin se profile déjà à l’horizon et devrait encore accroître ces avantages grâce à une architecture d’IA surpuissante offrant 50 PFLOP de puissance de calcul avec NVFP4. Avec le CPU Vera, les appels d’outils LLM et les performances de bout en bout devraient bénéficier d’importants gains de performance et d’efficacité.
Source : WCCFTech, Artificial Analysis, Nvidia



