DeepSeek V4 : Nvidia le prend en charge avec Blackwell avant tout le monde

ACTUALITÉS TECH – Sur les modèles 1,6 T, la technologie de l’entreprise dirigée par Jensen Huang tire déjà jusqu’à 3 500 tokens par seconde du modèle chinois.

 

DeepSeek V4 est désormais disponible, avec de grosses optimisations à la clé, dont une taille de modèle pouvant atteindre 1,6 T, et Nvidia est déjà prêt à lui offrir un support Day-0 sur les GPU Blackwell via NVFP4. Le modèle mis à jour n’utilise que 27% des FLOPs d’inférence par token et seulement 10% du KV-cache lorsqu’il tourne avec une fenêtre de contexte d’un million de tokens. Deux nouveaux modèles ont été présentés: un modèle Pro doté de 1,6 billion de paramètres, et une version Flash de 284 milliards de paramètres. Nvidia affirme que les GPU Blackwell apportent l’échelle et les performances à faible latence nécessaires pour faire fonctionner l’inférence longue portée à un million de tokens ainsi que les modèles IA à l’échelle du billion de paramètres proposés par V4.

“Des déploiements en centre de données Nvidia Blackwell aux microservices NIM managés et aux workflows de fine-tuning, Nvidia offre de nombreuses options pour intégrer DeepSeek et d’autres modèles ouverts à différentes étapes du développement et du déploiement. Nvidia contribue activement à l’écosystème open source et a publié des centaines de projets sous licence open source. Nvidia reste engagé dans l’optimisation des logiciels communautaires, et les modèles ouverts permettent aux utilisateurs de partager beaucoup plus largement leurs travaux en matière de sécurité et de résilience de l’IA,” a écrit Nvidia.

Nvidia met en avant un débit proche de 3 500 TPS par GPU, qu’il s’agisse du GB300 ou du Blackwell Ultra, et il ne s’agit encore que de chiffres préliminaires qui devraient progresser avec de nouvelles optimisations de la couche de conception commune. La pile Blackwell de Nvidia propose de nombreuses technologies pensées pour des modèles comme V4, parmi lesquelles NVFP4, Dynamo, des kernels CUDA optimisés, des techniques avancées de parallélisation et bien d’autres choses encore. L’un des éléments clés de DeepSeek V4 réside dans l’usage de la quantification FP4, ou MXFP4, utilisée pour accélérer les rollouts et les exécutions d’inférence. Grâce à FP4, les modèles V4 réduisent le trafic mémoire ainsi que la latence d’échantillonnage.

Il faut également souligner que les dernières puces Ascend de Huawei, les Ascend 950PR et Ascend 950DT, toutes deux attendues pour 2026, prennent elles aussi en charge les instructions MXFP4. Cela montre que DeepSeek V4 sera pleinement compatible avec les puces IA domestiques chinoises. Grâce aux optimisations continues de Nvidia, les futurs modèles pourraient donc bénéficier dès le départ d’un écosystème de support particulièrement solide.

Source : WCCFTech, Nvidia

Illustration DeepSeek V4
Graphique de performance DeepSeek V4
Puces IA Huawei Ascend

Spread the love
Avatar photo
Anikó, our news editor and communication manager, is more interested in the business side of the gaming industry. She worked at banks, and she has a vast knowledge of business life. Still, she likes puzzle and story-oriented games, like Sherlock Holmes: Crimes & Punishments, which is her favourite title. She also played The Sims 3, but after accidentally killing a whole sim family, swore not to play it again. (For our office address, email and phone number check out our IMPRESSUM)

theGeek Live