Un bug de virtualisation affecte les deux cartes graphiques les plus puissantes de Nvidia ?

ACTUALITÉS TECH – La GeForce RTX 5090 pour les joueurs et la RTX Pro 6000 pour les stations de travail sont touchées par ce bug.

 

CloudRift, un service de cloud GPU destiné aux développeurs, a été le premier à signaler des problèmes de plantage avec les cartes graphiques haut de gamme de Nvidia. Après quelques jours d’utilisation en VM, les SKU se sont complètement arrêtées. Fait intéressant, les GPU ne peuvent être de nouveau accessibles qu’en redémarrant le système du nœud. Ce problème semble concerner uniquement les modèles RTX 5090 et RTX Pro 6000, et non les RTX 4090, Hopper H100 ou B200 basées sur Blackwell.

Le bug se produit lorsqu’un GPU est attribué à un environnement VM via le pilote de périphérique VFIO. Après un Function Level Reset (FLR), le GPU ne répond plus, entraînant un état de « soft lock » du noyau qui paralyse à la fois l’hôte et le client. Pour en sortir, il faut redémarrer la machine hôte, ce qui est compliqué pour CloudRift compte tenu du nombre de machines invitées qu’ils exploitent.

Ce problème ne se limite pas à CloudRift. Un utilisateur de Proxmox a signalé un problème similaire, où la machine hôte s’est complètement effondrée après l’arrêt du client Windows. Fait intéressant, il affirme que Nvidia a répondu au problème, l’a reproduit et travaille sur un correctif. Pour l’instant, il semble que le problème soit spécifique aux GPU basés sur Blackwell.

CloudRift a offert une prime de bug de 1 000 $ à quiconque pourrait corriger ou atténuer le problème. Nous nous attendons à ce que Nvidia publie rapidement un correctif, car le problème affecte des charges de travail IA critiques. Il est donc difficile de critiquer Nvidia : de tels bugs arrivent parfois, et il est nécessaire de les corriger au plus vite, car ceux qui achètent des GPU haut de gamme attendent qualité et stabilité.

Cela dit, il faut aussi rappeler que Nvidia a eu des difficultés avec la stabilité de ses pilotes au cours de l’année écoulée (et nous avons régulièrement couvert ces problèmes).

Source : WCCFTech, CloudRift, Proxmox

Spread the love
Avatar photo
theGeek is here since 2019.

theGeek Live