Grok 4 : le nouveau modèle d’xAI affiche un résultat étonnamment faible lors d’un test !

ACTUALITÉS TECH – xAI Grok 4 semble avoir été optimisé pour briller dans les benchmarks classiques d’IA, mais il peine lorsqu’il s’agit de défis dynamiques ou stratégiques. Grok 4 vient de finir cinquième au benchmark multi-agents Step Race, basé sur les puzzles Connections du New York Times pour évaluer les IA sur leur capacité à réfléchir et élaborer une stratégie. Même Gemini 2.5 Flash a fait mieux que Grok 4 !

 

Face aux scores élevés de Grok 4 sur différents benchmarks standardisés, on pourrait croire que le modèle a été « surentraîné » pour les réussir, au point de mémoriser les données plutôt que d’en tirer de vrais schémas pertinents. Cela ne signifie pas que Grok 4 soit inutile. Au contraire, ses capacités de raisonnement se sont nettement améliorées. Il surpasse quasiment tous les autres modèles pour détecter les erreurs de code. Beaucoup utilisent ce grand modèle de langage (LLM) pour créer des scripts de jeu qu’ils intègrent ensuite dans Cursor. Néanmoins, Grok 4 reste en dessous de l’image que veut donner Elon Musk. Sur la plateforme de paris Kakshi, le modèle n’attire d’ailleurs pour l’instant que des mises moyennes.

Parallèlement, le Financial Times a récemment révélé que xAI, désormais maison-mère de Twitter, viserait une valorisation de 200 milliards de dollars lors de la prochaine levée de fonds. xAI a levé 300 millions de dollars en juin via une émission secondaire d’actions, puis 10 milliards début juillet. D’après les rumeurs, SpaceX investirait à son tour 2 milliards dans xAI, puisés dans une récente levée de 5 milliards. (D’un point de vue légal, comment Musk peut-il investir dans sa propre structure ?) Enfin, il semblerait qu’Elon Musk prépare le terrain pour que Tesla prenne aussi une participation dans xAI, bouclant ainsi la ronde du « jeu de la patate chaude » qui circule depuis un moment entre les sociétés liées à Musk…

Source : WCCFTech, Github

Spread the love
Avatar photo
theGeek is here since 2019.