Grok 4 : le nouveau modèle d’xAI affiche un résultat étonnamment faible lors d’un test !

Flash infos Infos Tech Tech actus 07/14/2025

0 19 Views

ACTUALITÉS TECH – xAI Grok 4 semble avoir été optimisé pour briller dans les benchmarks classiques d’IA, mais il peine lorsqu’il s’agit de défis dynamiques ou stratégiques. Grok 4 vient de finir cinquième au benchmark multi-agents Step Race, basé sur les puzzles Connections du New York Times pour évaluer les IA sur leur capacité à réfléchir et élaborer une stratégie. Même Gemini 2.5 Flash a fait mieux que Grok 4 !

Face aux scores élevés de Grok 4 sur différents benchmarks standardisés, on pourrait croire que le modèle a été « surentraîné » pour les réussir, au point de mémoriser les données plutôt que d’en tirer de vrais schémas pertinents. Cela ne signifie pas que Grok 4 soit inutile. Au contraire, ses capacités de raisonnement se sont nettement améliorées. Il surpasse quasiment tous les autres modèles pour détecter les erreurs de code. Beaucoup utilisent ce grand modèle de langage (LLM) pour créer des scripts de jeu qu’ils intègrent ensuite dans Cursor. Néanmoins, Grok 4 reste en dessous de l’image que veut donner Elon Musk. Sur la plateforme de paris Kakshi, le modèle n’attire d’ailleurs pour l’instant que des mises moyennes.

Grok 4 takes fifth place on the Multi-Agent Step Race Benchmark: Collaboration and Deception Under Pressure (TrueSkill score: 7.9). o3 remains in first place with 9.4. pic.twitter.com/mmGmWM23h1

— Lech Mazur (@LechMazur) July 12, 2025

More info about this benchmark:https://t.co/fMT0EYLHu0 https://t.co/T0VrBzLwIc

My benchmarks so far show very solid improvements in reasoning (see the NYT Connections results) but little improvement in other areas (see the Creative Writing results). More are in progress. pic.twitter.com/rHRnqmAzsX

— Lech Mazur (@LechMazur) July 13, 2025

Parallèlement, le Financial Times a récemment révélé que xAI, désormais maison-mère de Twitter, viserait une valorisation de 200 milliards de dollars lors de la prochaine levée de fonds. xAI a levé 300 millions de dollars en juin via une émission secondaire d’actions, puis 10 milliards début juillet. D’après les rumeurs, SpaceX investirait à son tour 2 milliards dans xAI, puisés dans une récente levée de 5 milliards. (D’un point de vue légal, comment Musk peut-il investir dans sa propre structure ?) Enfin, il semblerait qu’Elon Musk prépare le terrain pour que Tesla prenne aussi une participation dans xAI, bouclant ainsi la ronde du « jeu de la patate chaude » qui circule depuis un moment entre les sociétés liées à Musk…

Source : WCCFTech, Github

Grok 4 Heavy is better than any model available at identifying issues in your codebase. Here’s the JS prompt I use with my game code to have Grok 4 Heavy find the bugs.

Python prompt in Comments👇 pic.twitter.com/HFpW1hGvMM

— Tetsuo (@tetsuoai) July 13, 2025

I took Grok 4 for a spin this weekend to build this game prototype.

I used SuperGrok Chat to generate the initial game prototype and then brought it over to Cursor to continue coding with Grok 4 MAX.

Grok 4 in Cursor is like a no-nonsense agent. Doesn’t speak much, but… pic.twitter.com/wyib2vRvsd

— Danny Limanseta (@DannyLimanseta) July 13, 2025

Spread the love