TECH ACTUS – Elon Musk a visé l’hégémonie d’OpenAI en publiant le dernier modèle d’IA Grok 2.
La société d’IA d’Elon Musk, xAI, a finalement publié son modèle d’IA de dernière génération, le Grok 2. xAI, ainsi que la participation de son fondateur Tesla et de X, ont permis à l’entreprise de générer une demande pour ses produits et d’utiliser les ressources informatiques coûteuses nécessaires à la formation des modèles d’IA. L’annonce d’aujourd’hui fait suite aux commentaires d’Elon Musk plus tôt cette année, dans lesquels il a promis de mettre à jour le modèle prochainement.
En plus de Grok, Anthropic Claude soutenu par Amazon, OpenAI ChatGPT soutenu par Microsoft, Meta Llama détenu par Facebook et Google Gemini figurent parmi les principaux produits logiciels d’IA au monde. Tous offrent des fonctionnalités d’IA pour les cas d’utilisation grand public et d’entreprise, et la version Grok 2 couvre les deux.
Grok 2 et Grok 2 Mini d’Elon Musk ont un avantage significatif sur OpenAI GPT 4 et Amazon Claude ?!
La dernière version de Grok de xAI comprend un aperçu préliminaire du Grok 2 et un mini modèle de Grok 2. Les deux seront disponibles pour les utilisateurs sur la plateforme de médias sociaux X de Musk. Le Grok 2 a été testé sur le benchmark AI Large Model Systems Organization (LMSYS) de l’UC Berkley et s’est avéré correspondre presque aux performances du GPT-4o d’OpenAI.
Selon LMSYS, Grok 2 s’est classé deuxième en mathématiques et en codage et troisième en capacité à répondre à des invites difficiles, ce qui lui donne la troisième place au classement général. Grok 2 est précédé par ChatGPT 4.0 et Google Gemini 1.5 Pro.
Selon les propres données de xAI, le Grok 2 est devant le GPT 4 Turbo et légèrement derrière le GPT 4o.
Cependant, même sur la base des données de xAI, OpenAI ChatGPT 4o est le roi des performances de l’IA. Grâce à la note ELO de LMSYS de 1,314. En revanche, la première version Grok 2 de xAI a reçu une note de 1 281, tandis que le Gemini 1.5 Pro a un score moyen de 1 297.
En ce qui concerne les performances du chatbot, le Grok 2 est en retard par rapport au Gemini 1.5 Pro en ce qui concerne le « taux de réussite », qui mesure le pourcentage de réponses jugées meilleures. Il est de 48 % par rapport au produit de Google, et les données de xAI ne montrent aucune donnée similaire pour le modèle ChatGPT 4o d’OpenAI, qui permet aux utilisateurs de télécharger des images et de demander à l’IA de générer des réponses en fonction de celles-ci.
Qu’en est-il de la factualité ?
L’amélioration du réalisme est l’autre domaine clé dans lequel xAI prétend avoir amélioré les performances du Grok 2. Les premiers modèles d’IA ont été critiqués pour leur manque de réalisme, et les « tuteurs d’IA » internes de la société ont attribué aux modèles Grok 2 et Grok 2 mini des notes de réalisme de 62,9 % et 59,6 % respectivement, soit une amélioration significative par rapport aux modèles précédents par rapport au taux d’itération de 50 %.
XAI affirme que Grok 2 possède des capacités avancées de compréhension de texte et de vision, ajoutant que le modèle utilise les données disponibles sur X. Comme d’autres produits d’IA, le Grok 2 mini est destiné à un usage grand public. Il prend en charge des fonctions telles que l’écriture, le codage ou la génération de réponses textuelles.
xAI indique que le Grok 2 et le Grok 2 mini seront disponibles pour les développeurs pour les cas d’utilisation en entreprise de ses produits d’ici la fin du mois. L’API offre des « déploiements d’inférence multirégionaux pour un accès à faible latence dans le monde entier », ainsi qu’une authentification multifacteur obligatoire, des analyses de données pour la facturation, une analyse du trafic et une intégration avec les systèmes commerciaux internes.
Source : X
Woah, another exciting update from Chatbot Arena❤️🔥
The results for @xAI’s sus-column-r (Grok 2 early version) are now public**!
With over 12,000 community votes, sus-column-r has secured the #3 spot on the overall leaderboard, even matching GPT-4o! It excels in Coding (#2),… https://t.co/gqSWSwYN0z pic.twitter.com/j9UYDBYNt4
— lmsys.org (@lmsysorg) August 14, 2024