Grok-2

Grok-2 est un LLM propriétaire de xAI, sorti le 13 août 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération passée, à comparer d’abord aux modèles de sa période…

Grok-2 est un LLM propriétaire de xAI, sorti le 13 août 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération passée, à comparer d’abord aux modèles de sa période plutôt qu’aux modèles haut de gamme actuels.

Son lancement s’est appuyé sur un effort d’entraînement massif, estimé à 3,0 × 10²⁵ FLOP, soit environ 8,2 millions d’heures-GPU H100, pour un coût évalué à ~31,6 millions de dollars (USD 2023). À sa sortie, Grok-2 se situait dans le top 7% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques de niveau doctorat.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
LicenceProprietary (poids non ouverts)
Date de sortie13 août 2024
Connaissances jusqu'à2024-05-31
Multimodaloui
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 563,5 %37ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond53,8 %75ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202511,5 %78ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private0,7 %62ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
DocVQA93,6 %9ᵉ / 26llm-statsAuto-déclaré
HumanEval88,4 %20ᵉ / 65llm-statsAuto-déclaré
MMLU87,5 %21ᵉ / 98llm-statsAuto-déclaré
MATH76,1 %26ᵉ / 70llm-statsAuto-déclaré
MMLU-Pro75,5 %68ᵉ / 125llm-statsAuto-déclaré
MathVista69,0 %16ᵉ / 38llm-statsAuto-déclaré
MMMU66,1 %35ᵉ / 61llm-statsAuto-déclaré
GPQA56,0 %147ᵉ / 213llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Grok-264 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Grok-254 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1336194ᵉ
text-to-image898134ᵉ

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement3,0 × 10²⁵ FLOP
Jeu de donnéesUnspecified unreleased
Coût d'entraînement estimé≈ 31 602 311 $ (USD 2023)
MatérielNVIDIA H100 SXM5 80GB
PaysUnited States of America

Notre analyse

Forces. Grok-2 se distingue surtout par son niveau relatif à sa sortie : sur GPQA diamond, il appartenait au haut du panier des LLM publiés dans une fenêtre comparable. Sa fenêtre de contexte de 128 000 tokens était un atout concret pour traiter de longs documents ou maintenir des échanges étendus. Sur MATH level 5, il affichait aussi un résultat solide pour sa génération, indiquant une capacité correcte sur des problèmes mathématiques structurés. Son entraînement, très coûteux et intensif en calcul, reste un marqueur important du positionnement ambitieux de xAI en 2024.

Limites et points d'attention. Grok-2 est aujourd’hui un modèle ancien : ses performances sont largement dépassées par les modèles frontière récents, et il est probablement souvent retiré du catalogue actif de son éditeur. Ses résultats sont faibles sur les benchmarks mathématiques les plus difficiles, notamment FrontierMath, conçu pour des problèmes de recherche, et OTIS Mock AIME, orienté olympiades de mathématiques niveau lycée. Son classement Arena text le place loin des meilleurs modèles conversationnels actuels. Sa base de connaissances s’arrête au 31 mai 2024, et sa licence propriétaire exclut l’accès aux poids, ce qui limite l’audit indépendant et les usages nécessitant un déploiement contrôlé.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.