xAI

Grok-2

Grok-2 est un LLM propriétaire de xAI, sorti le 13 août 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération passée, à comparer d’abord aux modèles de sa période…

Son lancement s’est appuyé sur un effort d’entraînement massif, estimé à 3,0 × 10²⁵ FLOP, soit environ 8,2 millions d’heures-GPU H100, pour un coût évalué à ~31,6 millions de dollars (USD 2023). À sa sortie, Grok-2 se situait dans le top 7% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques de niveau doctorat.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Licence	Proprietary (poids non ouverts)
Date de sortie	13 août 2024
Connaissances jusqu'à	2024-05-31
Multimodal	oui
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	63,5 %	37ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	53,8 %	75ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	11,5 %	78ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	0,7 %	62ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
DocVQA	93,6 %	9ᵉ / 26	llm-stats	Auto-déclaré
HumanEval	88,4 %	20ᵉ / 65	llm-stats	Auto-déclaré
MMLU	87,5 %	21ᵉ / 98	llm-stats	Auto-déclaré
MATH	76,1 %	26ᵉ / 70	llm-stats	Auto-déclaré
MMLU-Pro	75,5 %	68ᵉ / 125	llm-stats	Auto-déclaré
MathVista	69,0 %	16ᵉ / 38	llm-stats	Auto-déclaré
MMMU	66,1 %	35ᵉ / 61	llm-stats	Auto-déclaré
GPQA	56,0 %	147ᵉ / 213	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Grok-264 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Grok-254 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1336	194ᵉ
text-to-image	898	134ᵉ

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	3,0 × 10²⁵ FLOP
Jeu de données	Unspecified unreleased
Coût d'entraînement estimé	≈ 31 602 311 $ (USD 2023)
Matériel	NVIDIA H100 SXM5 80GB
Pays	United States of America

Notre analyse

Forces. Grok-2 se distingue surtout par son niveau relatif à sa sortie : sur GPQA diamond, il appartenait au haut du panier des LLM publiés dans une fenêtre comparable. Sa fenêtre de contexte de 128 000 tokens était un atout concret pour traiter de longs documents ou maintenir des échanges étendus. Sur MATH level 5, il affichait aussi un résultat solide pour sa génération, indiquant une capacité correcte sur des problèmes mathématiques structurés. Son entraînement, très coûteux et intensif en calcul, reste un marqueur important du positionnement ambitieux de xAI en 2024.

Limites et points d'attention. Grok-2 est aujourd’hui un modèle ancien : ses performances sont largement dépassées par les modèles frontière récents, et il est probablement souvent retiré du catalogue actif de son éditeur. Ses résultats sont faibles sur les benchmarks mathématiques les plus difficiles, notamment FrontierMath, conçu pour des problèmes de recherche, et OTIS Mock AIME, orienté olympiades de mathématiques niveau lycée. Son classement Arena text le place loin des meilleurs modèles conversationnels actuels. Sa base de connaissances s’arrête au 31 mai 2024, et sa licence propriétaire exclut l’accès aux poids, ce qui limite l’audit indépendant et les usages nécessitant un déploiement contrôlé.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Grok-2

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast