xAI

Grok-4

Grok-4 est un LLM propriétaire de xAI, sorti le 9 juillet 2025 aux États-Unis, avec des poids non ouverts et des connaissances arrêtées au 31 décembre 2024. Son positionnement est celui d’un modèle de très grande échelle: 3000 milliards de paramètres et une fenêtre de contexte de 256 000…

Son entraînement est l’élément le plus marquant de la fiche: 5,0 × 10²⁶ FLOP, soit environ 138,9 millions d’heures-GPU H100, l’équivalent d’environ 64 000 GPU H100 mobilisés pendant trois mois. Le coût estimé atteint ~387,8 millions de dollars (USD 2023), un niveau cohérent avec une ambition de modèle frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Licence	Proprietary (poids non ouverts)
Date de sortie	9 juillet 2025
Connaissances jusqu'à	2024-12-31
Multimodal	oui
Paramètres	3000 milliards
Fenêtre de contexte	256 000 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	87,0 %	25ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	84,0 %	38ᵉ / 111	epoch	✅ Mesuré
LiveBench: Mathematics	83,0 %	30ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	79,1 %	20ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	76,4 %	25ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	73,1 %	32ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	63,4 %	28ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	62,0 %	38ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	47,9 %	20ᵉ / 52	epoch	✅ Mesuré
LiveBench: Agentic Coding	30,0 %	59ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	29,1 %	55ᵉ / 76	livebench	✅ Mesuré
Epoch: Chess Puzzles	28,0 %	16ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	19,7 %	31ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	2,1 %	39ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
AIME 2025	91,7 %	36ᵉ / 108	llm-stats	Auto-déclaré
HMMT25	90,0 %	6ᵉ / 25	llm-stats	Auto-déclaré
GPQA	87,5 %	29ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	79,0 %	13ᵉ / 72	llm-stats	Auto-déclaré
Humanity's Last Exam	40,0 %	29ᵉ / 86	llm-stats	Auto-déclaré
USAMO25	37,5 %	3ᵉ / 3	llm-stats	Auto-déclaré
ARC-AGI v2	15,9 %	13ᵉ / 16	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Grok 4.3 Beta89 %

▶ Grok-487 %

Mistral Medium…60 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Muse Spark89 %

▶ Grok-484 %

Mistral Medium…32 %

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	5,0 × 10²⁶ FLOP
Jeu de données	Unspecified unreleased
Coût d'entraînement estimé	≈ 387 842 678 $ (USD 2023)
Nombre de puces	200 000
Pays	United States of America

Notre analyse

Forces. À sa sortie, Grok-4 se situait dans le top 1% des LLM de sa génération sur Epoch: GPQA diamond, un test de questions scientifiques niveau doctorat, parmi les modèles comparables de la période. Ses meilleurs signaux concernent les tâches scientifiques, mathématiques et de raisonnement: GPQA diamond le place dans le haut du panier, OTIS Mock AIME 2024-2025 confirme une forte tenue sur des problèmes d’olympiades de mathématiques niveau lycée, et LiveBench: Mathematics comme LiveBench: Reasoning restent ses zones les plus solides. La grande fenêtre de contexte renforce aussi son intérêt pour l’analyse de longs documents ou de corpus volumineux, dans la limite des capacités réellement mesurées.

Limites et points d'attention. Grok-4 n’est pas un modèle ouvert: les poids ne sont pas disponibles, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations internes. Ses résultats sont moins dominants en programmation et en compréhension du langage qu’en sciences ou en raisonnement, avec des classements plutôt intermédiaires sur LiveBench: Coding et LiveBench: Language. Ses connaissances s’arrêtent au 31 décembre 2024, ce qui impose une vigilance sur les sujets postérieurs. Son échelle d’entraînement reste exceptionnelle, mais elle signale aussi un modèle coûteux à produire: environ 138,9 millions d’heures-GPU H100 et ~387,8 millions de dollars estimés.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Grok-4

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast