Grok-4

Grok-4 est un LLM propriétaire de xAI, sorti le 9 juillet 2025 aux États-Unis, avec des poids non ouverts et des connaissances arrêtées au 31 décembre 2024. Son positionnement est celui d’un modèle de très grande échelle: 3000 milliards de paramètres et une fenêtre de contexte de 256 000…

Grok-4 est un LLM propriétaire de xAI, sorti le 9 juillet 2025 aux États-Unis, avec des poids non ouverts et des connaissances arrêtées au 31 décembre 2024. Son positionnement est celui d’un modèle de très grande échelle: 3000 milliards de paramètres et une fenêtre de contexte de 256 000 tokens.

Son entraînement est l’élément le plus marquant de la fiche: 5,0 × 10²⁶ FLOP, soit environ 138,9 millions d’heures-GPU H100, l’équivalent d’environ 64 000 GPU H100 mobilisés pendant trois mois. Le coût estimé atteint ~387,8 millions de dollars (USD 2023), un niveau cohérent avec une ambition de modèle frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
LicenceProprietary (poids non ouverts)
Date de sortie9 juillet 2025
Connaissances jusqu'à2024-12-31
Multimodaloui
Paramètres3000 milliards
Fenêtre de contexte256 000 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond87,0 %25ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202584,0 %38ᵉ / 111epoch✅ Mesuré
LiveBench: Mathematics83,0 %30ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning79,1 %20ᵉ / 76livebench✅ Mesuré
LiveBench: Language76,4 %25ᵉ / 76livebench✅ Mesuré
LiveBench: Coding73,1 %32ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis63,4 %28ᵉ / 76livebench✅ Mesuré
LiveBench: Global average62,0 %38ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified47,9 %20ᵉ / 52epoch✅ Mesuré
LiveBench: Agentic Coding30,0 %59ᵉ / 76livebench✅ Mesuré
LiveBench: IF29,1 %55ᵉ / 76livebench✅ Mesuré
Epoch: Chess Puzzles28,0 %16ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private19,7 %31ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private2,1 %39ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
AIME 202591,7 %36ᵉ / 108llm-statsAuto-déclaré
HMMT2590,0 %6ᵉ / 25llm-statsAuto-déclaré
GPQA87,5 %29ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench79,0 %13ᵉ / 72llm-statsAuto-déclaré
Humanity's Last Exam40,0 %29ᵉ / 86llm-statsAuto-déclaré
USAMO2537,5 %3ᵉ / 3llm-statsAuto-déclaré
ARC-AGI v215,9 %13ᵉ / 16llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Grok 4.3 Beta89 %
▶ Grok-487 %
Mistral Medium…60 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
Muse Spark89 %
▶ Grok-484 %
Mistral Medium…32 %

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement5,0 × 10²⁶ FLOP
Jeu de donnéesUnspecified unreleased
Coût d'entraînement estimé≈ 387 842 678 $ (USD 2023)
Nombre de puces200 000
PaysUnited States of America

Notre analyse

Forces. À sa sortie, Grok-4 se situait dans le top 1% des LLM de sa génération sur Epoch: GPQA diamond, un test de questions scientifiques niveau doctorat, parmi les modèles comparables de la période. Ses meilleurs signaux concernent les tâches scientifiques, mathématiques et de raisonnement: GPQA diamond le place dans le haut du panier, OTIS Mock AIME 2024-2025 confirme une forte tenue sur des problèmes d’olympiades de mathématiques niveau lycée, et LiveBench: Mathematics comme LiveBench: Reasoning restent ses zones les plus solides. La grande fenêtre de contexte renforce aussi son intérêt pour l’analyse de longs documents ou de corpus volumineux, dans la limite des capacités réellement mesurées.

Limites et points d'attention. Grok-4 n’est pas un modèle ouvert: les poids ne sont pas disponibles, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations internes. Ses résultats sont moins dominants en programmation et en compréhension du langage qu’en sciences ou en raisonnement, avec des classements plutôt intermédiaires sur LiveBench: Coding et LiveBench: Language. Ses connaissances s’arrêtent au 31 décembre 2024, ce qui impose une vigilance sur les sujets postérieurs. Son échelle d’entraînement reste exceptionnelle, mais elle signale aussi un modèle coûteux à produire: environ 138,9 millions d’heures-GPU H100 et ~387,8 millions de dollars estimés.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Epoch AI (epoch.ai), CC-BY-4.0.