Grok-4
Grok-4 est un LLM propriétaire de xAI, sorti le 9 juillet 2025 aux États-Unis, avec des poids non ouverts et des connaissances arrêtées au 31 décembre 2024. Son positionnement est celui d’un modèle de très grande échelle: 3000 milliards de paramètres et une fenêtre de contexte de 256 000…
Grok-4 est un LLM propriétaire de xAI, sorti le 9 juillet 2025 aux États-Unis, avec des poids non ouverts et des connaissances arrêtées au 31 décembre 2024. Son positionnement est celui d’un modèle de très grande échelle: 3000 milliards de paramètres et une fenêtre de contexte de 256 000 tokens.
Son entraînement est l’élément le plus marquant de la fiche: 5,0 × 10²⁶ FLOP, soit environ 138,9 millions d’heures-GPU H100, l’équivalent d’environ 64 000 GPU H100 mobilisés pendant trois mois. Le coût estimé atteint ~387,8 millions de dollars (USD 2023), un niveau cohérent avec une ambition de modèle frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 9 juillet 2025 |
| Connaissances jusqu'à | 2024-12-31 |
| Multimodal | oui |
| Paramètres | 3000 milliards |
| Fenêtre de contexte | 256 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 87,0 % | 25ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 84,0 % | 38ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 83,0 % | 30ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 79,1 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 76,4 % | 25ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 73,1 % | 32ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 63,4 % | 28ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 62,0 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 47,9 % | 20ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 30,0 % | 59ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 29,1 % | 55ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: Chess Puzzles | 28,0 % | 16ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 19,7 % | 31ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 2,1 % | 39ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2025 | 91,7 % | 36ᵉ / 108 | llm-stats | Auto-déclaré |
| HMMT25 | 90,0 % | 6ᵉ / 25 | llm-stats | Auto-déclaré |
| GPQA | 87,5 % | 29ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 79,0 % | 13ᵉ / 72 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 40,0 % | 29ᵉ / 86 | llm-stats | Auto-déclaré |
| USAMO25 | 37,5 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 15,9 % | 13ᵉ / 16 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: OTIS Mock AIME 2024-2025
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 5,0 × 10²⁶ FLOP |
| Jeu de données | Unspecified unreleased |
| Coût d'entraînement estimé | ≈ 387 842 678 $ (USD 2023) |
| Nombre de puces | 200 000 |
| Pays | United States of America |
Notre analyse
Forces. À sa sortie, Grok-4 se situait dans le top 1% des LLM de sa génération sur Epoch: GPQA diamond, un test de questions scientifiques niveau doctorat, parmi les modèles comparables de la période. Ses meilleurs signaux concernent les tâches scientifiques, mathématiques et de raisonnement: GPQA diamond le place dans le haut du panier, OTIS Mock AIME 2024-2025 confirme une forte tenue sur des problèmes d’olympiades de mathématiques niveau lycée, et LiveBench: Mathematics comme LiveBench: Reasoning restent ses zones les plus solides. La grande fenêtre de contexte renforce aussi son intérêt pour l’analyse de longs documents ou de corpus volumineux, dans la limite des capacités réellement mesurées.
Limites et points d'attention. Grok-4 n’est pas un modèle ouvert: les poids ne sont pas disponibles, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations internes. Ses résultats sont moins dominants en programmation et en compréhension du langage qu’en sciences ou en raisonnement, avec des classements plutôt intermédiaires sur LiveBench: Coding et LiveBench: Language. Ses connaissances s’arrêtent au 31 décembre 2024, ce qui impose une vigilance sur les sujets postérieurs. Son échelle d’entraînement reste exceptionnelle, mais elle signale aussi un modèle coûteux à produire: environ 138,9 millions d’heures-GPU H100 et ~387,8 millions de dollars estimés.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · Epoch AI (epoch.ai), CC-BY-4.0.