Grok-2
Grok-2 est un LLM propriétaire de xAI, sorti le 13 août 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération passée, à comparer d’abord aux modèles de sa période…
Grok-2 est un LLM propriétaire de xAI, sorti le 13 août 2024, avec des poids non ouverts et une fenêtre de contexte de 128 000 tokens. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération passée, à comparer d’abord aux modèles de sa période plutôt qu’aux modèles haut de gamme actuels.
Son lancement s’est appuyé sur un effort d’entraînement massif, estimé à 3,0 × 10²⁵ FLOP, soit environ 8,2 millions d’heures-GPU H100, pour un coût évalué à ~31,6 millions de dollars (USD 2023). À sa sortie, Grok-2 se situait dans le top 7% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques de niveau doctorat.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 13 août 2024 |
| Connaissances jusqu'à | 2024-05-31 |
| Multimodal | oui |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 63,5 % | 37ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 53,8 % | 75ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 11,5 % | 78ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 0,7 % | 62ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| DocVQA | 93,6 % | 9ᵉ / 26 | llm-stats | Auto-déclaré |
| HumanEval | 88,4 % | 20ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU | 87,5 % | 21ᵉ / 98 | llm-stats | Auto-déclaré |
| MATH | 76,1 % | 26ᵉ / 70 | llm-stats | Auto-déclaré |
| MMLU-Pro | 75,5 % | 68ᵉ / 125 | llm-stats | Auto-déclaré |
| MathVista | 69,0 % | 16ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 66,1 % | 35ᵉ / 61 | llm-stats | Auto-déclaré |
| GPQA | 56,0 % | 147ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: MATH level 5
Epoch: GPQA diamond
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1336 | 194ᵉ |
| text-to-image | 898 | 134ᵉ |
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 3,0 × 10²⁵ FLOP |
| Jeu de données | Unspecified unreleased |
| Coût d'entraînement estimé | ≈ 31 602 311 $ (USD 2023) |
| Matériel | NVIDIA H100 SXM5 80GB |
| Pays | United States of America |
Notre analyse
Forces. Grok-2 se distingue surtout par son niveau relatif à sa sortie : sur GPQA diamond, il appartenait au haut du panier des LLM publiés dans une fenêtre comparable. Sa fenêtre de contexte de 128 000 tokens était un atout concret pour traiter de longs documents ou maintenir des échanges étendus. Sur MATH level 5, il affichait aussi un résultat solide pour sa génération, indiquant une capacité correcte sur des problèmes mathématiques structurés. Son entraînement, très coûteux et intensif en calcul, reste un marqueur important du positionnement ambitieux de xAI en 2024.
Limites et points d'attention. Grok-2 est aujourd’hui un modèle ancien : ses performances sont largement dépassées par les modèles frontière récents, et il est probablement souvent retiré du catalogue actif de son éditeur. Ses résultats sont faibles sur les benchmarks mathématiques les plus difficiles, notamment FrontierMath, conçu pour des problèmes de recherche, et OTIS Mock AIME, orienté olympiades de mathématiques niveau lycée. Son classement Arena text le place loin des meilleurs modèles conversationnels actuels. Sa base de connaissances s’arrête au 31 mai 2024, et sa licence propriétaire exclut l’accès aux poids, ce qui limite l’audit indépendant et les usages nécessitant un déploiement contrôlé.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.