Grok-4.20 Beta
Grok-4.20 Beta est un LLM propriétaire de xAI, publié le 9 mars 2026, avec des poids non ouverts. Sa caractéristique la plus visible est sa très grande fenêtre de contexte, portée à 2 000 000 tokens, un format pensé pour traiter de longs volumes de texte ou de documents dans une même…
Grok-4.20 Beta est un LLM propriétaire de xAI, publié le 9 mars 2026, avec des poids non ouverts. Sa caractéristique la plus visible est sa très grande fenêtre de contexte, portée à 2 000 000 tokens, un format pensé pour traiter de longs volumes de texte ou de documents dans une même requête.
Les mesures disponibles, issues de 3 sources de données concordantes, dessinent un profil contrasté. À sa sortie, Grok-4.20 Beta se situait dans le top 94% des LLM de sa génération sur LiveBench: Global average, mais ses meilleurs signaux viennent plutôt des évaluations Arena en texte et en document.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 9 mars 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 2 000 000 tokens (≈ 2,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| LiveBench: Coding | 58,5 % | 72ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 45,5 % | 74ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 43,5 % | 68ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 42,0 % | 74ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 39,7 % | 72ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 38,3 % | 48ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 25,6 % | 75ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 24,4 % | 63ᵉ / 76 | livebench | ✅ Mesuré |
| Finance Agent v2 | 28,5 % | 24ᵉ / 25 | llm-stats | n.d. |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
LiveBench: Coding
LiveBench: Mathematics
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1476 | 15ᵉ |
| Arena Document | 1410 | 25ᵉ |
| Arena Code | 1385 | 50ᵉ |
| Arena Vision | 1252 | 25ᵉ |
Notre analyse
Forces. Grok-4.20 Beta se distingue d’abord par son contexte de 2 000 000 tokens, qui en fait un modèle adapté aux entrées longues lorsque l’enjeu principal est de conserver beaucoup d’information dans une même session. Son meilleur résultat relatif apparaît sur Arena text, où il se place nettement mieux que sur les tests LiveBench, signe d’une compétitivité plus marquée dans les préférences humaines générales en génération et interaction textuelle. Arena document confirme aussi un positionnement plus solide sur les usages liés aux documents que sur les tâches techniques pures. LiveBench: Agentic Coding ressort comme son domaine LiveBench le moins défavorable, même s’il reste loin du haut de tableau.
Limites et points d'attention. Les résultats LiveBench placent Grok-4.20 Beta dans le bas du classement global, avec des faiblesses nettes en programmation, mathématiques, analyse de données et compréhension du langage. Le contraste entre Arena et LiveBench suggère un modèle plus convaincant en appréciation textuelle comparative qu’en résolution vérifiable de tâches techniques. La licence propriétaire limite aussi l’audit direct des poids et les usages nécessitant un modèle ouvert. Son intérêt principal concerne les scénarios où une très longue fenêtre de contexte prime sur la performance de pointe en raisonnement, code ou analyse quantitative.
Sources des données : LLM-Stats (llm-stats.com) · LiveBench (livebench.ai) · Arena.ai (arena.ai).