xAI

Grok-4.20 Beta

Grok-4.20 Beta est un LLM propriétaire de xAI, publié le 9 mars 2026, avec des poids non ouverts. Sa caractéristique la plus visible est sa très grande fenêtre de contexte, portée à 2 000 000 tokens, un format pensé pour traiter de longs volumes de texte ou de documents dans une même…

Les mesures disponibles, issues de 3 sources de données concordantes, dessinent un profil contrasté. À sa sortie, Grok-4.20 Beta se situait dans le top 94% des LLM de sa génération sur LiveBench: Global average, mais ses meilleurs signaux viennent plutôt des évaluations Arena en texte et en document.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Licence	Proprietary (poids non ouverts)
Date de sortie	9 mars 2026
Multimodal	oui
Fenêtre de contexte	2 000 000 tokens (≈ 2,0 M)
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
LiveBench: Coding	58,5 %	72ᵉ / 76	livebench	✅ Mesuré
LiveBench: Mathematics	45,5 %	74ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	43,5 %	68ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	42,0 %	74ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	39,7 %	72ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	38,3 %	48ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	25,6 %	75ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	24,4 %	63ᵉ / 76	livebench	✅ Mesuré
Finance Agent v2	28,5 %	24ᵉ / 25	llm-stats	n.d.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Coding

GPT-5.2 Codex84 %

Claude Opus 4.782 %

Gemini 3.5 Flash78 %

Devstral 267 %

▶ Grok-4.20 Beta59 %

LiveBench: Mathematics

GPT-5.596 %

Claude Opus 4.895 %

Gemini 3.1 Pro Preview91 %

Devstral 253 %

▶ Grok-4.20 Beta46 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1476	15ᵉ
Arena Document	1410	25ᵉ
Arena Code	1385	50ᵉ
Arena Vision	1252	25ᵉ

Notre analyse

Forces. Grok-4.20 Beta se distingue d’abord par son contexte de 2 000 000 tokens, qui en fait un modèle adapté aux entrées longues lorsque l’enjeu principal est de conserver beaucoup d’information dans une même session. Son meilleur résultat relatif apparaît sur Arena text, où il se place nettement mieux que sur les tests LiveBench, signe d’une compétitivité plus marquée dans les préférences humaines générales en génération et interaction textuelle. Arena document confirme aussi un positionnement plus solide sur les usages liés aux documents que sur les tâches techniques pures. LiveBench: Agentic Coding ressort comme son domaine LiveBench le moins défavorable, même s’il reste loin du haut de tableau.

Limites et points d'attention. Les résultats LiveBench placent Grok-4.20 Beta dans le bas du classement global, avec des faiblesses nettes en programmation, mathématiques, analyse de données et compréhension du langage. Le contraste entre Arena et LiveBench suggère un modèle plus convaincant en appréciation textuelle comparative qu’en résolution vérifiable de tâches techniques. La licence propriétaire limite aussi l’audit direct des poids et les usages nécessitant un modèle ouvert. Son intérêt principal concerne les scénarios où une très longue fenêtre de contexte prime sur la performance de pointe en raisonnement, code ou analyse quantitative.

Sources des données : LLM-Stats (llm-stats.com) · LiveBench (livebench.ai) · Arena.ai (arena.ai).

Grok-4.20 Beta

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast