xAI: Grok 4.20 Beta

xAI: Grok 4.20 Beta est un LLM publié par xAI le 12 mars 2026. Son marqueur technique le plus visible est une fenêtre de contexte de 2 000 000 tokens, soit environ 2,0 M, adaptée au traitement de très longs contenus dans une seule séquence.

xAI: Grok 4.20 Beta est un LLM publié par xAI le 12 mars 2026. Son marqueur technique le plus visible est une fenêtre de contexte de 2 000 000 tokens, soit environ 2,0 M, adaptée au traitement de très longs contenus dans une seule séquence.

À sa sortie, il se situait dans le top 30% des LLM de sa génération sur LiveBench: Global average, parmi 53 modèles comparables sur la même période. Les données disponibles reposent sur 2 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
Date de sortie12 mars 2026
Multimodaloui
Fenêtre de contexte2 000 000 tokens (≈ 2,0 M)
Modalités (entrée → sortie)text,image,file → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
LiveBench: Mathematics87,1 %15ᵉ / 76livebench✅ Mesuré
LiveBench: Language77,7 %19ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning75,3 %29ᵉ / 76livebench✅ Mesuré
LiveBench: Global average68,0 %30ᵉ / 76livebench✅ Mesuré
LiveBench: Coding66,1 %60ᵉ / 76livebench✅ Mesuré
LiveBench: IF63,4 %21ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis62,9 %30ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding43,3 %41ᵉ / 76livebench✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Mathematics

▶ Grok 4.20 Beta87 %
Qwen3.7 Max85 %

LiveBench: Language

▶ Grok 4.20 Beta78 %
Nemotron 3 Ultra52 %

Notre analyse

Forces. xAI: Grok 4.20 Beta affiche son meilleur profil sur LiveBench: Mathematics (mathématiques), où il se place nettement mieux que sur ses autres axes d’évaluation. LiveBench: Language (compréhension du langage) et LiveBench: IF (suivi d’instructions) indiquent aussi un niveau solide, avec des classements situés dans la partie haute du panel évalué. À sa sortie, son score global le plaçait dans le haut de sa génération, sans atteindre le tout premier groupe des modèles évalués. Sa très grande fenêtre de contexte constitue un atout distinctif pour les tâches impliquant des corpus longs, des documents volumineux ou des échanges étendus.

Limites et points d'attention. Le point faible le plus net apparaît sur LiveBench: Coding (programmation), où le modèle descend loin dans le classement. LiveBench: Reasoning (raisonnement) et LiveBench: Global average le situent plutôt en milieu de tableau à l’échelle complète des 76 modèles, ce qui limite son positionnement comme modèle généraliste de tout premier plan. La mention Beta signale aussi une version à considérer avec prudence dans les usages critiques. Son profil convient surtout aux tâches longues orientées langage, mathématiques et suivi d’instructions, moins aux besoins centrés sur le code.


Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai).