xAI

xAI: Grok 4.20 Beta

xAI: Grok 4.20 Beta est un LLM publié par xAI le 12 mars 2026. Son marqueur technique le plus visible est une fenêtre de contexte de 2 000 000 tokens, soit environ 2,0 M, adaptée au traitement de très longs contenus dans une seule séquence.

À sa sortie, il se situait dans le top 30% des LLM de sa génération sur LiveBench: Global average, parmi 53 modèles comparables sur la même période. Les données disponibles reposent sur 2 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Date de sortie	12 mars 2026
Multimodal	oui
Fenêtre de contexte	2 000 000 tokens (≈ 2,0 M)
Modalités (entrée → sortie)	text,image,file → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
LiveBench: Mathematics	87,1 %	15ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	77,7 %	19ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	75,3 %	29ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	68,0 %	30ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	66,1 %	60ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	63,4 %	21ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	62,9 %	30ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	43,3 %	41ᵉ / 76	livebench	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Mathematics

GPT-5.596 %

Claude Opus 4.895 %

Gemini 3.1 Pro Preview91 %

DeepSeek V4 Pro91 %

▶ Grok 4.20 Beta87 %

Qwen3.7 Max85 %

LiveBench: Language

Claude Fable 588 %

GPT-5.588 %

Gemini 3.1 Pro Preview85 %

DeepSeek V4 Pro78 %

▶ Grok 4.20 Beta78 %

Nemotron 3 Ultra52 %

Notre analyse

Forces. xAI: Grok 4.20 Beta affiche son meilleur profil sur LiveBench: Mathematics (mathématiques), où il se place nettement mieux que sur ses autres axes d’évaluation. LiveBench: Language (compréhension du langage) et LiveBench: IF (suivi d’instructions) indiquent aussi un niveau solide, avec des classements situés dans la partie haute du panel évalué. À sa sortie, son score global le plaçait dans le haut de sa génération, sans atteindre le tout premier groupe des modèles évalués. Sa très grande fenêtre de contexte constitue un atout distinctif pour les tâches impliquant des corpus longs, des documents volumineux ou des échanges étendus.

Limites et points d'attention. Le point faible le plus net apparaît sur LiveBench: Coding (programmation), où le modèle descend loin dans le classement. LiveBench: Reasoning (raisonnement) et LiveBench: Global average le situent plutôt en milieu de tableau à l’échelle complète des 76 modèles, ce qui limite son positionnement comme modèle généraliste de tout premier plan. La mention Beta signale aussi une version à considérer avec prudence dans les usages critiques. Son profil convient surtout aux tâches longues orientées langage, mathématiques et suivi d’instructions, moins aux besoins centrés sur le code.

Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai).

xAI: Grok 4.20 Beta

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast