Grok 4.20

Grok 4.20 est un LLM de xAI, publié le 31 mars 2026 aux États-Unis. Il se distingue par une très grande fenêtre de contexte de 2 000 000 tokens et par une architecture annoncée à 500 milliards de paramètres, deux marqueurs qui le placent dans la catégorie des modèles conçus pour traiter…

Grok 4.20 est un LLM de xAI, publié le 31 mars 2026 aux États-Unis. Il se distingue par une très grande fenêtre de contexte de 2 000 000 tokens et par une architecture annoncée à 500 milliards de paramètres, deux marqueurs qui le placent dans la catégorie des modèles conçus pour traiter de longs corpus et des dialogues étendus.

Son positionnement est surtout économique : son prix est inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière. La fiche s’appuie sur quatre sources concordantes et couvre un modèle récent, dont les connaissances déclarées s’arrêtent au 1er septembre 2025.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
Date de sortie31 mars 2026
Connaissances jusqu'à2025-09-01
Multimodaloui
Paramètres500 milliards
Fenêtre de contexte2 000 000 tokens (≈ 2,0 M)
Modalités (entrée → sortie)text,image,file → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index37.037ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
PinchBench : agentique (OpenClaw, 147 tâches)80,3 %13ᵉ / 52pinchbench✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nemotron 3 Ultra 550B A…37.8
▶ Grok 4.2037.0
Mistral Medium 3.529.9

PinchBench : agentique (OpenClaw, 147 tâches)

Qwen3.7 Max93 %
Nemotron 3 Ultra90 %
▶ Grok 4.2080 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
xAI1,25 $2,5 $0,2 $
artificialanalysis2 $6 $1,1 $
artificialanalysis2 $6 $0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)22,47 $
Durée d'exécution — PinchBench3 h 25 min
Indice valeur/coût — PinchBench5,26

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysUnited States of America

Notre analyse

Forces. Grok 4.20 obtient son meilleur signal public sur PinchBench, un benchmark agentique fondé sur OpenClaw et 147 tâches : son classement le situe dans le top quartile des modèles évalués, ce qui indique une bonne capacité à enchaîner des actions et à résoudre des scénarios orientés agent. Son Intelligence Index le place dans la partie haute du panel mesuré, sans atteindre le tout premier groupe. La fenêtre de contexte de 2 000 000 tokens constitue aussi un atout concret pour l’analyse de très grands volumes de texte, la synthèse de dossiers longs ou le suivi de conversations prolongées. Son tarif renforce ce positionnement : Grok 4.20 est classé économique, avec un prix nettement inférieur aux LLM comparables et environ 3,9 fois moins élevé que les modèles frontière.

Limites et points d’attention. Les connaissances déclarées s’arrêtent au 2025-09-01, ce qui impose une vigilance sur les sujets postérieurs à cette date. Malgré un bon résultat agentique, l’Intelligence Index ne le place pas parmi les tout premiers modèles du classement global, ce qui suggère un positionnement performant mais non dominant. Les données disponibles ne documentent pas ici de résultats spécialisés en code, mathématiques avancées ou raisonnement scientifique, ce qui limite l’évaluation fine hors PinchBench. Grok 4.20 convient surtout aux cas où un grand contexte, un coût maîtrisé et des capacités agentiques solides priment sur l’accès au niveau maximal des modèles haut de gamme.


Sources des données : OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).