Grok 4.20
Grok 4.20 est un LLM de xAI, publié le 31 mars 2026 aux États-Unis. Il se distingue par une très grande fenêtre de contexte de 2 000 000 tokens et par une architecture annoncée à 500 milliards de paramètres, deux marqueurs qui le placent dans la catégorie des modèles conçus pour traiter…
Grok 4.20 est un LLM de xAI, publié le 31 mars 2026 aux États-Unis. Il se distingue par une très grande fenêtre de contexte de 2 000 000 tokens et par une architecture annoncée à 500 milliards de paramètres, deux marqueurs qui le placent dans la catégorie des modèles conçus pour traiter de longs corpus et des dialogues étendus.
Son positionnement est surtout économique : son prix est inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière. La fiche s’appuie sur quatre sources concordantes et couvre un modèle récent, dont les connaissances déclarées s’arrêtent au 1er septembre 2025.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Date de sortie | 31 mars 2026 |
| Connaissances jusqu'à | 2025-09-01 |
| Multimodal | oui |
| Paramètres | 500 milliards |
| Fenêtre de contexte | 2 000 000 tokens (≈ 2,0 M) |
| Modalités (entrée → sortie) | text,image,file → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 37.0 | 37ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| PinchBench : agentique (OpenClaw, 147 tâches) | 80,3 % | 13ᵉ / 52 | pinchbench | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
PinchBench : agentique (OpenClaw, 147 tâches)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| xAI | 1,25 $ | 2,5 $ | 0,2 $ |
| artificialanalysis | 2 $ | 6 $ | 1,1 $ |
| artificialanalysis | 2 $ | 6 $ | 0,2 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 22,47 $ |
| Durée d'exécution — PinchBench | 3 h 25 min |
| Indice valeur/coût — PinchBench | 5,26 |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | United States of America |
Notre analyse
Forces. Grok 4.20 obtient son meilleur signal public sur PinchBench, un benchmark agentique fondé sur OpenClaw et 147 tâches : son classement le situe dans le top quartile des modèles évalués, ce qui indique une bonne capacité à enchaîner des actions et à résoudre des scénarios orientés agent. Son Intelligence Index le place dans la partie haute du panel mesuré, sans atteindre le tout premier groupe. La fenêtre de contexte de 2 000 000 tokens constitue aussi un atout concret pour l’analyse de très grands volumes de texte, la synthèse de dossiers longs ou le suivi de conversations prolongées. Son tarif renforce ce positionnement : Grok 4.20 est classé économique, avec un prix nettement inférieur aux LLM comparables et environ 3,9 fois moins élevé que les modèles frontière.
Limites et points d’attention. Les connaissances déclarées s’arrêtent au 2025-09-01, ce qui impose une vigilance sur les sujets postérieurs à cette date. Malgré un bon résultat agentique, l’Intelligence Index ne le place pas parmi les tout premiers modèles du classement global, ce qui suggère un positionnement performant mais non dominant. Les données disponibles ne documentent pas ici de résultats spécialisés en code, mathématiques avancées ou raisonnement scientifique, ce qui limite l’évaluation fine hors PinchBench. Grok 4.20 convient surtout aux cas où un grand contexte, un coût maîtrisé et des capacités agentiques solides priment sur l’accès au niveau maximal des modèles haut de gamme.
Sources des données : OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).