Grok 4.3
Grok 4.3 est un LLM propriétaire de xAI, sorti le 6 mai 2026, positionné sur un compromis entre grand contexte, coût contenu et résultats solides sur plusieurs évaluations généralistes. Sa fenêtre de contexte de 1 000 000 tokens le place dans la catégorie des modèles capables de traiter…
Grok 4.3 est un LLM propriétaire de xAI, sorti le 6 mai 2026, positionné sur un compromis entre grand contexte, coût contenu et résultats solides sur plusieurs évaluations généralistes. Sa fenêtre de contexte de 1 000 000 tokens le place dans la catégorie des modèles capables de traiter de très longs documents, corpus ou historiques de conversation.
À sa sortie, Grok 4.3 se situait dans le top 42% des LLM de sa génération sur LiveBench: Global average. Son positionnement tarifaire est économique, avec un prix inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 6 mai 2026 |
| Multimodal | non |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 36.0 | 41ᵉ / 136 |
| Code Index | 42.2 | 32ᵉ / 50 |
| Agentic Index | 24.1 | 24ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 11ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 84,3 % | 23ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 78,0 % | 55ᵉ / 252 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 73,7 % | 22ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Language | 73,6 % | 35ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 70,8 % | 35ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 69,9 % | 45ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 66,7 % | 33ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 62,7 % | 25ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 55,8 % | 39ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 50,0 % | 30ᵉ / 76 | livebench | ✅ Mesuré |
| Finance Agent v2 | 37,7 % | 18ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 36,7 % | 25ᵉ / 33 | llm-stats | n.d. |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1443 | 59ᵉ |
| Arena Image-to-Code | 1396 | 20ᵉ |
| Arena Code | 1364 | 56ᵉ |
| Arena Vision | 1248 | 29ᵉ |
| Arena Search | 1165 | 20ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| xai | 1,25 $ | 2,5 $ | n.d. |
| xAI | 1,25 $ | 2,5 $ | 0,2 $ |
| artificialanalysis | 1,25 $ | 2,5 $ | 0,2 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 15,45 $ |
| Durée d'exécution — PinchBench | 3 h 19 min |
| Indice valeur/coût — PinchBench | 6,54 |
| Coût moyen par benchmark — Benchable | 0,38 $ |
| Latence moyenne par benchmark — Benchable | 28 min 41 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Grok 4.3 se distingue surtout par ses résultats Benchable très élevés sur des tâches de fiabilité et de compréhension générale. Les évaluations Hallucinations, General Knowledge, Email Classification et Ethics le placent dans le top 10, avec des scores maximaux, ce qui indique un profil robuste pour la réponse factuelle, le tri de contenus et les scénarios où la cohérence comportementale compte. Le modèle reste également compétitif en Coding et Reasoning, même si ces catégories sont moins dominantes. Sa fenêtre de contexte de 1,0 M tokens constitue un atout concret pour l’analyse de longs volumes de texte. Côté prix, Grok 4.3 est 36% moins cher que la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière, ce qui renforce son intérêt pour des usages à fort volume.
Limites et points d'attention. Les classements agrégés nuancent les meilleurs résultats Benchable : l’Intelligence Index situe Grok 4.3 plutôt en milieu de tableau, tandis que le Code Index et l’Agentic Index montrent un modèle correct sans domination nette sur le code ou les comportements agentiques. Les résultats Arena restent aussi intermédiaires en texte et en code, avec une meilleure position relative en image-to-code. Sa licence propriétaire limite l’audit indépendant, l’adaptation locale et l’hébergement sur infrastructure contrôlée, puisque les poids ne sont pas ouverts. Grok 4.3 apparaît surtout pertinent pour des traitements généralistes à grand contexte, des classifications, de la rédaction assistée et des charges où le coût par token pèse fortement dans le choix du modèle.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).