Grok 4.3

Grok 4.3 est un LLM propriétaire de xAI, sorti le 6 mai 2026, positionné sur un compromis entre grand contexte, coût contenu et résultats solides sur plusieurs évaluations généralistes. Sa fenêtre de contexte de 1 000 000 tokens le place dans la catégorie des modèles capables de traiter…

Grok 4.3 est un LLM propriétaire de xAI, sorti le 6 mai 2026, positionné sur un compromis entre grand contexte, coût contenu et résultats solides sur plusieurs évaluations généralistes. Sa fenêtre de contexte de 1 000 000 tokens le place dans la catégorie des modèles capables de traiter de très longs documents, corpus ou historiques de conversation.

À sa sortie, Grok 4.3 se situait dans le top 42% des LLM de sa génération sur LiveBench: Global average. Son positionnement tarifaire est économique, avec un prix inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
LicenceProprietary (poids non ouverts)
Date de sortie6 mai 2026
Multimodalnon
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index36.041ᵉ / 136
Code Index42.232ᵉ / 50
Agentic Index24.124ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
LiveBench: Mathematics84,3 %23ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)78,0 %55ᵉ / 252benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)73,7 %22ᵉ / 52pinchbench✅ Mesuré
LiveBench: Language73,6 %35ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning70,8 %35ᵉ / 76livebench✅ Mesuré
LiveBench: Coding69,9 %45ᵉ / 76livebench✅ Mesuré
LiveBench: Global average66,7 %33ᵉ / 76livebench✅ Mesuré
LiveBench: IF62,7 %25ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis55,8 %39ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding50,0 %30ᵉ / 76livebench✅ Mesuré
Finance Agent v237,7 %18ᵉ / 25llm-statsn.d.
GDPval-AA36,7 %25ᵉ / 33llm-statsn.d.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nemotron 3 Ultra 550B A…37.8
▶ Grok 4.336.0
Mistral Medium 3.529.9

Code Index

Mistral Medium 3.546.9
▶ Grok 4.342.2
Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text144359ᵉ
Arena Image-to-Code139620ᵉ
Arena Code136456ᵉ
Arena Vision124829ᵉ
Arena Search116520ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
xai1,25 $2,5 $n.d.
xAI1,25 $2,5 $0,2 $
artificialanalysis1,25 $2,5 $0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)15,45 $
Durée d'exécution — PinchBench3 h 19 min
Indice valeur/coût — PinchBench6,54
Coût moyen par benchmark — Benchable0,38 $
Latence moyenne par benchmark — Benchable28 min 41 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Grok 4.3 se distingue surtout par ses résultats Benchable très élevés sur des tâches de fiabilité et de compréhension générale. Les évaluations Hallucinations, General Knowledge, Email Classification et Ethics le placent dans le top 10, avec des scores maximaux, ce qui indique un profil robuste pour la réponse factuelle, le tri de contenus et les scénarios où la cohérence comportementale compte. Le modèle reste également compétitif en Coding et Reasoning, même si ces catégories sont moins dominantes. Sa fenêtre de contexte de 1,0 M tokens constitue un atout concret pour l’analyse de longs volumes de texte. Côté prix, Grok 4.3 est 36% moins cher que la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière, ce qui renforce son intérêt pour des usages à fort volume.

Limites et points d'attention. Les classements agrégés nuancent les meilleurs résultats Benchable : l’Intelligence Index situe Grok 4.3 plutôt en milieu de tableau, tandis que le Code Index et l’Agentic Index montrent un modèle correct sans domination nette sur le code ou les comportements agentiques. Les résultats Arena restent aussi intermédiaires en texte et en code, avec une meilleure position relative en image-to-code. Sa licence propriétaire limite l’audit indépendant, l’adaptation locale et l’hébergement sur infrastructure contrôlée, puisque les poids ne sont pas ouverts. Grok 4.3 apparaît surtout pertinent pour des traitements généralistes à grand contexte, des classifications, de la rédaction assistée et des charges où le coût par token pèse fortement dans le choix du modèle.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).