xAI

Grok 4.3

Grok 4.3 est un LLM propriétaire de xAI, sorti le 6 mai 2026, positionné sur un compromis entre grand contexte, coût contenu et résultats solides sur plusieurs évaluations généralistes. Sa fenêtre de contexte de 1 000 000 tokens le place dans la catégorie des modèles capables de traiter…

À sa sortie, Grok 4.3 se situait dans le top 42% des LLM de sa génération sur LiveBench: Global average. Son positionnement tarifaire est économique, avec un prix inférieur à la moyenne des LLM similaires et nettement sous celui des modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Licence	Proprietary (poids non ouverts)
Date de sortie	6 mai 2026
Multimodal	non
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	36.0	41ᵉ / 136
Code Index	42.2	32ᵉ / 50
Agentic Index	24.1	24ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
LiveBench: Mathematics	84,3 %	23ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	78,0 %	55ᵉ / 252	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	73,7 %	22ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Language	73,6 %	35ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	70,8 %	35ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	69,9 %	45ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	66,7 %	33ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	62,7 %	25ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	55,8 %	39ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	50,0 %	30ᵉ / 76	livebench	✅ Mesuré
Finance Agent v2	37,7 %	18ᵉ / 25	llm-stats	n.d.
GDPval-AA	36,7 %	25ᵉ / 33	llm-stats	n.d.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nemotron 3 Ultra 550B A…37.8

▶ Grok 4.336.0

Mistral Medium 3.529.9

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Mistral Medium 3.546.9

▶ Grok 4.342.2

Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1443	59ᵉ
Arena Image-to-Code	1396	20ᵉ
Arena Code	1364	56ᵉ
Arena Vision	1248	29ᵉ
Arena Search	1165	20ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
xai	1,25 $	2,5 $	n.d.
xAI	1,25 $	2,5 $	0,2 $
artificialanalysis	1,25 $	2,5 $	0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	15,45 $
Durée d'exécution — PinchBench	3 h 19 min
Indice valeur/coût — PinchBench	6,54
Coût moyen par benchmark — Benchable	0,38 $
Latence moyenne par benchmark — Benchable	28 min 41 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Grok 4.3 se distingue surtout par ses résultats Benchable très élevés sur des tâches de fiabilité et de compréhension générale. Les évaluations Hallucinations, General Knowledge, Email Classification et Ethics le placent dans le top 10, avec des scores maximaux, ce qui indique un profil robuste pour la réponse factuelle, le tri de contenus et les scénarios où la cohérence comportementale compte. Le modèle reste également compétitif en Coding et Reasoning, même si ces catégories sont moins dominantes. Sa fenêtre de contexte de 1,0 M tokens constitue un atout concret pour l’analyse de longs volumes de texte. Côté prix, Grok 4.3 est 36% moins cher que la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière, ce qui renforce son intérêt pour des usages à fort volume.

Limites et points d'attention. Les classements agrégés nuancent les meilleurs résultats Benchable : l’Intelligence Index situe Grok 4.3 plutôt en milieu de tableau, tandis que le Code Index et l’Agentic Index montrent un modèle correct sans domination nette sur le code ou les comportements agentiques. Les résultats Arena restent aussi intermédiaires en texte et en code, avec une meilleure position relative en image-to-code. Sa licence propriétaire limite l’audit indépendant, l’adaptation locale et l’hébergement sur infrastructure contrôlée, puisque les poids ne sont pas ouverts. Grok 4.3 apparaît surtout pertinent pour des traitements généralistes à grand contexte, des classifications, de la rédaction assistée et des charges où le coût par token pèse fortement dans le choix du modèle.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Grok 4.3

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast