xAI

xAI: Grok Build 0.1

xAI: Grok Build 0.1 est un LLM de xAI sorti le 20 mai 2026, avec une fenêtre de contexte de 256 000 tokens. Son positionnement combine grand contexte, prix très bas et résultats Benchable particulièrement forts sur les hallucinations et l’éthique.

À sa sortie, il se situe dans le top 36% des LLM de sa génération sur LiveBench: Global average. Son tarif le place dans la catégorie très économique, sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Date de sortie	20 mai 2026
Multimodal	oui
Fenêtre de contexte	256 000 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	88,9 %	5ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Mathematics	78,4 %	42ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	76,4 %	26ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	72,5 %	37ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	70,8 %	17ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	68,9 %	28ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	65,4 %	63ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	65,2 %	17ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	60,0 %	142ᵉ / 252	benchable	✅ Mesuré
LiveBench: Agentic Coding	53,3 %	20ᵉ / 76	livebench	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Grok Build 0.1100 %

Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Grok Build 0.1100 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
xAI (ZDR)	1 $	2 $	0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 49 % en dessous de la moyenne des LLM similaires, et 4,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	20,58 $
Durée d'exécution — PinchBench	3 h 40 min
Indice valeur/coût — PinchBench	4,84
Coût moyen par benchmark — Benchable	0,36 $
Latence moyenne par benchmark — Benchable	14 min 10 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. xAI: Grok Build 0.1 se distingue d’abord par ses résultats Benchable sur Hallucinations (Baseline) et Ethics (Baseline), où il atteint le tout premier rang des classements fournis. Ses scores restent élevés en Email Classification (Baseline), Reasoning (Baseline) et Coding (Baseline), ce qui indique un profil polyvalent plutôt qu’un modèle spécialisé sur une seule tâche. La fenêtre de contexte de 256 000 tokens renforce son intérêt pour l’analyse de documents longs, les bases de connaissances étendues et les échanges prolongés. Le prix constitue un autre point fort concret: l’entrée à 1 $ par million de tokens et la sortie à 2 $ par million de tokens placent le modèle 49% sous la moyenne des LLM similaires, avec un écart d’environ 4,8 fois face aux modèles frontière.

Limites et points d'attention. Malgré ses très bons résultats sur certains tests Benchable, son classement LiveBench: Global average le situe dans le haut intermédiaire de sa génération, pas parmi les tout premiers modèles de sa période. General Knowledge (Baseline) apparaît aussi moins dominant que ses meilleurs axes, avec un rang de milieu de tableau par rapport aux autres modèles évalués. Les données disponibles reposent sur 4 sources concordantes, ce qui donne un socle de comparaison, sans fournir d’informations sur l’entraînement ou l’architecture. Le modèle paraît surtout pertinent pour des usages où le coût, le grand contexte et la réduction des hallucinations comptent davantage qu’un leadership global absolu.

Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

xAI: Grok Build 0.1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast