xAI: Grok Build 0.1

xAI: Grok Build 0.1 est un LLM de xAI sorti le 20 mai 2026, avec une fenêtre de contexte de 256 000 tokens. Son positionnement combine grand contexte, prix très bas et résultats Benchable particulièrement forts sur les hallucinations et l’éthique.

xAI: Grok Build 0.1 est un LLM de xAI sorti le 20 mai 2026, avec une fenêtre de contexte de 256 000 tokens. Son positionnement combine grand contexte, prix très bas et résultats Benchable particulièrement forts sur les hallucinations et l’éthique.

À sa sortie, il se situe dans le top 36% des LLM de sa génération sur LiveBench: Global average. Son tarif le place dans la catégorie très économique, sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
Date de sortie20 mai 2026
Multimodaloui
Fenêtre de contexte256 000 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)88,9 %5ᵉ / 52pinchbench✅ Mesuré
LiveBench: Mathematics78,4 %42ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning76,4 %26ᵉ / 76livebench✅ Mesuré
LiveBench: Language72,5 %37ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis70,8 %17ᵉ / 76livebench✅ Mesuré
LiveBench: Global average68,9 %28ᵉ / 76livebench✅ Mesuré
LiveBench: Coding65,4 %63ᵉ / 76livebench✅ Mesuré
LiveBench: IF65,2 %17ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)60,0 %142ᵉ / 252benchable✅ Mesuré
LiveBench: Agentic Coding53,3 %20ᵉ / 76livebench✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ Grok Build 0.1100 %
Nemotron Nano 9B v298 %

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Grok Build 0.1100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
xAI (ZDR)1 $2 $0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 49 % en dessous de la moyenne des LLM similaires, et 4,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)20,58 $
Durée d'exécution — PinchBench3 h 40 min
Indice valeur/coût — PinchBench4,84
Coût moyen par benchmark — Benchable0,36 $
Latence moyenne par benchmark — Benchable14 min 10 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. xAI: Grok Build 0.1 se distingue d’abord par ses résultats Benchable sur Hallucinations (Baseline) et Ethics (Baseline), où il atteint le tout premier rang des classements fournis. Ses scores restent élevés en Email Classification (Baseline), Reasoning (Baseline) et Coding (Baseline), ce qui indique un profil polyvalent plutôt qu’un modèle spécialisé sur une seule tâche. La fenêtre de contexte de 256 000 tokens renforce son intérêt pour l’analyse de documents longs, les bases de connaissances étendues et les échanges prolongés. Le prix constitue un autre point fort concret: l’entrée à 1 $ par million de tokens et la sortie à 2 $ par million de tokens placent le modèle 49% sous la moyenne des LLM similaires, avec un écart d’environ 4,8 fois face aux modèles frontière.

Limites et points d'attention. Malgré ses très bons résultats sur certains tests Benchable, son classement LiveBench: Global average le situe dans le haut intermédiaire de sa génération, pas parmi les tout premiers modèles de sa période. General Knowledge (Baseline) apparaît aussi moins dominant que ses meilleurs axes, avec un rang de milieu de tableau par rapport aux autres modèles évalués. Les données disponibles reposent sur 4 sources concordantes, ce qui donne un socle de comparaison, sans fournir d’informations sur l’entraînement ou l’architecture. Le modèle paraît surtout pertinent pour des usages où le coût, le grand contexte et la réduction des hallucinations comptent davantage qu’un leadership global absolu.


Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).