xAI: Grok Build 0.1
xAI: Grok Build 0.1 est un LLM de xAI sorti le 20 mai 2026, avec une fenêtre de contexte de 256 000 tokens. Son positionnement combine grand contexte, prix très bas et résultats Benchable particulièrement forts sur les hallucinations et l’éthique.
xAI: Grok Build 0.1 est un LLM de xAI sorti le 20 mai 2026, avec une fenêtre de contexte de 256 000 tokens. Son positionnement combine grand contexte, prix très bas et résultats Benchable particulièrement forts sur les hallucinations et l’éthique.
À sa sortie, il se situe dans le top 36% des LLM de sa génération sur LiveBench: Global average. Son tarif le place dans la catégorie très économique, sous la moyenne des LLM similaires et nettement moins cher que les modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Date de sortie | 20 mai 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 256 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,0 % | 67ᵉ / 217 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 88,9 % | 5ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Mathematics | 78,4 % | 42ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 76,4 % | 26ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 72,5 % | 37ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 70,8 % | 17ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 68,9 % | 28ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 65,4 % | 63ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 65,2 % | 17ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 60,0 % | 142ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Agentic Coding | 53,3 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| xAI (ZDR) | 1 $ | 2 $ | 0,2 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 49 % en dessous de la moyenne des LLM similaires, et 4,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 20,58 $ |
| Durée d'exécution — PinchBench | 3 h 40 min |
| Indice valeur/coût — PinchBench | 4,84 |
| Coût moyen par benchmark — Benchable | 0,36 $ |
| Latence moyenne par benchmark — Benchable | 14 min 10 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. xAI: Grok Build 0.1 se distingue d’abord par ses résultats Benchable sur Hallucinations (Baseline) et Ethics (Baseline), où il atteint le tout premier rang des classements fournis. Ses scores restent élevés en Email Classification (Baseline), Reasoning (Baseline) et Coding (Baseline), ce qui indique un profil polyvalent plutôt qu’un modèle spécialisé sur une seule tâche. La fenêtre de contexte de 256 000 tokens renforce son intérêt pour l’analyse de documents longs, les bases de connaissances étendues et les échanges prolongés. Le prix constitue un autre point fort concret: l’entrée à 1 $ par million de tokens et la sortie à 2 $ par million de tokens placent le modèle 49% sous la moyenne des LLM similaires, avec un écart d’environ 4,8 fois face aux modèles frontière.
Limites et points d'attention. Malgré ses très bons résultats sur certains tests Benchable, son classement LiveBench: Global average le situe dans le haut intermédiaire de sa génération, pas parmi les tout premiers modèles de sa période. General Knowledge (Baseline) apparaît aussi moins dominant que ses meilleurs axes, avec un rang de milieu de tableau par rapport aux autres modèles évalués. Les données disponibles reposent sur 4 sources concordantes, ce qui donne un socle de comparaison, sans fournir d’informations sur l’entraînement ou l’architecture. Le modèle paraît surtout pertinent pour des usages où le coût, le grand contexte et la réduction des hallucinations comptent davantage qu’un leadership global absolu.
Sources des données : OpenRouter (openrouter.ai) · LiveBench (livebench.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).