Mistral: Mixtral 8x22B Instruct
Mistral: Mixtral 8x22B Instruct est un LLM de Mistral AI sorti le 17 avril 2024, à replacer dans la génération de modèles ouverts et économiques du printemps 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une période très éloignée à l’échelle de l’IA, ce qui limite…
Mistral: Mixtral 8x22B Instruct est un LLM de Mistral AI sorti le 17 avril 2024, à replacer dans la génération de modèles ouverts et économiques du printemps 2024. Avec près de deux ans d’ancienneté, il appartient déjà à une période très éloignée à l’échelle de l’IA, ce qui limite fortement sa pertinence face aux modèles plus récents.
Le modèle conserve toutefois deux traits structurants: une fenêtre de contexte de 65 536 tokens et un tarif d’entrée de gamme, environ 2,4 fois inférieur à celui des modèles frontière. Ses connaissances s’arrêtent au 31 janvier 2024.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
| Date de sortie | 17 avril 2024 |
| Connaissances jusqu'à | 2024-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 65 536 tokens |
| Modalités (entrée → sortie) | text,file → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 95,5 % | 182ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 95,0 % | 208ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 86,0 % | 127ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 83,0 % | 156ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 80,0 % | 244ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 54,0 % | 178ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 50,0 % | 173ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Mistral | 2 $ | 6 $ | 0,2 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 2 min 28 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Le signal le plus net vient du benchmark Hallucinations (Baseline), où Mistral: Mixtral 8x22B Instruct se place tout en haut du classement Benchable. À sa sortie, ce positionnement en faisait un modèle particulièrement solide sur la limitation des réponses inventées, un critère central pour les usages de synthèse, de questions-réponses et de reformulation documentaire. Sa grande fenêtre de contexte renforçait aussi son intérêt pour traiter de longs contenus en une seule requête. Côté prix, le modèle reste dans une logique économique: il est seulement légèrement au-dessus de la moyenne des LLM similaires, tout en restant nettement moins coûteux que les modèles haut de gamme.
Limites et points d'attention. Son ancienneté pèse lourdement. Sorti en avril 2024, avec des connaissances arrêtées début 2024, Mistral: Mixtral 8x22B Instruct est aujourd’hui largement dépassé par les générations plus récentes et souvent retiré des catalogues actifs d’éditeurs. Les autres résultats Benchable le situent plutôt en milieu ou bas de tableau: General Knowledge et Ethics affichent des scores bruts élevés mais des rangs faibles, Mathematics reste intermédiaire, Coding est en retrait, et Email Classification apparaît comme un vrai point faible. La couverture repose sur 2 sources concordantes, suffisantes pour stabiliser les informations principales, mais sans enrichir l’analyse par des données d’entraînement détaillées.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).