Mistral: Codestral 2508

Mistral: Codestral 2508 est un LLM de Mistral AI sorti le 1 août 2025, avec des connaissances arrêtées au 31 mars 2025. Son trait le plus distinctif est une fenêtre de contexte de 256 000 tokens, adaptée aux entrées longues dans la catégorie des modèles généralistes.

Mistral: Codestral 2508 est un LLM de Mistral AI sorti le 1 août 2025, avec des connaissances arrêtées au 31 mars 2025. Son trait le plus distinctif est une fenêtre de contexte de 256 000 tokens, adaptée aux entrées longues dans la catégorie des modèles généralistes.

Son autre marqueur est tarifaire: le modèle se place dans le segment très économique, avec un prix annoncé 85% sous la moyenne des LLM similaires et environ 16,1 fois inférieur à celui des modèles frontière. Les données disponibles reposent sur 2 sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
Date de sortie1 août 2025
Connaissances jusqu'à2025-03-31
Multimodaloui
Fenêtre de contexte256 000 tokens
Modalités (entrée → sortie)text,file → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)97,0 %195ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)94,0 %217ᵉ / 254benchable✅ Mesuré
Benchable : Instruction Following (Baseline)57,0 %150ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)49,5 %228ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)48,0 %214ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)46,0 %196ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)3,0 %204ᵉ / 217benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

deepseek-chat-v3100 %
Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ Codestral 250897 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %
Gemini 2.5 Flash-Lite100 %
GPT-4 Turbo100 %
WizardLM-2 8x22B95 %
▶ Codestral 250894 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Mistral0,3 $0,9 $0,03 $

Prix en dollars US par million de tokens.

Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable8 min 09 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral: Codestral 2508 obtient ses meilleurs résultats sur Ethics (Baseline), qui évalue le comportement face à des situations sensibles, et sur Email Classification (Baseline), centré sur le tri de messages. Ces deux mesures indiquent un profil plus solide sur des tâches cadrées, à sorties relativement structurées, que sur des problèmes ouverts. La grande fenêtre de contexte constitue aussi un avantage concret pour traiter de longs documents ou de larges bases textuelles en une seule requête. Son prix reste l’un de ses principaux arguments: le positionnement très économique réduit fortement le coût d’usage par rapport aux modèles haut de gamme.

Limites et points d'attention. Les classements Benchable placent le modèle dans une zone peu favorable sur la plupart des évaluations, notamment General Knowledge (Baseline), Coding (Baseline) et Reasoning (Baseline). Malgré son nom, le score Coding ne le situe pas parmi les modèles les plus compétitifs pour la programmation dans ce jeu de tests. Instruction Following (Baseline) reste également mitigé, ce qui peut limiter la fiabilité sur des consignes complexes. La coupure des connaissances au 31 mars 2025 impose aussi une réserve sur les informations postérieures. Le modèle convient surtout à des usages sensibles au coût, avec contexte long et tâches structurées, plutôt qu’à du raisonnement avancé ou du code exigeant.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).