Mistral AI

Mistral: Devstral 2 2512

Mistral: Devstral 2 2512 est un LLM de Mistral AI sorti le 9 décembre 2025, positionné sur un tarif très économique. Le modèle se distingue surtout par une fenêtre de contexte de 262 144 tokens, un format adapté aux entrées longues et aux traitements nécessitant beaucoup de texte en une…

Son prix le place nettement sous la moyenne des LLM similaires, avec une tarification annoncée 79% plus basse et environ 12,1 fois inférieure à celle des modèles frontière. Les données disponibles reposent sur 2 sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Date de sortie	9 décembre 2025
Multimodal	oui
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,file → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
PinchBench : agentique (OpenClaw, 147 tâches)	69,4 %	28ᵉ / 52	pinchbench	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

PinchBench : agentique (OpenClaw, 147 tâches)

Qwen3.7 Max93 %

Claude Opus 4.891 %

Nemotron 3 Ultra90 %

GPT-5.4 mini79 %

▶ Devstral 2 251269 %

nova-2-lite-v138 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Mistral	0,4 $	2 $	0,04 $

Prix en dollars US par million de tokens.

Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	4,81 $
Durée d'exécution — PinchBench	4 h 04 min
Indice valeur/coût — PinchBench	36,15

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral: Devstral 2 2512 combine un très grand contexte avec un coût d’usage bas, ce qui en fait un modèle intéressant pour les charges où le volume de tokens pèse fortement dans le budget. Sur PinchBench agentique (OpenClaw, 147 tâches), il obtient un résultat exploitable et documenté, signe d’une capacité mesurée sur des scénarios d’agent logiciel plutôt que sur une simple génération de texte isolée. Son positionnement tarifaire est son avantage le plus net: l’écart avec la moyenne des LLM similaires et avec les modèles haut de gamme donne un argument concret pour des déploiements sensibles au coût.

Limites et points d'attention. Le classement PinchBench le situe en milieu de tableau, pas parmi les meilleurs modèles évalués sur ce banc agentique. Les faits disponibles ne couvrent pas d’autres dimensions comme le raisonnement scientifique, le code, les mathématiques ou la qualité conversationnelle, ce qui limite l’analyse comparative. Aucune donnée vérifiée n’est fournie sur l’entraînement, l’architecture ou des benchmarks complémentaires. Le modèle vise donc surtout les usages actuels où un long contexte et un prix bas comptent davantage qu’une performance de tête sur les évaluations agentiques.

Sources des données : OpenRouter (openrouter.ai) · PinchBench (pinchbench.com).

Mistral: Devstral 2 2512

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast