Mistral AI

Devstral 2

Devstral 2 est un LLM de Mistral AI dont le signal le plus lisible se situe du côté de la programmation. Ses résultats publics le placent davantage comme un modèle spécialisé à examiner sur le code que comme un généraliste homogène.

La fiche s’appuie sur deux sources de données concordantes, avec des mesures LiveBench couvrant code, mathématiques, langage, analyse de données et Agentic Coding. L’ensemble dessine un profil contrasté, où le code ressort nettement mieux que les tâches généralistes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
LiveBench: Coding	66,8 %	58ᵉ / 76	livebench	✅ Mesuré
LiveBench: Mathematics	52,5 %	73ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	45,7 %	72ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	43,3 %	41ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	41,2 %	70ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	39,1 %	73ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	27,7 %	74ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	13,5 %	75ᵉ / 76	livebench	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Coding

GPT-5.2 Codex84 %

Claude Opus 4.782 %

Gemini 3.5 Flash78 %

DeepSeek-V3.2-Exp70 %

▶ Devstral 267 %

LiveBench: Mathematics

GPT-5.596 %

Claude Opus 4.895 %

Gemini 3.1 Pro Preview91 %

Nemotron 3 Ultra55 %

▶ Devstral 253 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1199	86ᵉ

Notre analyse

Forces. Devstral 2 obtient son meilleur résultat sur LiveBench: Coding (programmation), ce qui confirme un positionnement plus crédible sur les tâches de développement que sur les autres familles d’évaluation. LiveBench: Agentic Coding ressort aussi comme l’un de ses signaux les plus favorables, avec un classement relatifement meilleur que sa moyenne globale. Ce point indique que le modèle conserve un intérêt dans les scénarios où l’évaluation porte sur des enchaînements liés au code plutôt que sur une réponse isolée. L’Arena code, avec un Elo de 1199, donne toutefois une lecture prudente: Devstral 2 apparaît comme un modèle de code identifiable, pas comme une référence de tête.

Limites et points d'attention. La moyenne globale LiveBench place Devstral 2 dans le bas du classement disponible, ce qui limite son intérêt comme LLM polyvalent. Les résultats en mathématiques, compréhension du langage et analyse de données figurent parmi ses points faibles, avec des rangs proches du bas de tableau. Cette asymétrie rend le modèle peu convaincant pour des usages généralistes ou analytiques exigeants. Devstral 2 se prête surtout à une comparaison centrée sur le code, lorsque la programmation compte davantage que les mathématiques, le langage général ou l’analyse de données.

Sources des données : LiveBench (livebench.ai) · Arena.ai (arena.ai).

Devstral 2

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast