Devstral 2

Devstral 2 est un LLM de Mistral AI dont le signal le plus lisible se situe du côté de la programmation. Ses résultats publics le placent davantage comme un modèle spécialisé à examiner sur le code que comme un généraliste homogène.

Devstral 2 est un LLM de Mistral AI dont le signal le plus lisible se situe du côté de la programmation. Ses résultats publics le placent davantage comme un modèle spécialisé à examiner sur le code que comme un généraliste homogène.

La fiche s’appuie sur deux sources de données concordantes, avec des mesures LiveBench couvrant code, mathématiques, langage, analyse de données et Agentic Coding. L’ensemble dessine un profil contrasté, où le code ressort nettement mieux que les tâches généralistes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
LiveBench: Coding66,8 %58ᵉ / 76livebench✅ Mesuré
LiveBench: Mathematics52,5 %73ᵉ / 76livebench✅ Mesuré
LiveBench: Language45,7 %72ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding43,3 %41ᵉ / 76livebench✅ Mesuré
LiveBench: Global average41,2 %70ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis39,1 %73ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning27,7 %74ᵉ / 76livebench✅ Mesuré
LiveBench: IF13,5 %75ᵉ / 76livebench✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Coding

GPT-5.2 Codex84 %
Gemini 3.5 Flash78 %
▶ Devstral 267 %

LiveBench: Mathematics

GPT-5.596 %
Gemini 3.1 Pro Preview91 %
Nemotron 3 Ultra55 %
▶ Devstral 253 %

Classements Arena (Elo)

CatégorieEloRang
Arena Code119986ᵉ

Notre analyse

Forces. Devstral 2 obtient son meilleur résultat sur LiveBench: Coding (programmation), ce qui confirme un positionnement plus crédible sur les tâches de développement que sur les autres familles d’évaluation. LiveBench: Agentic Coding ressort aussi comme l’un de ses signaux les plus favorables, avec un classement relatifement meilleur que sa moyenne globale. Ce point indique que le modèle conserve un intérêt dans les scénarios où l’évaluation porte sur des enchaînements liés au code plutôt que sur une réponse isolée. L’Arena code, avec un Elo de 1199, donne toutefois une lecture prudente: Devstral 2 apparaît comme un modèle de code identifiable, pas comme une référence de tête.

Limites et points d'attention. La moyenne globale LiveBench place Devstral 2 dans le bas du classement disponible, ce qui limite son intérêt comme LLM polyvalent. Les résultats en mathématiques, compréhension du langage et analyse de données figurent parmi ses points faibles, avec des rangs proches du bas de tableau. Cette asymétrie rend le modèle peu convaincant pour des usages généralistes ou analytiques exigeants. Devstral 2 se prête surtout à une comparaison centrée sur le code, lorsque la programmation compte davantage que les mathématiques, le langage général ou l’analyse de données.


Sources des données : LiveBench (livebench.ai) · Arena.ai (arena.ai).