Devstral 2
Devstral 2 est un LLM de Mistral AI dont le signal le plus lisible se situe du côté de la programmation. Ses résultats publics le placent davantage comme un modèle spécialisé à examiner sur le code que comme un généraliste homogène.
Devstral 2 est un LLM de Mistral AI dont le signal le plus lisible se situe du côté de la programmation. Ses résultats publics le placent davantage comme un modèle spécialisé à examiner sur le code que comme un généraliste homogène.
La fiche s’appuie sur deux sources de données concordantes, avec des mesures LiveBench couvrant code, mathématiques, langage, analyse de données et Agentic Coding. L’ensemble dessine un profil contrasté, où le code ressort nettement mieux que les tâches généralistes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Mistral AI |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| LiveBench: Coding | 66,8 % | 58ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 52,5 % | 73ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 45,7 % | 72ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 43,3 % | 41ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 41,2 % | 70ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 39,1 % | 73ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 27,7 % | 74ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 13,5 % | 75ᵉ / 76 | livebench | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
LiveBench: Coding
LiveBench: Mathematics
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1199 | 86ᵉ |
Notre analyse
Forces. Devstral 2 obtient son meilleur résultat sur LiveBench: Coding (programmation), ce qui confirme un positionnement plus crédible sur les tâches de développement que sur les autres familles d’évaluation. LiveBench: Agentic Coding ressort aussi comme l’un de ses signaux les plus favorables, avec un classement relatifement meilleur que sa moyenne globale. Ce point indique que le modèle conserve un intérêt dans les scénarios où l’évaluation porte sur des enchaînements liés au code plutôt que sur une réponse isolée. L’Arena code, avec un Elo de 1199, donne toutefois une lecture prudente: Devstral 2 apparaît comme un modèle de code identifiable, pas comme une référence de tête.
Limites et points d'attention. La moyenne globale LiveBench place Devstral 2 dans le bas du classement disponible, ce qui limite son intérêt comme LLM polyvalent. Les résultats en mathématiques, compréhension du langage et analyse de données figurent parmi ses points faibles, avec des rangs proches du bas de tableau. Cette asymétrie rend le modèle peu convaincant pour des usages généralistes ou analytiques exigeants. Devstral 2 se prête surtout à une comparaison centrée sur le code, lorsque la programmation compte davantage que les mathématiques, le langage général ou l’analyse de données.
Sources des données : LiveBench (livebench.ai) · Arena.ai (arena.ai).