Mistral AI

Mistral NeMo

Mistral NeMo est un LLM de Mistral AI sorti le 18 juillet 2024. Avec environ deux ans d’ancienneté, il appartient déjà à une génération passée à l’échelle de l’IA, un domaine où les écarts de performance se creusent vite entre millésimes.

À sa sortie, Mistral NeMo se situait dans le top 74% des LLM de sa période sur GPQA diamond, parmi les modèles évalués sur une fenêtre de neuf mois autour de son lancement. La fiche vaut surtout pour comprendre son niveau réel à l’époque et ses limites face aux standards actuels.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Mistral AI
Date de sortie	18 juillet 2024

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	93,0 %	224ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	84,2 %	211ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	79,0 %	182ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	62,0 %	202ᵉ / 229	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	37,0 %	199ᵉ / 252	benchable	✅ Mesuré
Epoch: GPQA diamond	29,9 %	120ᵉ / 132	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	28,0 %	209ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	15,0 %	198ᵉ / 217	benchable	✅ Mesuré
Epoch: MATH level 5	10,8 %	78ᵉ / 84	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Mistral NeMo100 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

WizardLM-2 8x22B95 %

▶ Mistral NeMo93 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	3 min 01 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral NeMo ressort surtout sur Ethics (Baseline), où il atteint le tout premier rang du panel Benchable et figure dans le top 10. Ce résultat indique un comportement particulièrement solide sur ce test lié aux réponses attendues dans des situations sensibles. Ses scores bruts en Email Classification, General Knowledge et Coding restent élevés en apparence, ce qui suggère des capacités exploitables sur des tâches structurées, de culture générale ou de programmation de base. À sa sortie, le modèle n’était toutefois pas dans le haut du panier de sa génération sur GPQA diamond, mais il restait suffisamment compétitif pour représenter un jalon utile dans l’évolution des LLM de Mistral AI.

Limites et points d'attention. Les classements Benchable relativisent fortement les bons pourcentages bruts hors Ethics : Mistral NeMo se situe loin des meilleurs en Email Classification, General Knowledge, Coding et Hallucinations. Le point le plus faible concerne Instruction Following, où le modèle apparaît nettement en retrait, ce qui limite sa fiabilité pour respecter précisément des consignes complexes. Son score en Hallucinations signale aussi un risque important de réponses inexactes. Avec près de deux ans d’ancienneté, ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents, et ce type de modèle est souvent remplacé ou retiré des catalogues d’éditeurs.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Mistral NeMo

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast