Mistral NeMo

Mistral NeMo est un LLM de Mistral AI sorti le 18 juillet 2024. Avec environ deux ans d’ancienneté, il appartient déjà à une génération passée à l’échelle de l’IA, un domaine où les écarts de performance se creusent vite entre millésimes.

Mistral NeMo est un LLM de Mistral AI sorti le 18 juillet 2024. Avec environ deux ans d’ancienneté, il appartient déjà à une génération passée à l’échelle de l’IA, un domaine où les écarts de performance se creusent vite entre millésimes.

À sa sortie, Mistral NeMo se situait dans le top 74% des LLM de sa période sur GPQA diamond, parmi les modèles évalués sur une fenêtre de neuf mois autour de son lancement. La fiche vaut surtout pour comprendre son niveau réel à l’époque et ses limites face aux standards actuels.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMistral AI
Date de sortie18 juillet 2024

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)93,0 %224ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)84,2 %211ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)79,0 %182ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)62,0 %202ᵉ / 229benchable✅ Mesuré
Benchable : Instruction Following (Baseline)37,0 %199ᵉ / 252benchable✅ Mesuré
Epoch: GPQA diamond29,9 %120ᵉ / 132epoch✅ Mesuré
Benchable : Reasoning (Baseline)28,0 %209ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)15,0 %198ᵉ / 217benchable✅ Mesuré
Epoch: MATH level 510,8 %78ᵉ / 84epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Mistral NeMo100 %

Benchable : Email Classification (Baseline)

WizardLM-2 8x22B95 %
▶ Mistral NeMo93 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable3 min 01 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mistral NeMo ressort surtout sur Ethics (Baseline), où il atteint le tout premier rang du panel Benchable et figure dans le top 10. Ce résultat indique un comportement particulièrement solide sur ce test lié aux réponses attendues dans des situations sensibles. Ses scores bruts en Email Classification, General Knowledge et Coding restent élevés en apparence, ce qui suggère des capacités exploitables sur des tâches structurées, de culture générale ou de programmation de base. À sa sortie, le modèle n’était toutefois pas dans le haut du panier de sa génération sur GPQA diamond, mais il restait suffisamment compétitif pour représenter un jalon utile dans l’évolution des LLM de Mistral AI.

Limites et points d'attention. Les classements Benchable relativisent fortement les bons pourcentages bruts hors Ethics : Mistral NeMo se situe loin des meilleurs en Email Classification, General Knowledge, Coding et Hallucinations. Le point le plus faible concerne Instruction Following, où le modèle apparaît nettement en retrait, ce qui limite sa fiabilité pour respecter précisément des consignes complexes. Son score en Hallucinations signale aussi un risque important de réponses inexactes. Avec près de deux ans d’ancienneté, ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme plus récents, et ce type de modèle est souvent remplacé ou retiré des catalogues d’éditeurs.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).