Amazon

nova-micro-v1

nova-micro-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches de connaissances générales, d’éthique, de hallucinations, de classification d’e-mails, de code et de mathématiques.

Son profil ressort comme celui d’un modèle plus solide sur les évaluations textuelles générales que sur le raisonnement quantitatif, avec une fiche fondée sur une seule source de données concordante.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Amazon

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	95,0 %	186ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	94,0 %	126ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	90,0 %	233ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	82,0 %	162ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	39,0 %	190ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	14,0 %	219ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	2,0 %	231ᵉ / 239	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ nova-micro-v198 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

Phi 497 %

▶ nova-micro-v195 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	2 min 06 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. nova-micro-v1 obtient ses meilleurs résultats bruts sur Ethics (Baseline), General Knowledge (Baseline) et Hallucinations (Baseline), ce qui indique un comportement correct dans des tests de conformité, de connaissances générales et de limitation des réponses inventées. Le modèle reste aussi exploitable sur Email Classification (Baseline), une tâche de tri textuel structurée, même si son rang relatif montre que plusieurs modèles font mieux sur ce terrain.

Limites et points d'attention. Les rangs Benchable placent nova-micro-v1 plutôt en milieu ou en bas de tableau selon les tâches, malgré certains scores bruts élevés. Coding (Baseline) apparaît moins convaincant que les tests textuels généraux, et Mathematics (Baseline) constitue la faiblesse la plus nette du profil. La couverture limitée à une seule source concordante invite aussi à interpréter ces résultats comme un instantané de benchmark, sans information complémentaire sur l’entraînement, le coût, le contexte de déploiement ou les capacités exactes hors des tests listés.

Sources des données : Benchable.ai (benchable.ai).

nova-micro-v1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast