nova-micro-v1

nova-micro-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches de connaissances générales, d’éthique, de hallucinations, de classification d’e-mails, de code et de mathématiques.

nova-micro-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches de connaissances générales, d’éthique, de hallucinations, de classification d’e-mails, de code et de mathématiques.

Son profil ressort comme celui d’un modèle plus solide sur les évaluations textuelles générales que sur le raisonnement quantitatif, avec une fiche fondée sur une seule source de données concordante.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAmazon

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)95,0 %186ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)94,0 %126ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)90,0 %233ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)82,0 %162ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)39,0 %190ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)14,0 %219ᵉ / 252benchable✅ Mesuré
Benchable : Reasoning (Baseline)2,0 %231ᵉ / 239benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ nova-micro-v198 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
Phi 497 %
▶ nova-micro-v195 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable2 min 06 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. nova-micro-v1 obtient ses meilleurs résultats bruts sur Ethics (Baseline), General Knowledge (Baseline) et Hallucinations (Baseline), ce qui indique un comportement correct dans des tests de conformité, de connaissances générales et de limitation des réponses inventées. Le modèle reste aussi exploitable sur Email Classification (Baseline), une tâche de tri textuel structurée, même si son rang relatif montre que plusieurs modèles font mieux sur ce terrain.

Limites et points d'attention. Les rangs Benchable placent nova-micro-v1 plutôt en milieu ou en bas de tableau selon les tâches, malgré certains scores bruts élevés. Coding (Baseline) apparaît moins convaincant que les tests textuels généraux, et Mathematics (Baseline) constitue la faiblesse la plus nette du profil. La couverture limitée à une seule source concordante invite aussi à interpréter ces résultats comme un instantané de benchmark, sans information complémentaire sur l’entraînement, le coût, le contexte de déploiement ou les capacités exactes hors des tests listés.


Sources des données : Benchable.ai (benchable.ai).