nova-micro-v1
nova-micro-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches de connaissances générales, d’éthique, de hallucinations, de classification d’e-mails, de code et de mathématiques.
nova-micro-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches de connaissances générales, d’éthique, de hallucinations, de classification d’e-mails, de code et de mathématiques.
Son profil ressort comme celui d’un modèle plus solide sur les évaluations textuelles générales que sur le raisonnement quantitatif, avec une fiche fondée sur une seule source de données concordante.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Amazon |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 95,0 % | 186ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 94,0 % | 126ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 90,0 % | 233ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 82,0 % | 162ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 39,0 % | 190ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 14,0 % | 219ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 2,0 % | 231ᵉ / 239 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 2 min 06 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. nova-micro-v1 obtient ses meilleurs résultats bruts sur Ethics (Baseline), General Knowledge (Baseline) et Hallucinations (Baseline), ce qui indique un comportement correct dans des tests de conformité, de connaissances générales et de limitation des réponses inventées. Le modèle reste aussi exploitable sur Email Classification (Baseline), une tâche de tri textuel structurée, même si son rang relatif montre que plusieurs modèles font mieux sur ce terrain.
Limites et points d'attention. Les rangs Benchable placent nova-micro-v1 plutôt en milieu ou en bas de tableau selon les tâches, malgré certains scores bruts élevés. Coding (Baseline) apparaît moins convaincant que les tests textuels généraux, et Mathematics (Baseline) constitue la faiblesse la plus nette du profil. La couverture limitée à une seule source concordante invite aussi à interpréter ces résultats comme un instantané de benchmark, sans information complémentaire sur l’entraînement, le coût, le contexte de déploiement ou les capacités exactes hors des tests listés.
Sources des données : Benchable.ai (benchable.ai).