nova-2-lite-v1

nova-2-lite-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches couvrant l’éthique, la culture générale, la classification d’e-mails, le code, les mathématiques et le suivi d’instructions.

nova-2-lite-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches couvrant l’éthique, la culture générale, la classification d’e-mails, le code, les mathématiques et le suivi d’instructions.

Son profil se distingue surtout par un résultat de tout premier plan en Ethics (Baseline), tandis que les autres évaluations montrent un modèle plus inégal selon les tâches. La fiche repose sur 2 sources de données concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAmazon

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)97,5 %152ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)88,0 %128ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)83,0 %144ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)48,0 %180ᵉ / 252benchable✅ Mesuré
Benchable : Hallucinations (Baseline)46,0 %216ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)42,0 %200ᵉ / 239benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)37,6 %48ᵉ / 52pinchbench✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ nova-2-lite-v1100 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
nova-pro-v198 %
▶ nova-2-lite-v198 %
Phi 497 %

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)4,67 $
Durée d'exécution — PinchBench2 h 53 min
Indice valeur/coût — PinchBench70,39
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable2 min 50 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. nova-2-lite-v1 atteint le top 10 de Benchable sur Ethics (Baseline), son point le plus net dans les données disponibles. Les résultats en General Knowledge (Baseline) et Email Classification (Baseline) sont élevés en score absolu, ce qui signale une bonne maîtrise des questions factuelles générales et des tâches de tri d’e-mails dans ce protocole. Les performances en Coding (Baseline) et Mathematics (Baseline) restent honorables, avec des scores qui indiquent une capacité réelle sur ces exercices, sans placer le modèle parmi les meilleurs du classement.

Limites et points d'attention. Le principal point faible est Instruction Following (Baseline), où nova-2-lite-v1 se situe nettement plus bas que sur ses autres évaluations. Cette faiblesse compte pour les usages qui exigent une application stricte de consignes, un format de sortie stable ou une réponse structurée. Les rangs en General Knowledge, Email Classification, Coding et Mathematics restent globalement en milieu de tableau malgré des scores parfois élevés, ce qui limite son positionnement face aux meilleurs modèles évalués sur Benchable. Profil le plus pertinent pour des tâches où l’éthique et la classification priment sur le suivi fin d’instructions.


Sources des données : PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).