Amazon

nova-2-lite-v1

nova-2-lite-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches couvrant l’éthique, la culture générale, la classification d’e-mails, le code, les mathématiques et le suivi d’instructions.

Son profil se distingue surtout par un résultat de tout premier plan en Ethics (Baseline), tandis que les autres évaluations montrent un modèle plus inégal selon les tâches. La fiche repose sur 2 sources de données concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Amazon

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	97,5 %	152ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	88,0 %	128ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	83,0 %	144ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	48,0 %	180ᵉ / 252	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	46,0 %	216ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	42,0 %	200ᵉ / 239	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	37,6 %	48ᵉ / 52	pinchbench	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ nova-2-lite-v1100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nova-pro-v198 %

▶ nova-2-lite-v198 %

Phi 497 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	4,67 $
Durée d'exécution — PinchBench	2 h 53 min
Indice valeur/coût — PinchBench	70,39
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	2 min 50 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. nova-2-lite-v1 atteint le top 10 de Benchable sur Ethics (Baseline), son point le plus net dans les données disponibles. Les résultats en General Knowledge (Baseline) et Email Classification (Baseline) sont élevés en score absolu, ce qui signale une bonne maîtrise des questions factuelles générales et des tâches de tri d’e-mails dans ce protocole. Les performances en Coding (Baseline) et Mathematics (Baseline) restent honorables, avec des scores qui indiquent une capacité réelle sur ces exercices, sans placer le modèle parmi les meilleurs du classement.

Limites et points d'attention. Le principal point faible est Instruction Following (Baseline), où nova-2-lite-v1 se situe nettement plus bas que sur ses autres évaluations. Cette faiblesse compte pour les usages qui exigent une application stricte de consignes, un format de sortie stable ou une réponse structurée. Les rangs en General Knowledge, Email Classification, Coding et Mathematics restent globalement en milieu de tableau malgré des scores parfois élevés, ce qui limite son positionnement face aux meilleurs modèles évalués sur Benchable. Profil le plus pertinent pour des tâches où l’éthique et la classification priment sur le suivi fin d’instructions.

Sources des données : PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

nova-2-lite-v1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

Grok Code Fast

Devstral 2