nova-2-lite-v1
nova-2-lite-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches couvrant l’éthique, la culture générale, la classification d’e-mails, le code, les mathématiques et le suivi d’instructions.
nova-2-lite-v1 est un LLM d’Amazon évalué dans Benchable sur des tâches couvrant l’éthique, la culture générale, la classification d’e-mails, le code, les mathématiques et le suivi d’instructions.
Son profil se distingue surtout par un résultat de tout premier plan en Ethics (Baseline), tandis que les autres évaluations montrent un modèle plus inégal selon les tâches. La fiche repose sur 2 sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Amazon |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 97,5 % | 152ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 88,0 % | 128ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 83,0 % | 144ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 48,0 % | 180ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 46,0 % | 216ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 42,0 % | 200ᵉ / 239 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 37,6 % | 48ᵉ / 52 | pinchbench | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 4,67 $ |
| Durée d'exécution — PinchBench | 2 h 53 min |
| Indice valeur/coût — PinchBench | 70,39 |
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 2 min 50 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. nova-2-lite-v1 atteint le top 10 de Benchable sur Ethics (Baseline), son point le plus net dans les données disponibles. Les résultats en General Knowledge (Baseline) et Email Classification (Baseline) sont élevés en score absolu, ce qui signale une bonne maîtrise des questions factuelles générales et des tâches de tri d’e-mails dans ce protocole. Les performances en Coding (Baseline) et Mathematics (Baseline) restent honorables, avec des scores qui indiquent une capacité réelle sur ces exercices, sans placer le modèle parmi les meilleurs du classement.
Limites et points d'attention. Le principal point faible est Instruction Following (Baseline), où nova-2-lite-v1 se situe nettement plus bas que sur ses autres évaluations. Cette faiblesse compte pour les usages qui exigent une application stricte de consignes, un format de sortie stable ou une réponse structurée. Les rangs en General Knowledge, Email Classification, Coding et Mathematics restent globalement en milieu de tableau malgré des scores parfois élevés, ce qui limite son positionnement face aux meilleurs modèles évalués sur Benchable. Profil le plus pertinent pour des tâches où l’éthique et la classification priment sur le suivi fin d’instructions.
Sources des données : PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).