Amazon

nova-premier-v1

nova-premier-v1 est un LLM d’Amazon dont le profil public ressort surtout par sa performance sur Benchable Hallucinations (Baseline), où il apparaît dans le tout premier groupe du classement. Cette donnée le situe comme un modèle particulièrement surveillé sur la fiabilité apparente des…

Le modèle affiche aussi un bon résultat en Email Classification (Baseline), ce qui indique une aisance relative sur des tâches de tri et de catégorisation de messages. La fiche repose toutefois sur une seule source de données concordante, ce qui limite l’étendue des conclusions possibles.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Amazon

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	68,0 %	149ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	48,0 %	185ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	43,0 %	216ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	3,0 %	227ᵉ / 252	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	0,0 %	236ᵉ / 248	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ nova-premier-v1100 %

Nemotron Nano 9B v298 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Mistral Large99 %

▶ nova-premier-v199 %

WizardLM-2 8x22B95 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,2 $
Latence moyenne par benchmark — Benchable	8 min 53 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. nova-premier-v1 se distingue d’abord sur Hallucinations (Baseline), avec une place de tout premier rang dans le benchmark. Ce signal suggère un comportement solide sur la réduction des réponses inventées, au moins dans le cadre de test Benchable disponible. Son autre point fort net concerne Email Classification (Baseline), où le modèle reste bien positionné par rapport au panel évalué. Cette combinaison dessine un LLM plus convaincant sur la fiabilité de surface et la classification de contenus textuels que sur les tâches de production technique.

Limites et points d’attention. Le profil devient beaucoup moins favorable dès que les tâches demandent davantage de raisonnement structuré, de calcul, de code ou de respect strict des consignes. Reasoning (Baseline) se situe en retrait, tandis que Mathematics (Baseline) et Coding (Baseline) apparaissent dans le bas du classement. Le point le plus faible est Instruction Following (Baseline), où nova-premier-v1 tombe quasiment en fond de tableau. Les usages les plus cohérents concernent donc l’analyse textuelle encadrée et la classification, plutôt que les agents complexes, le développement logiciel ou les workflows exigeant une exécution précise d’instructions.

Sources des données : Benchable.ai (benchable.ai).

nova-premier-v1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast