nova-premier-v1
nova-premier-v1 est un LLM d’Amazon dont le profil public ressort surtout par sa performance sur Benchable Hallucinations (Baseline), où il apparaît dans le tout premier groupe du classement. Cette donnée le situe comme un modèle particulièrement surveillé sur la fiabilité apparente des…
nova-premier-v1 est un LLM d’Amazon dont le profil public ressort surtout par sa performance sur Benchable Hallucinations (Baseline), où il apparaît dans le tout premier groupe du classement. Cette donnée le situe comme un modèle particulièrement surveillé sur la fiabilité apparente des réponses, un critère central pour les usages rédactionnels et informationnels.
Le modèle affiche aussi un bon résultat en Email Classification (Baseline), ce qui indique une aisance relative sur des tâches de tri et de catégorisation de messages. La fiche repose toutefois sur une seule source de données concordante, ce qui limite l’étendue des conclusions possibles.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Amazon |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 68,0 % | 149ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 48,0 % | 185ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 43,0 % | 216ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 3,0 % | 227ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 0,0 % | 236ᵉ / 248 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Email Classification (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,2 $ |
| Latence moyenne par benchmark — Benchable | 8 min 53 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. nova-premier-v1 se distingue d’abord sur Hallucinations (Baseline), avec une place de tout premier rang dans le benchmark. Ce signal suggère un comportement solide sur la réduction des réponses inventées, au moins dans le cadre de test Benchable disponible. Son autre point fort net concerne Email Classification (Baseline), où le modèle reste bien positionné par rapport au panel évalué. Cette combinaison dessine un LLM plus convaincant sur la fiabilité de surface et la classification de contenus textuels que sur les tâches de production technique.
Limites et points d’attention. Le profil devient beaucoup moins favorable dès que les tâches demandent davantage de raisonnement structuré, de calcul, de code ou de respect strict des consignes. Reasoning (Baseline) se situe en retrait, tandis que Mathematics (Baseline) et Coding (Baseline) apparaissent dans le bas du classement. Le point le plus faible est Instruction Following (Baseline), où nova-premier-v1 tombe quasiment en fond de tableau. Les usages les plus cohérents concernent donc l’analyse textuelle encadrée et la classification, plutôt que les agents complexes, le développement logiciel ou les workflows exigeant une exécution précise d’instructions.
Sources des données : Benchable.ai (benchable.ai).