Claude Opus 4.1
Claude Opus 4.1 est un LLM propriétaire d’Anthropic, sorti le 5 août 2025, avec des poids non ouverts. Il s’inscrit dans le segment premium, avec une tarification nettement supérieure à celle des LLM similaires et des modèles frontière.
Claude Opus 4.1 est un LLM propriétaire d’Anthropic, sorti le 5 août 2025, avec des poids non ouverts. Il s’inscrit dans le segment premium, avec une tarification nettement supérieure à celle des LLM similaires et des modèles frontière.
Le modèle combine une fenêtre de contexte de 200 000 tokens et une limite de connaissances fixée au 2025-01-31. À sa sortie, il se situait dans le top 13% des LLM de sa génération sur Epoch: GPQA diamond, ce qui le place comme un modèle haut de gamme de son époque, sans dominer tous les classements.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 5 août 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 28.2 | 71ᵉ / 136 |
| Math Index | 80.3 | 17ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,0 % | 38ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,9 % | 86ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 92,0 % | 79ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 77,3 % | 47ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Language | 76,8 % | 23ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 76,1 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 73,3 % | 20ᵉ / 32 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 69,0 % | 98ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 68,9 % | 53ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 62,8 % | 63ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 54,5 % | 53ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 53,3 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 45,4 % | 63ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 40,9 % | 64ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 34,8 % | 32ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: IF | 25,9 % | 62ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 12,6 % | 31ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 7,2 % | 42ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 27ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 2,4 % | 27ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| MMMLU | 89,5 % | 10ᵉ / 49 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 82,4 % | 2ᵉ / 24 | llm-stats | Auto-déclaré |
| GPQA | 80,9 % | 71ᵉ / 213 | llm-stats | Auto-déclaré |
| AIME 2025 | 78,0 % | 69ᵉ / 108 | llm-stats | Auto-déclaré |
| MMMU (validation) | 77,1 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 74,5 % | 33ᵉ / 100 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 56,0 % | 9ᵉ / 22 | llm-stats | Auto-déclaré |
| Terminal-Bench | 43,3 % | 5ᵉ / 25 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1449 | 46ᵉ |
| Arena Text | 1447 | 53ᵉ |
| Arena Code | 1386 | 48ᵉ |
| Arena Search | 1148 | 22ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Anthropic | 15 $ | 75 $ | 1,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 1,25 $ |
| Latence moyenne par benchmark — Benchable | 9 min 36 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude Opus 4.1 ressort très fortement sur plusieurs évaluations Benchable de référence, avec des résultats de tout premier plan sur les hallucinations, la culture générale et l’éthique. Le modèle affiche aussi un bon niveau en codage et en mathématiques sur Benchable, tandis que son Math Index le place dans le haut du classement disponible. À sa sortie, son positionnement dans le top 13% sur GPQA diamond confirme un modèle compétitif parmi les LLM de sa génération, en particulier pour les tâches de raisonnement et de réponse contrôlée.
Limites et points d'attention. Le profil n’est pas uniformément dominant : l’Intelligence Index le situe plutôt au milieu du panel mesuré, et les classements Arena text et Arena code ne le placent pas parmi les tout premiers modèles évalués. Son principal frein est économique : le tarif d’entrée et de sortie correspond à un positionnement premium, avec un prix très supérieur à la moyenne des LLM similaires et environ 3,1 fois plus élevé que celui des modèles frontière. Les poids fermés limitent aussi les usages nécessitant audit, hébergement autonome ou adaptation interne profonde. Le modèle convient surtout aux usages où la qualité de réponse et le long contexte justifient un coût élevé.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).