Claude Opus 4
Claude Opus 4 est un LLM propriétaire d’Anthropic, publié le 22 mai 2025, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération longue, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes les plus récents.
Claude Opus 4 est un LLM propriétaire d’Anthropic, publié le 22 mai 2025, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération longue, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes les plus récents.
Le modèle se distingue par une grande fenêtre de contexte de 200 000 tokens et des connaissances arrêtées au 31 janvier 2025. À sa sortie, il se situait dans le haut du panier de sa génération, notamment dans le top 14% sur GPQA diamond parmi les LLM comparables de la même période.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 22 mai 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 31.0 | 59ᵉ / 136 |
| Math Index | 73.3 | 19ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,0 % | 38ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 90,0 % | 85ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 85,0 % | 20ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 76,3 % | 51ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 71,0 % | 82ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: SWE-Bench verified | 70,7 % | 24ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 64,4 % | 56ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 4,5 % | 48ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 27ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| MMMLU | 88,8 % | 16ᵉ / 49 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 81,4 % | 3ᵉ / 24 | llm-stats | Auto-déclaré |
| GPQA | 79,6 % | 75ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMU (validation) | 76,5 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| AIME 2025 | 75,5 % | 72ᵉ / 108 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 72,5 % | 47ᵉ / 100 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 59,6 % | 7ᵉ / 22 | llm-stats | Auto-déclaré |
| Terminal-Bench | 39,2 % | 10ᵉ / 25 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 8,6 % | 14ᵉ / 16 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1424 | 83ᵉ |
| Arena Text | 1412 | 105ᵉ |
| Arena Vision | 1206 | 55ᵉ |
| Arena Vision | 1187 | 66ᵉ |
| Arena Search | 1126 | 29ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Google Vertex | 15 $ | 75 $ | 1,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 1,4 $ |
| Latence moyenne par benchmark — Benchable | 9 min 55 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude Opus 4 affiche ses meilleurs signaux sur Benchable en Hallucinations, General Knowledge et Ethics, où il apparaît dans le top 10, ce qui indique une bonne tenue sur la fiabilité factuelle, les connaissances générales et les réponses à contraintes éthiques dans ce cadre de test. Les résultats en mathématiques sont également solides, avec un Math Index placé haut dans le classement disponible et un score Benchable Mathematics dans une zone élevée. Le codage ressort comme un autre point fort relatif, sans atteindre le tout premier rang. À sa sortie, Claude Opus 4 faisait donc partie des modèles sérieux de sa génération, avec un profil orienté raisonnement, connaissances et robustesse de réponse.
Limites et points d'attention. Son Intelligence Index le situe plutôt loin des tout meilleurs modèles du panel, et les classements Arena text le placent en milieu ou bas de tableau selon les relevés. La classification d’e-mails ressort comme un point faible relatif malgré un score brut élevé. Son ancienneté pèse fortement : ses performances sont aujourd’hui probablement largement dépassées et ce type de modèle est souvent retiré du catalogue de l’éditeur avec le renouvellement rapide des gammes. Le coût reste un frein majeur, avec un positionnement premium, 670% au-dessus de la moyenne des LLM similaires et environ 3,1 fois plus cher que les modèles frontière comparés dans la section Tarifs.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).