Claude Opus 4.5
Claude Opus 4.5 est un LLM propriétaire d’Anthropic, sorti le 24 novembre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Il se place dans le segment premium, avec un tarif nettement supérieur à la moyenne des LLM similaires.
Claude Opus 4.5 est un LLM propriétaire d’Anthropic, sorti le 24 novembre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Il se place dans le segment premium, avec un tarif nettement supérieur à la moyenne des LLM similaires.
Le modèle se distingue surtout par de très bons résultats en connaissances générales, éthique, raisonnement et mathématiques. À sa sortie, il figurait dans le top 8% des LLM de sa génération sur Epoch: GPQA diamond, ce qui le situe parmi les modèles les plus solides de sa période.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 24 novembre 2025 |
| Connaissances jusqu'à | 2025-03-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 34.7 | 44ᵉ / 136 |
| Math Index | 62.7 | 24ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 98,0 % | 23ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 96,0 % | 13ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 86,1 % | 32ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 86,0 % | 27ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Language | 78,7 % | 15ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 78,5 % | 12ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 77,0 % | 58ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: SWE-Bench verified | 76,7 % | 9ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 66,3 % | 61ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 63,3 % | 5ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 59,1 % | 47ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 53,2 % | 57ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 45,5 % | 62ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 41,8 % | 24ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 40,0 % | 20ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 34,4 % | 26ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: IF | 28,1 % | 58ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 20,7 % | 30ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 12,0 % | 37ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 4,9 % | 25ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 27ᵉ / 55 | epoch | ✅ Mesuré |
| Tau2 Telecom | 98,2 % | 5ᵉ / 34 | llm-stats | Auto-déclaré |
| MMMLU | 90,8 % | 7ᵉ / 49 | llm-stats | Auto-déclaré |
| Tau2 Retail | 88,9 % | 3ᵉ / 25 | llm-stats | Auto-déclaré |
| GPQA | 87,0 % | 30ᵉ / 213 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,9 % | 5ᵉ / 100 | llm-stats | Auto-déclaré |
| MMMU (validation) | 80,7 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| LiveBench | 76,0 % | 12ᵉ / 38 | llm-stats | n.d. |
| OSWorld | 66,3 % | 6ᵉ / 20 | llm-stats | Auto-déclaré |
| MCP Atlas | 62,3 % | 21ᵉ / 27 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 59,3 % | 20ᵉ / 48 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 37,6 % | 10ᵉ / 16 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1490 | 17ᵉ |
| Arena Text | 1473 | 21ᵉ |
| Arena Text | 1469 | 26ᵉ |
| Arena Code | 1466 | 22ᵉ |
| Arena Document | 1461 | 12ᵉ |
| Arena Search | 1179 | 16ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Amazon Bedrock | 5 $ | 25 $ | 0,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,42 $ |
| Latence moyenne par benchmark — Benchable | 6 min 04 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude Opus 4.5 affiche ses meilleurs signaux sur Benchable General Knowledge et Ethics, où il atteint le tout premier rang des classements disponibles. Ses résultats en Reasoning et Mathematics le placent aussi dans le haut du tableau, avec une position particulièrement solide en mathématiques. Les classements Arena confirment un bon niveau perçu en code comme en texte, sans le placer tout en haut du marché. La fenêtre de contexte de 200 000 tokens constitue un atout concret pour traiter de longs documents, maintenir un fil de discussion étendu ou analyser des corpus volumineux.
Limites et points d'attention. Le positionnement tarifaire est clairement premium: l’entrée à 5 $ par million de tokens et la sortie à 25 $ par million placent Claude Opus 4.5 à 157% au-dessus de la moyenne des LLM similaires. Les résultats Benchable sur Hallucinations et Email Classification restent élevés, mais leurs rangs sont moins distinctifs que ceux obtenus en connaissances générales ou en éthique. L’Intelligence Index le situe davantage dans le haut intermédiaire que parmi les tout premiers modèles évalués. Son usage se justifie surtout pour des tâches exigeantes en raisonnement, rédaction longue, analyse documentaire et mathématiques, lorsque le coût supérieur reste acceptable.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).