Anthropic

Claude Opus 4.5

Claude Opus 4.5 est un LLM propriétaire d’Anthropic, sorti le 24 novembre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Il se place dans le segment premium, avec un tarif nettement supérieur à la moyenne des LLM similaires.

Le modèle se distingue surtout par de très bons résultats en connaissances générales, éthique, raisonnement et mathématiques. À sa sortie, il figurait dans le top 8% des LLM de sa génération sur Epoch: GPQA diamond, ce qui le situe parmi les modèles les plus solides de sa période.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	24 novembre 2025
Connaissances jusqu'à	2025-03-31
Multimodal	oui
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	34.7	44ᵉ / 136
Math Index	62.7	24ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	96,0 %	13ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	86,1 %	32ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	86,0 %	27ᵉ / 132	epoch	✅ Mesuré
LiveBench: Language	78,7 %	15ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	78,5 %	12ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	77,0 %	58ᵉ / 252	benchable	✅ Mesuré
Epoch: SWE-Bench verified	76,7 %	9ᵉ / 32	epoch	✅ Mesuré
LiveBench: Mathematics	66,3 %	61ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	63,3 %	5ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	59,1 %	47ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	53,2 %	57ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	45,5 %	62ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	41,8 %	24ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	40,0 %	20ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	34,4 %	26ᵉ / 31	epoch	✅ Mesuré
LiveBench: IF	28,1 %	58ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	20,7 %	30ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	12,0 %	37ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	4,9 %	25ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	27ᵉ / 55	epoch	✅ Mesuré
Tau2 Telecom	98,2 %	5ᵉ / 34	llm-stats	Auto-déclaré
MMMLU	90,8 %	7ᵉ / 49	llm-stats	Auto-déclaré
Tau2 Retail	88,9 %	3ᵉ / 25	llm-stats	Auto-déclaré
GPQA	87,0 %	30ᵉ / 213	llm-stats	Auto-déclaré
SWE-Bench Verified	80,9 %	5ᵉ / 100	llm-stats	Auto-déclaré
MMMU (validation)	80,7 %	1ᵉ / 4	llm-stats	Auto-déclaré
LiveBench	76,0 %	12ᵉ / 38	llm-stats	n.d.
OSWorld	66,3 %	6ᵉ / 20	llm-stats	Auto-déclaré
MCP Atlas	62,3 %	21ᵉ / 27	llm-stats	Auto-déclaré
Terminal-Bench 2.0	59,3 %	20ᵉ / 48	llm-stats	Auto-déclaré
ARC-AGI v2	37,6 %	10ᵉ / 16	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nemotron 3 Ultra 550B A…37.8

▶ Claude Opus 4.534.7

Mistral Medium 3.529.9

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ Claude Opus 4.562.7

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1490	17ᵉ
Arena Text	1473	21ᵉ
Arena Text	1469	26ᵉ
Arena Code	1466	22ᵉ
Arena Document	1461	12ᵉ
Arena Search	1179	16ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Amazon Bedrock	5 $	25 $	0,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,42 $
Latence moyenne par benchmark — Benchable	6 min 04 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. Claude Opus 4.5 affiche ses meilleurs signaux sur Benchable General Knowledge et Ethics, où il atteint le tout premier rang des classements disponibles. Ses résultats en Reasoning et Mathematics le placent aussi dans le haut du tableau, avec une position particulièrement solide en mathématiques. Les classements Arena confirment un bon niveau perçu en code comme en texte, sans le placer tout en haut du marché. La fenêtre de contexte de 200 000 tokens constitue un atout concret pour traiter de longs documents, maintenir un fil de discussion étendu ou analyser des corpus volumineux.

Limites et points d'attention. Le positionnement tarifaire est clairement premium: l’entrée à 5 $ par million de tokens et la sortie à 25 $ par million placent Claude Opus 4.5 à 157% au-dessus de la moyenne des LLM similaires. Les résultats Benchable sur Hallucinations et Email Classification restent élevés, mais leurs rangs sont moins distinctifs que ceux obtenus en connaissances générales ou en éthique. L’Intelligence Index le situe davantage dans le haut intermédiaire que parmi les tout premiers modèles évalués. Son usage se justifie surtout pour des tâches exigeantes en raisonnement, rédaction longue, analyse documentaire et mathématiques, lorsque le coût supérieur reste acceptable.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).