Claude Opus 4.5

Claude Opus 4.5 est un LLM propriétaire d’Anthropic, sorti le 24 novembre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Il se place dans le segment premium, avec un tarif nettement supérieur à la moyenne des LLM similaires.

Claude Opus 4.5 est un LLM propriétaire d’Anthropic, sorti le 24 novembre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Il se place dans le segment premium, avec un tarif nettement supérieur à la moyenne des LLM similaires.

Le modèle se distingue surtout par de très bons résultats en connaissances générales, éthique, raisonnement et mathématiques. À sa sortie, il figurait dans le top 8% des LLM de sa génération sur Epoch: GPQA diamond, ce qui le situe parmi les modèles les plus solides de sa période.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie24 novembre 2025
Connaissances jusqu'à2025-03-31
Multimodaloui
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index34.744ᵉ / 136
Math Index62.724ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)96,0 %13ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202586,1 %32ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond86,0 %27ᵉ / 132epoch✅ Mesuré
LiveBench: Language78,7 %15ᵉ / 76livebench✅ Mesuré
LiveBench: Coding78,5 %12ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)77,0 %58ᵉ / 252benchable✅ Mesuré
Epoch: SWE-Bench verified76,7 %9ᵉ / 32epoch✅ Mesuré
LiveBench: Mathematics66,3 %61ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding63,3 %5ᵉ / 76livebench✅ Mesuré
LiveBench: Global average59,1 %47ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning53,2 %57ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis45,5 %62ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified41,8 %24ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public40,0 %20ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private34,4 %26ᵉ / 31epoch✅ Mesuré
LiveBench: IF28,1 %58ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private20,7 %30ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles12,0 %37ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private4,9 %25ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private4,2 %27ᵉ / 55epoch✅ Mesuré
Tau2 Telecom98,2 %5ᵉ / 34llm-statsAuto-déclaré
MMMLU90,8 %7ᵉ / 49llm-statsAuto-déclaré
Tau2 Retail88,9 %3ᵉ / 25llm-statsAuto-déclaré
GPQA87,0 %30ᵉ / 213llm-statsAuto-déclaré
SWE-Bench Verified80,9 %5ᵉ / 100llm-statsAuto-déclaré
MMMU (validation)80,7 %1ᵉ / 4llm-statsAuto-déclaré
LiveBench76,0 %12ᵉ / 38llm-statsn.d.
OSWorld66,3 %6ᵉ / 20llm-statsAuto-déclaré
MCP Atlas62,3 %21ᵉ / 27llm-statsAuto-déclaré
Terminal-Bench 2.059,3 %20ᵉ / 48llm-statsAuto-déclaré
ARC-AGI v237,6 %10ᵉ / 16llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Nemotron 3 Ultra 550B A…37.8
▶ Claude Opus 4.534.7
Mistral Medium 3.529.9

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
Qwen3-235B-A22B-Instruc…71.7
▶ Claude Opus 4.562.7
Llama 4 Maverick19.3

Classements Arena (Elo)

CatégorieEloRang
Arena Code149017ᵉ
Arena Text147321ᵉ
Arena Text146926ᵉ
Arena Code146622ᵉ
Arena Document146112ᵉ
Arena Search117916ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Amazon Bedrock5 $25 $0,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,42 $
Latence moyenne par benchmark — Benchable6 min 04 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. Claude Opus 4.5 affiche ses meilleurs signaux sur Benchable General Knowledge et Ethics, où il atteint le tout premier rang des classements disponibles. Ses résultats en Reasoning et Mathematics le placent aussi dans le haut du tableau, avec une position particulièrement solide en mathématiques. Les classements Arena confirment un bon niveau perçu en code comme en texte, sans le placer tout en haut du marché. La fenêtre de contexte de 200 000 tokens constitue un atout concret pour traiter de longs documents, maintenir un fil de discussion étendu ou analyser des corpus volumineux.

Limites et points d'attention. Le positionnement tarifaire est clairement premium: l’entrée à 5 $ par million de tokens et la sortie à 25 $ par million placent Claude Opus 4.5 à 157% au-dessus de la moyenne des LLM similaires. Les résultats Benchable sur Hallucinations et Email Classification restent élevés, mais leurs rangs sont moins distinctifs que ceux obtenus en connaissances générales ou en éthique. L’Intelligence Index le situe davantage dans le haut intermédiaire que parmi les tout premiers modèles évalués. Son usage se justifie surtout pour des tâches exigeantes en raisonnement, rédaction longue, analyse documentaire et mathématiques, lorsque le coût supérieur reste acceptable.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).