Anthropic

Claude Opus 4.6

Claude Opus 4.6 est un LLM propriétaire d’Anthropic, sorti le 7 avril 2026 et positionné sur le segment premium. Son trait le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles conçus pour traiter de très grands volumes de texte en…

Le modèle combine un niveau général élevé avec des signaux particulièrement forts en code, en mathématiques et en éthique. À sa sortie, il se situait dans le top 11% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour le replacer dans son contexte concurrentiel initial.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	7 avril 2026
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	37.8	33ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	94,4 %	14ᵉ / 111	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	94,0 %	61ᵉ / 239	benchable	✅ Mesuré
Epoch: GPQA diamond	90,5 %	13ᵉ / 132	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	90,0 %	2ᵉ / 64	epoch	✅ Mesuré
LiveBench: Mathematics	89,3 %	11ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	88,7 %	2ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	83,3 %	7ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	78,7 %	4ᵉ / 32	epoch	✅ Mesuré
LiveBench: Coding	78,2 %	13ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	76,3 %	7ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	75,0 %	68ᵉ / 252	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	69,9 %	26ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Data Analysis	69,9 %	21ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	66,0 %	10ᵉ / 31	epoch	✅ Mesuré
LiveBench: IF	63,3 %	22ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	61,7 %	6ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	46,5 %	22ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	40,7 %	7ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	26,8 %	13ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	22,9 %	9ᵉ / 55	epoch	✅ Mesuré
Epoch: Chess Puzzles	17,0 %	30ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
AIME 2025	99,8 %	6ᵉ / 108	llm-stats	Auto-déclaré
Tau2 Telecom	99,3 %	1ᵉ / 34	llm-stats	Auto-déclaré
Graphwalks parents >128k	95,4 %	1ᵉ / 7	llm-stats	Auto-déclaré
Tau2 Retail	91,9 %	1ᵉ / 25	llm-stats	Auto-déclaré
DeepSearchQA	91,3 %	2ᵉ / 6	llm-stats	Auto-déclaré
GPQA	91,3 %	11ᵉ / 213	llm-stats	Auto-déclaré
MMMLU	91,1 %	6ᵉ / 49	llm-stats	Auto-déclaré
BrowseComp	84,0 %	9ᵉ / 51	llm-stats	Auto-déclaré
SWE-Bench Verified	80,8 %	6ᵉ / 100	llm-stats	Auto-déclaré
FigQA	78,3 %	2ᵉ / 3	llm-stats	Auto-déclaré
SWE-bench Multilingual	77,8 %	4ᵉ / 32	llm-stats	Auto-déclaré
CharXiv-R	77,4 %	23ᵉ / 42	llm-stats	Auto-déclaré
MMMU-Pro	77,3 %	18ᵉ / 60	llm-stats	Auto-déclaré
LiveBench	76,3 %	11ᵉ / 38	llm-stats	n.d.
MRCR v2 (8-needle)	76,0 %	1ᵉ / 10	llm-stats	Auto-déclaré
CyberGym	73,8 %	4ᵉ / 9	llm-stats	Auto-déclaré
OSWorld	72,7 %	3ᵉ / 20	llm-stats	Auto-déclaré
ARC-AGI v2	68,8 %	5ᵉ / 16	llm-stats	Auto-déclaré
Terminal-Bench 2.0	65,4 %	16ᵉ / 48	llm-stats	Auto-déclaré
MCP Atlas	62,7 %	20ᵉ / 27	llm-stats	Auto-déclaré
Graphwalks BFS >128k	61,5 %	3ᵉ / 8	llm-stats	Auto-déclaré
Finance Agent	60,7 %	3ᵉ / 8	llm-stats	Auto-déclaré
FrontierSWE	56,0 %	6ᵉ / 13	llm-stats	n.d.
GDPval-AA	53,5 %	3ᵉ / 33	llm-stats	Auto-déclaré
Humanity's Last Exam	53,1 %	10ᵉ / 86	llm-stats	Auto-déclaré
Legal Agent Benchmark	4,2 %	4ᵉ / 11	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Grok Build 0.1 061639.8

▶ Claude Opus 4.637.8

Nemotron 3 Ultra 550B A…37.8

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Claude Opus 4.6100 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1542	7ᵉ
Arena Code	1538	9ᵉ
Arena Image-to-Code	1538	4ᵉ
Arena Image-to-Code	1534	6ᵉ
Arena Document	1507	1ᵉ
Arena Document	1507	2ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
anthropic	5 $	25 $	n.d.
Google Vertex (Europe)	5 $	25 $	0,5 $
Anthropic	30 $	150 $	3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	47,03 $
Durée d'exécution — PinchBench	3 h 46 min
Coût moyen par benchmark — Benchable	0,43 $
Latence moyenne par benchmark — Benchable	8 min 34 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude Opus 4.6 affiche ses meilleurs signaux sur Ethics (Baseline), où il atteint le tout premier rang, ainsi que sur Coding (Baseline) et Mathematics (Baseline), où il se place dans le haut du classement. Les classements Arena confirment un profil solide en programmation, avec une présence dans le top 10 sur Arena Code et dans le top 5 en image-to-code. Le score élevé sur Hallucinations (Baseline) indique aussi une bonne tenue sur les réponses factuelles dans ce protocole. Sa fenêtre de contexte de 1 000 000 tokens constitue un atout structurant pour les tâches longues, notamment l’analyse de corpus volumineux, de bases documentaires ou de projets logiciels étendus.

Limites et points d'attention. Claude Opus 4.6 reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant et l’hébergement autonome. Son positionnement tarifaire est nettement premium : à 5 $ par million de tokens en entrée et 25 $ en sortie, il se situe 157% au-dessus de la moyenne des LLM similaires. Email Classification (Baseline) ressort comme un point moins différenciant, avec un classement nettement plus bas que ses résultats en code ou en mathématiques. L’Intelligence Index le place dans une bonne zone du classement, sans le hisser tout en haut du panel. Le modèle convient surtout aux usages où le grand contexte, le code et le raisonnement justifient un coût supérieur.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Claude Opus 4.6

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast