Claude Opus 4.6

Claude Opus 4.6 est un LLM propriétaire d’Anthropic, sorti le 7 avril 2026 et positionné sur le segment premium. Son trait le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles conçus pour traiter de très grands volumes de texte en…

Claude Opus 4.6 est un LLM propriétaire d’Anthropic, sorti le 7 avril 2026 et positionné sur le segment premium. Son trait le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles conçus pour traiter de très grands volumes de texte en une seule requête.

Le modèle combine un niveau général élevé avec des signaux particulièrement forts en code, en mathématiques et en éthique. À sa sortie, il se situait dans le top 11% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour le replacer dans son contexte concurrentiel initial.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie7 avril 2026
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index37.833ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202594,4 %14ᵉ / 111epoch✅ Mesuré
Benchable : Reasoning (Baseline)94,0 %61ᵉ / 239benchable✅ Mesuré
Epoch: GPQA diamond90,5 %13ᵉ / 132epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public90,0 %2ᵉ / 64epoch✅ Mesuré
LiveBench: Mathematics89,3 %11ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning88,7 %2ᵉ / 76livebench✅ Mesuré
LiveBench: Language83,3 %7ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified78,7 %4ᵉ / 32epoch✅ Mesuré
LiveBench: Coding78,2 %13ᵉ / 76livebench✅ Mesuré
LiveBench: Global average76,3 %7ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)75,0 %68ᵉ / 252benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)69,9 %26ᵉ / 52pinchbench✅ Mesuré
LiveBench: Data Analysis69,9 %21ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private66,0 %10ᵉ / 31epoch✅ Mesuré
LiveBench: IF63,3 %22ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding61,7 %6ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified46,5 %22ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private40,7 %7ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private26,8 %13ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private22,9 %9ᵉ / 55epoch✅ Mesuré
Epoch: Chess Puzzles17,0 %30ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
AIME 202599,8 %6ᵉ / 108llm-statsAuto-déclaré
Tau2 Telecom99,3 %1ᵉ / 34llm-statsAuto-déclaré
Graphwalks parents >128k95,4 %1ᵉ / 7llm-statsAuto-déclaré
Tau2 Retail91,9 %1ᵉ / 25llm-statsAuto-déclaré
DeepSearchQA91,3 %2ᵉ / 6llm-statsAuto-déclaré
GPQA91,3 %11ᵉ / 213llm-statsAuto-déclaré
MMMLU91,1 %6ᵉ / 49llm-statsAuto-déclaré
BrowseComp84,0 %9ᵉ / 51llm-statsAuto-déclaré
SWE-Bench Verified80,8 %6ᵉ / 100llm-statsAuto-déclaré
FigQA78,3 %2ᵉ / 3llm-statsAuto-déclaré
SWE-bench Multilingual77,8 %4ᵉ / 32llm-statsAuto-déclaré
CharXiv-R77,4 %23ᵉ / 42llm-statsAuto-déclaré
MMMU-Pro77,3 %18ᵉ / 60llm-statsAuto-déclaré
LiveBench76,3 %11ᵉ / 38llm-statsn.d.
MRCR v2 (8-needle)76,0 %1ᵉ / 10llm-statsAuto-déclaré
CyberGym73,8 %4ᵉ / 9llm-statsAuto-déclaré
OSWorld72,7 %3ᵉ / 20llm-statsAuto-déclaré
ARC-AGI v268,8 %5ᵉ / 16llm-statsAuto-déclaré
Terminal-Bench 2.065,4 %16ᵉ / 48llm-statsAuto-déclaré
MCP Atlas62,7 %20ᵉ / 27llm-statsAuto-déclaré
Graphwalks BFS >128k61,5 %3ᵉ / 8llm-statsAuto-déclaré
Finance Agent60,7 %3ᵉ / 8llm-statsAuto-déclaré
FrontierSWE56,0 %6ᵉ / 13llm-statsn.d.
GDPval-AA53,5 %3ᵉ / 33llm-statsAuto-déclaré
Humanity's Last Exam53,1 %10ᵉ / 86llm-statsAuto-déclaré
Legal Agent Benchmark4,2 %4ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Grok Build 0.1 061639.8
▶ Claude Opus 4.637.8
Nemotron 3 Ultra 550B A…37.8

Benchable : Ethics (Baseline)

deepseek-chat-v3100 %
Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ Claude Opus 4.6100 %

Classements Arena (Elo)

CatégorieEloRang
Arena Code15427ᵉ
Arena Code15389ᵉ
Arena Image-to-Code15384ᵉ
Arena Image-to-Code15346ᵉ
Arena Document15071ᵉ
Arena Document15072ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
anthropic5 $25 $n.d.
Google Vertex (Europe)5 $25 $0,5 $
Anthropic30 $150 $3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)47,03 $
Durée d'exécution — PinchBench3 h 46 min
Coût moyen par benchmark — Benchable0,43 $
Latence moyenne par benchmark — Benchable8 min 34 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude Opus 4.6 affiche ses meilleurs signaux sur Ethics (Baseline), où il atteint le tout premier rang, ainsi que sur Coding (Baseline) et Mathematics (Baseline), où il se place dans le haut du classement. Les classements Arena confirment un profil solide en programmation, avec une présence dans le top 10 sur Arena Code et dans le top 5 en image-to-code. Le score élevé sur Hallucinations (Baseline) indique aussi une bonne tenue sur les réponses factuelles dans ce protocole. Sa fenêtre de contexte de 1 000 000 tokens constitue un atout structurant pour les tâches longues, notamment l’analyse de corpus volumineux, de bases documentaires ou de projets logiciels étendus.

Limites et points d'attention. Claude Opus 4.6 reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant et l’hébergement autonome. Son positionnement tarifaire est nettement premium : à 5 $ par million de tokens en entrée et 25 $ en sortie, il se situe 157% au-dessus de la moyenne des LLM similaires. Email Classification (Baseline) ressort comme un point moins différenciant, avec un classement nettement plus bas que ses résultats en code ou en mathématiques. L’Intelligence Index le place dans une bonne zone du classement, sans le hisser tout en haut du panel. Le modèle convient surtout aux usages où le grand contexte, le code et le raisonnement justifient un coût supérieur.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).