Claude Opus 4.6
Claude Opus 4.6 est un LLM propriétaire d’Anthropic, sorti le 7 avril 2026 et positionné sur le segment premium. Son trait le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles conçus pour traiter de très grands volumes de texte en…
Claude Opus 4.6 est un LLM propriétaire d’Anthropic, sorti le 7 avril 2026 et positionné sur le segment premium. Son trait le plus distinctif est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles conçus pour traiter de très grands volumes de texte en une seule requête.
Le modèle combine un niveau général élevé avec des signaux particulièrement forts en code, en mathématiques et en éthique. À sa sortie, il se situait dans le top 11% des LLM de sa génération sur Epoch: GPQA diamond, un indicateur utile pour le replacer dans son contexte concurrentiel initial.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 7 avril 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 37.8 | 33ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 94,4 % | 14ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 94,0 % | 61ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 90,5 % | 13ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 90,0 % | 2ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 89,3 % | 11ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 88,7 % | 2ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 83,3 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 78,7 % | 4ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Coding | 78,2 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 76,3 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 75,0 % | 68ᵉ / 252 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 69,9 % | 26ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Data Analysis | 69,9 % | 21ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 66,0 % | 10ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: IF | 63,3 % | 22ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 61,7 % | 6ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 46,5 % | 22ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 40,7 % | 7ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 26,8 % | 13ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 22,9 % | 9ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 17,0 % | 30ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2025 | 99,8 % | 6ᵉ / 108 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 99,3 % | 1ᵉ / 34 | llm-stats | Auto-déclaré |
| Graphwalks parents >128k | 95,4 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
| Tau2 Retail | 91,9 % | 1ᵉ / 25 | llm-stats | Auto-déclaré |
| DeepSearchQA | 91,3 % | 2ᵉ / 6 | llm-stats | Auto-déclaré |
| GPQA | 91,3 % | 11ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMLU | 91,1 % | 6ᵉ / 49 | llm-stats | Auto-déclaré |
| BrowseComp | 84,0 % | 9ᵉ / 51 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,8 % | 6ᵉ / 100 | llm-stats | Auto-déclaré |
| FigQA | 78,3 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 77,8 % | 4ᵉ / 32 | llm-stats | Auto-déclaré |
| CharXiv-R | 77,4 % | 23ᵉ / 42 | llm-stats | Auto-déclaré |
| MMMU-Pro | 77,3 % | 18ᵉ / 60 | llm-stats | Auto-déclaré |
| LiveBench | 76,3 % | 11ᵉ / 38 | llm-stats | n.d. |
| MRCR v2 (8-needle) | 76,0 % | 1ᵉ / 10 | llm-stats | Auto-déclaré |
| CyberGym | 73,8 % | 4ᵉ / 9 | llm-stats | Auto-déclaré |
| OSWorld | 72,7 % | 3ᵉ / 20 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 68,8 % | 5ᵉ / 16 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 65,4 % | 16ᵉ / 48 | llm-stats | Auto-déclaré |
| MCP Atlas | 62,7 % | 20ᵉ / 27 | llm-stats | Auto-déclaré |
| Graphwalks BFS >128k | 61,5 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| Finance Agent | 60,7 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| FrontierSWE | 56,0 % | 6ᵉ / 13 | llm-stats | n.d. |
| GDPval-AA | 53,5 % | 3ᵉ / 33 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 53,1 % | 10ᵉ / 86 | llm-stats | Auto-déclaré |
| Legal Agent Benchmark | 4,2 % | 4ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Benchable : Ethics (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1542 | 7ᵉ |
| Arena Code | 1538 | 9ᵉ |
| Arena Image-to-Code | 1538 | 4ᵉ |
| Arena Image-to-Code | 1534 | 6ᵉ |
| Arena Document | 1507 | 1ᵉ |
| Arena Document | 1507 | 2ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| anthropic | 5 $ | 25 $ | n.d. |
| Google Vertex (Europe) | 5 $ | 25 $ | 0,5 $ |
| Anthropic | 30 $ | 150 $ | 3 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 47,03 $ |
| Durée d'exécution — PinchBench | 3 h 46 min |
| Coût moyen par benchmark — Benchable | 0,43 $ |
| Latence moyenne par benchmark — Benchable | 8 min 34 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Claude Opus 4.6 affiche ses meilleurs signaux sur Ethics (Baseline), où il atteint le tout premier rang, ainsi que sur Coding (Baseline) et Mathematics (Baseline), où il se place dans le haut du classement. Les classements Arena confirment un profil solide en programmation, avec une présence dans le top 10 sur Arena Code et dans le top 5 en image-to-code. Le score élevé sur Hallucinations (Baseline) indique aussi une bonne tenue sur les réponses factuelles dans ce protocole. Sa fenêtre de contexte de 1 000 000 tokens constitue un atout structurant pour les tâches longues, notamment l’analyse de corpus volumineux, de bases documentaires ou de projets logiciels étendus.
Limites et points d'attention. Claude Opus 4.6 reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant et l’hébergement autonome. Son positionnement tarifaire est nettement premium : à 5 $ par million de tokens en entrée et 25 $ en sortie, il se situe 157% au-dessus de la moyenne des LLM similaires. Email Classification (Baseline) ressort comme un point moins différenciant, avec un classement nettement plus bas que ses résultats en code ou en mathématiques. L’Intelligence Index le place dans une bonne zone du classement, sans le hisser tout en haut du panel. Le modèle convient surtout aux usages où le grand contexte, le code et le raisonnement justifient un coût supérieur.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).