Anthropic

Claude Opus 4.8

Claude Opus 4.8 est un LLM propriétaire d’Anthropic, sorti le 28 mai 2026 et positionné sur le segment premium. Sa fiche le situe dans le haut de gamme récent, avec une fenêtre de contexte de 1 000 000 tokens, un atout central pour traiter de longs corpus, des bases documentaires ou des…

Le modèle se distingue par un profil très équilibré entre raisonnement général, code et usages agentiques. À sa sortie, il se plaçait dans le top 13% des LLM de sa génération sur GPQA diamond, un indicateur utile pour situer son niveau face aux modèles contemporains.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	28 mai 2026
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	55.7	2ᵉ / 136
Code Index	74.3	2ᵉ / 50
Agentic Index	47.2	2ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	98,3 %	4ᵉ / 111	epoch	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
LiveBench: Mathematics	95,3 %	2ᵉ / 76	livebench	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	94,0 %	126ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	94,0 %	61ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	92,0 %	80ᵉ / 248	benchable	✅ Mesuré
Epoch: GPQA diamond	91,0 %	11ᵉ / 132	epoch	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	90,5 %	2ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Reasoning	89,7 %	1ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	81,4 %	9ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	80,0 %	5ᵉ / 31	epoch	✅ Mesuré
LiveBench: Coding	79,3 %	7ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	78,8 %	4ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	78,3 %	5ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	69,0 %	98ᵉ / 252	benchable	✅ Mesuré
LiveBench: IF	67,4 %	11ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	60,0 %	7ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	56,1 %	6ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	47,2 %	5ᵉ / 69	epoch	✅ Mesuré
Epoch: SimpleQA Verified	39,5 %	25ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	34,0 %	11ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	31,2 %	6ᵉ / 55	epoch	✅ Mesuré
GPQA	93,6 %	4ᵉ / 213	llm-stats	Auto-déclaré
DeepSearchQA	93,1 %	1ᵉ / 6	llm-stats	Auto-déclaré
CharXiv-R	89,9 %	3ᵉ / 42	llm-stats	Auto-déclaré
SWE-Bench Verified	88,6 %	3ᵉ / 100	llm-stats	Auto-déclaré
ScreenSpot Pro	87,9 %	1ᵉ / 23	llm-stats	Auto-déclaré
Include	87,6 %	1ᵉ / 31	llm-stats	Auto-déclaré
SWE-bench Multilingual	84,4 %	2ᵉ / 32	llm-stats	Auto-déclaré
BrowseComp	84,3 %	8ᵉ / 51	llm-stats	Auto-déclaré
OSWorld-Verified	83,4 %	2ᵉ / 17	llm-stats	Auto-déclaré
Graphwalks parents >128k	83,3 %	2ᵉ / 7	llm-stats	Auto-déclaré
MCP Atlas	82,2 %	3ᵉ / 27	llm-stats	Auto-déclaré
CyberGym	78,8 %	3ᵉ / 9	llm-stats	Auto-déclaré
LiveBench	77,2 %	6ᵉ / 38	llm-stats	n.d.
FrontierSWE	75,0 %	2ᵉ / 13	llm-stats	n.d.
Terminal-Bench 2.0	74,6 %	6ᵉ / 48	llm-stats	Auto-déclaré
SWE-Bench Pro	69,2 %	3ᵉ / 34	llm-stats	Auto-déclaré
Graphwalks BFS >128k	68,1 %	2ᵉ / 8	llm-stats	Auto-déclaré
OfficeQA Pro	66,2 %	3ᵉ / 5	llm-stats	Auto-déclaré
Toolathlon	59,9 %	1ᵉ / 23	llm-stats	Auto-déclaré
Humanity's Last Exam	57,9 %	4ᵉ / 86	llm-stats	Auto-déclaré
HealthBench Professional	55,8 %	2ᵉ / 4	llm-stats	Auto-déclaré
GDPval-AA	54,6 %	2ᵉ / 33	llm-stats	n.d.
Finance Agent v2	53,9 %	3ᵉ / 25	llm-stats	n.d.
Finance Agent	53,9 %	7ᵉ / 8	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

▶ Claude Opus 4.855.7

GPT-5.451.4

Code Index

Claude Fable 576.5

▶ Claude Opus 4.874.3

GPT-5.471.1

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1565	3ᵉ
Arena Code	1542	6ᵉ
Arena Text	1484	9ᵉ
Arena Text	1479	11ᵉ
Arena Document	1473	10ᵉ
Arena Document	1472	11ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
anthropic	5 $	25 $	n.d.
Google Vertex	5 $	25 $	0,5 $
Anthropic	10 $	50 $	1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	81,79 $
Durée d'exécution — PinchBench	4 h 04 min
Indice valeur/coût — PinchBench	1,15
Coût moyen par benchmark — Benchable	0,41 $
Latence moyenne par benchmark — Benchable	4 min 32 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude Opus 4.8 figure dans le top 10 sur les principaux indices agrégés disponibles, notamment Intelligence Index, Code Index et Agentic Index. Ce profil signale un modèle solide à la fois pour les tâches de raisonnement, le développement logiciel et les enchaînements d’actions plus autonomes. Les résultats en mathématiques sont particulièrement élevés, avec une place parmi les meilleurs sur LiveBench: Mathematics et OTIS Mock AIME 2024-2025, qui mesure des exercices d’olympiades de mathématiques de niveau lycée. Le modèle obtient aussi un score maximal sur Benchable: Ethics (Baseline), avec le premier rang du corpus suivi. En code, ses classements Arena Code le placent dans le groupe de tête, ce qui confirme un positionnement compétitif pour la génération, l’analyse et la correction de code.

Limites et points d'attention. Claude Opus 4.8 reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant, l’hébergement autonome et l’adaptation fine hors des canaux prévus par l’éditeur. Son tarif est nettement haut de gamme: l’entrée et la sortie sont facturées à un niveau premium, avec un prix annoncé 157% au-dessus de la moyenne des LLM similaires. Certains résultats sont moins distinctifs que ses meilleurs scores, notamment Benchable: General Knowledge (Baseline) et Benchable: Email Classification (Baseline), où le rang ne le place pas dans le tout premier groupe malgré de bons scores bruts. Claude Opus 4.8 cible surtout les usages exigeants en raisonnement, code, mathématiques et traitement de longs contextes, lorsque le coût supérieur reste acceptable.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Claude Opus 4.8

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast