Claude Opus 4.8

Claude Opus 4.8 est un LLM propriétaire d’Anthropic, sorti le 28 mai 2026 et positionné sur le segment premium. Sa fiche le situe dans le haut de gamme récent, avec une fenêtre de contexte de 1 000 000 tokens, un atout central pour traiter de longs corpus, des bases documentaires ou des…

Claude Opus 4.8 est un LLM propriétaire d’Anthropic, sorti le 28 mai 2026 et positionné sur le segment premium. Sa fiche le situe dans le haut de gamme récent, avec une fenêtre de contexte de 1 000 000 tokens, un atout central pour traiter de longs corpus, des bases documentaires ou des échanges étendus.

Le modèle se distingue par un profil très équilibré entre raisonnement général, code et usages agentiques. À sa sortie, il se plaçait dans le top 13% des LLM de sa génération sur GPQA diamond, un indicateur utile pour situer son niveau face aux modèles contemporains.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie28 mai 2026
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index55.72ᵉ / 136
Code Index74.32ᵉ / 50
Agentic Index47.22ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202598,3 %4ᵉ / 111epoch✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
LiveBench: Mathematics95,3 %2ᵉ / 76livebench✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
Benchable : Hallucinations (Baseline)94,0 %126ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)94,0 %61ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)92,0 %80ᵉ / 248benchable✅ Mesuré
Epoch: GPQA diamond91,0 %11ᵉ / 132epoch✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)90,5 %2ᵉ / 52pinchbench✅ Mesuré
LiveBench: Reasoning89,7 %1ᵉ / 76livebench✅ Mesuré
LiveBench: Language81,4 %9ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private80,0 %5ᵉ / 31epoch✅ Mesuré
LiveBench: Coding79,3 %7ᵉ / 76livebench✅ Mesuré
LiveBench: Global average78,8 %4ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis78,3 %5ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)69,0 %98ᵉ / 252benchable✅ Mesuré
LiveBench: IF67,4 %11ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding60,0 %7ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private56,1 %6ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private47,2 %5ᵉ / 69epoch✅ Mesuré
Epoch: SimpleQA Verified39,5 %25ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles34,0 %11ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private31,2 %6ᵉ / 55epoch✅ Mesuré
GPQA93,6 %4ᵉ / 213llm-statsAuto-déclaré
DeepSearchQA93,1 %1ᵉ / 6llm-statsAuto-déclaré
CharXiv-R89,9 %3ᵉ / 42llm-statsAuto-déclaré
SWE-Bench Verified88,6 %3ᵉ / 100llm-statsAuto-déclaré
ScreenSpot Pro87,9 %1ᵉ / 23llm-statsAuto-déclaré
Include87,6 %1ᵉ / 31llm-statsAuto-déclaré
SWE-bench Multilingual84,4 %2ᵉ / 32llm-statsAuto-déclaré
BrowseComp84,3 %8ᵉ / 51llm-statsAuto-déclaré
OSWorld-Verified83,4 %2ᵉ / 17llm-statsAuto-déclaré
Graphwalks parents >128k83,3 %2ᵉ / 7llm-statsAuto-déclaré
MCP Atlas82,2 %3ᵉ / 27llm-statsAuto-déclaré
CyberGym78,8 %3ᵉ / 9llm-statsAuto-déclaré
LiveBench77,2 %6ᵉ / 38llm-statsn.d.
FrontierSWE75,0 %2ᵉ / 13llm-statsn.d.
Terminal-Bench 2.074,6 %6ᵉ / 48llm-statsAuto-déclaré
SWE-Bench Pro69,2 %3ᵉ / 34llm-statsAuto-déclaré
Graphwalks BFS >128k68,1 %2ᵉ / 8llm-statsAuto-déclaré
OfficeQA Pro66,2 %3ᵉ / 5llm-statsAuto-déclaré
Toolathlon59,9 %1ᵉ / 23llm-statsAuto-déclaré
Humanity's Last Exam57,9 %4ᵉ / 86llm-statsAuto-déclaré
HealthBench Professional55,8 %2ᵉ / 4llm-statsAuto-déclaré
GDPval-AA54,6 %2ᵉ / 33llm-statsn.d.
Finance Agent v253,9 %3ᵉ / 25llm-statsn.d.
Finance Agent53,9 %7ᵉ / 8llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ Claude Opus 4.855.7
GPT-5.451.4

Code Index

▶ Claude Opus 4.874.3
GPT-5.471.1

Classements Arena (Elo)

CatégorieEloRang
Arena Code15653ᵉ
Arena Code15426ᵉ
Arena Text14849ᵉ
Arena Text147911ᵉ
Arena Document147310ᵉ
Arena Document147211ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
anthropic5 $25 $n.d.
Google Vertex5 $25 $0,5 $
Anthropic10 $50 $1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)81,79 $
Durée d'exécution — PinchBench4 h 04 min
Indice valeur/coût — PinchBench1,15
Coût moyen par benchmark — Benchable0,41 $
Latence moyenne par benchmark — Benchable4 min 32 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude Opus 4.8 figure dans le top 10 sur les principaux indices agrégés disponibles, notamment Intelligence Index, Code Index et Agentic Index. Ce profil signale un modèle solide à la fois pour les tâches de raisonnement, le développement logiciel et les enchaînements d’actions plus autonomes. Les résultats en mathématiques sont particulièrement élevés, avec une place parmi les meilleurs sur LiveBench: Mathematics et OTIS Mock AIME 2024-2025, qui mesure des exercices d’olympiades de mathématiques de niveau lycée. Le modèle obtient aussi un score maximal sur Benchable: Ethics (Baseline), avec le premier rang du corpus suivi. En code, ses classements Arena Code le placent dans le groupe de tête, ce qui confirme un positionnement compétitif pour la génération, l’analyse et la correction de code.

Limites et points d'attention. Claude Opus 4.8 reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant, l’hébergement autonome et l’adaptation fine hors des canaux prévus par l’éditeur. Son tarif est nettement haut de gamme: l’entrée et la sortie sont facturées à un niveau premium, avec un prix annoncé 157% au-dessus de la moyenne des LLM similaires. Certains résultats sont moins distinctifs que ses meilleurs scores, notamment Benchable: General Knowledge (Baseline) et Benchable: Email Classification (Baseline), où le rang ne le place pas dans le tout premier groupe malgré de bons scores bruts. Claude Opus 4.8 cible surtout les usages exigeants en raisonnement, code, mathématiques et traitement de longs contextes, lorsque le coût supérieur reste acceptable.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).