Anthropic

Claude Opus 4.7

Claude Opus 4.7 est un LLM propriétaire d’Anthropic, sorti le 12 mai 2026 et positionné sur le segment premium. Ses poids ne sont pas ouverts, et son profil vise clairement les usages haut de gamme, avec une très grande fenêtre de contexte de 1 000 000 tokens.

Le modèle se distingue par des résultats de tout premier plan en connaissance générale, éthique, raisonnement, mathématiques de niveau olympiades et code. À sa sortie, il se situe dans le top 17% des LLM de sa génération sur GPQA diamond, avec une couverture fondée sur 8 sources de données concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	12 mai 2026
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	53.5	3ᵉ / 136
Code Index	73.6	3ᵉ / 50
Agentic Index	44.4	3ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	97,8 %	5ᵉ / 111	epoch	✅ Mesuré
Benchable : Coding (Baseline)	94,0 %	38ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
LiveBench: Mathematics	93,1 %	6ᵉ / 76	livebench	✅ Mesuré
Epoch: GPQA diamond	90,2 %	14ᵉ / 132	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	90,0 %	2ᵉ / 64	epoch	✅ Mesuré
Benchable : Hallucinations (Baseline)	90,0 %	145ᵉ / 229	benchable	✅ Mesuré
LiveBench: Reasoning	87,7 %	5ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	83,5 %	1ᵉ / 32	epoch	✅ Mesuré
LiveBench: Coding	82,1 %	3ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	80,0 %	48ᵉ / 252	benchable	✅ Mesuré
LiveBench: Data Analysis	78,3 %	6ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	77,9 %	17ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	76,9 %	6ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	76,0 %	17ᵉ / 52	pinchbench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	70,2 %	8ᵉ / 31	epoch	✅ Mesuré
LiveBench: Agentic Coding	60,0 %	7ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	59,3 %	34ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	50,6 %	15ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	43,8 %	6ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	31,7 %	10ᵉ / 32	epoch	✅ Mesuré
Epoch: Chess Puzzles	30,0 %	14ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	22,9 %	8ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
GPQA	94,2 %	3ᵉ / 213	llm-stats	Auto-déclaré
MMMLU	91,5 %	5ᵉ / 49	llm-stats	Auto-déclaré
CharXiv-R	91,0 %	2ᵉ / 42	llm-stats	Auto-déclaré
SWE-Bench Verified	87,6 %	4ᵉ / 100	llm-stats	Auto-déclaré
BrowseComp	79,3 %	13ᵉ / 51	llm-stats	Auto-déclaré
OSWorld-Verified	78,0 %	6ᵉ / 17	llm-stats	Auto-déclaré
MCP Atlas	77,3 %	5ᵉ / 27	llm-stats	Auto-déclaré
LiveBench	76,9 %	8ᵉ / 38	llm-stats	n.d.
CyberGym	73,1 %	5ᵉ / 9	llm-stats	Auto-déclaré
Terminal-Bench 2.0	69,4 %	9ᵉ / 48	llm-stats	Auto-déclaré
Finance Agent	64,4 %	1ᵉ / 8	llm-stats	Auto-déclaré
SWE-Bench Pro	64,3 %	4ᵉ / 34	llm-stats	Auto-déclaré
FrontierSWE	63,0 %	5ᵉ / 13	llm-stats	n.d.
Humanity's Last Exam	54,7 %	7ᵉ / 86	llm-stats	Auto-déclaré
Finance Agent v2	51,5 %	5ᵉ / 25	llm-stats	n.d.
GDPval-AA	51,4 %	4ᵉ / 33	llm-stats	n.d.
Legal Agent Benchmark	7,1 %	2ᵉ / 11	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

▶ Claude Opus 4.753.5

GPT-5.451.4

Code Index

Claude Fable 576.5

▶ Claude Opus 4.773.6

GPT-5.471.1

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Image-to-Code	1581	1ᵉ
Arena Code	1563	4ᵉ
Arena Code	1557	5ᵉ
Arena Image-to-Code	1556	3ᵉ
Arena Text	1502	3ᵉ
Arena Document	1498	3ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
anthropic	5 $	25 $	n.d.
Google Vertex (Europe)	5 $	25 $	0,5 $
Anthropic	30 $	150 $	3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	62,5 $
Durée d'exécution — PinchBench	4 h 31 min
Indice valeur/coût — PinchBench	2,41
Coût moyen par benchmark — Benchable	0,39 $
Latence moyenne par benchmark — Benchable	4 min 12 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	United States of America

Notre analyse

Forces. Claude Opus 4.7 fait partie des meilleurs modèles mesurés sur l’Intelligence Index, le Code Index et l’Agentic Index, avec un profil équilibré entre raisonnement général, programmation et tâches agentiques. Ses scores parfaits en Benchable General Knowledge et Ethics signalent une forte maîtrise des questions factuelles et des scénarios d’évaluation éthique. Le modèle se place aussi dans le top 10 sur OTIS Mock AIME 2024-2025, un benchmark d’olympiades de mathématiques de niveau lycée, ce qui confirme un très bon niveau en raisonnement formel. En code, il combine un très bon Code Index, une place de tête en Arena image-to-code et des classements élevés en Arena code.

Limites et points d'attention. Le principal frein est économique : l’entrée à 5 $ par million de tokens et la sortie à 25 $ par million le placent nettement dans le premium, avec une tarification 157% au-dessus de la moyenne des LLM similaires. Les performances ne sont pas uniformément dominantes : Email Classification reste nettement moins bien classé que ses meilleurs domaines, et Coding Baseline n’atteint pas le niveau relatif de ses résultats en connaissance générale, éthique ou mathématiques. La licence propriétaire limite aussi l’audit direct des poids et les déploiements nécessitant un contrôle complet du modèle. Claude Opus 4.7 convient surtout aux usages exigeants en raisonnement, analyse longue, génération de code et workflows agentiques, lorsque le coût supérieur reste acceptable.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).