Claude Opus 4.7

Claude Opus 4.7 est un LLM propriétaire d’Anthropic, sorti le 12 mai 2026 et positionné sur le segment premium. Ses poids ne sont pas ouverts, et son profil vise clairement les usages haut de gamme, avec une très grande fenêtre de contexte de 1 000 000 tokens.

Claude Opus 4.7 est un LLM propriétaire d’Anthropic, sorti le 12 mai 2026 et positionné sur le segment premium. Ses poids ne sont pas ouverts, et son profil vise clairement les usages haut de gamme, avec une très grande fenêtre de contexte de 1 000 000 tokens.

Le modèle se distingue par des résultats de tout premier plan en connaissance générale, éthique, raisonnement, mathématiques de niveau olympiades et code. À sa sortie, il se situe dans le top 17% des LLM de sa génération sur GPQA diamond, avec une couverture fondée sur 8 sources de données concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie12 mai 2026
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index53.53ᵉ / 136
Code Index73.63ᵉ / 50
Agentic Index44.43ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202597,8 %5ᵉ / 111epoch✅ Mesuré
Benchable : Coding (Baseline)94,0 %38ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
LiveBench: Mathematics93,1 %6ᵉ / 76livebench✅ Mesuré
Epoch: GPQA diamond90,2 %14ᵉ / 132epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public90,0 %2ᵉ / 64epoch✅ Mesuré
Benchable : Hallucinations (Baseline)90,0 %145ᵉ / 229benchable✅ Mesuré
LiveBench: Reasoning87,7 %5ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified83,5 %1ᵉ / 32epoch✅ Mesuré
LiveBench: Coding82,1 %3ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)80,0 %48ᵉ / 252benchable✅ Mesuré
LiveBench: Data Analysis78,3 %6ᵉ / 76livebench✅ Mesuré
LiveBench: Language77,9 %17ᵉ / 76livebench✅ Mesuré
LiveBench: Global average76,9 %6ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)76,0 %17ᵉ / 52pinchbench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private70,2 %8ᵉ / 31epoch✅ Mesuré
LiveBench: Agentic Coding60,0 %7ᵉ / 76livebench✅ Mesuré
LiveBench: IF59,3 %34ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified50,6 %15ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private43,8 %6ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private31,7 %10ᵉ / 32epoch✅ Mesuré
Epoch: Chess Puzzles30,0 %14ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private22,9 %8ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
GPQA94,2 %3ᵉ / 213llm-statsAuto-déclaré
MMMLU91,5 %5ᵉ / 49llm-statsAuto-déclaré
CharXiv-R91,0 %2ᵉ / 42llm-statsAuto-déclaré
SWE-Bench Verified87,6 %4ᵉ / 100llm-statsAuto-déclaré
BrowseComp79,3 %13ᵉ / 51llm-statsAuto-déclaré
OSWorld-Verified78,0 %6ᵉ / 17llm-statsAuto-déclaré
MCP Atlas77,3 %5ᵉ / 27llm-statsAuto-déclaré
LiveBench76,9 %8ᵉ / 38llm-statsn.d.
CyberGym73,1 %5ᵉ / 9llm-statsAuto-déclaré
Terminal-Bench 2.069,4 %9ᵉ / 48llm-statsAuto-déclaré
Finance Agent64,4 %1ᵉ / 8llm-statsAuto-déclaré
SWE-Bench Pro64,3 %4ᵉ / 34llm-statsAuto-déclaré
FrontierSWE63,0 %5ᵉ / 13llm-statsn.d.
Humanity's Last Exam54,7 %7ᵉ / 86llm-statsAuto-déclaré
Finance Agent v251,5 %5ᵉ / 25llm-statsn.d.
GDPval-AA51,4 %4ᵉ / 33llm-statsn.d.
Legal Agent Benchmark7,1 %2ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ Claude Opus 4.753.5
GPT-5.451.4

Code Index

▶ Claude Opus 4.773.6
GPT-5.471.1

Classements Arena (Elo)

CatégorieEloRang
Arena Image-to-Code15811ᵉ
Arena Code15634ᵉ
Arena Code15575ᵉ
Arena Image-to-Code15563ᵉ
Arena Text15023ᵉ
Arena Document14983ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
anthropic5 $25 $n.d.
Google Vertex (Europe)5 $25 $0,5 $
Anthropic30 $150 $3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)62,5 $
Durée d'exécution — PinchBench4 h 31 min
Indice valeur/coût — PinchBench2,41
Coût moyen par benchmark — Benchable0,39 $
Latence moyenne par benchmark — Benchable4 min 12 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysUnited States of America

Notre analyse

Forces. Claude Opus 4.7 fait partie des meilleurs modèles mesurés sur l’Intelligence Index, le Code Index et l’Agentic Index, avec un profil équilibré entre raisonnement général, programmation et tâches agentiques. Ses scores parfaits en Benchable General Knowledge et Ethics signalent une forte maîtrise des questions factuelles et des scénarios d’évaluation éthique. Le modèle se place aussi dans le top 10 sur OTIS Mock AIME 2024-2025, un benchmark d’olympiades de mathématiques de niveau lycée, ce qui confirme un très bon niveau en raisonnement formel. En code, il combine un très bon Code Index, une place de tête en Arena image-to-code et des classements élevés en Arena code.

Limites et points d'attention. Le principal frein est économique : l’entrée à 5 $ par million de tokens et la sortie à 25 $ par million le placent nettement dans le premium, avec une tarification 157% au-dessus de la moyenne des LLM similaires. Les performances ne sont pas uniformément dominantes : Email Classification reste nettement moins bien classé que ses meilleurs domaines, et Coding Baseline n’atteint pas le niveau relatif de ses résultats en connaissance générale, éthique ou mathématiques. La licence propriétaire limite aussi l’audit direct des poids et les déploiements nécessitant un contrôle complet du modèle. Claude Opus 4.7 convient surtout aux usages exigeants en raisonnement, analyse longue, génération de code et workflows agentiques, lorsque le coût supérieur reste acceptable.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).