Anthropic

Claude Opus 4.1

Claude Opus 4.1 est un LLM propriétaire d’Anthropic, sorti le 5 août 2025, avec des poids non ouverts. Il s’inscrit dans le segment premium, avec une tarification nettement supérieure à celle des LLM similaires et des modèles frontière.

Le modèle combine une fenêtre de contexte de 200 000 tokens et une limite de connaissances fixée au 2025-01-31. À sa sortie, il se situait dans le top 13% des LLM de sa génération sur Epoch: GPQA diamond, ce qui le place comme un modèle haut de gamme de son époque, sans dominer tous les classements.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	5 août 2025
Connaissances jusqu'à	2025-01-31
Multimodal	oui
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	28.2	71ᵉ / 136
Math Index	80.3	17ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	94,0 %	38ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	92,9 %	86ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	92,0 %	79ᵉ / 239	benchable	✅ Mesuré
Epoch: GPQA diamond	77,3 %	47ᵉ / 132	epoch	✅ Mesuré
LiveBench: Language	76,8 %	23ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	76,1 %	20ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	73,3 %	20ᵉ / 32	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	69,0 %	98ᵉ / 252	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	68,9 %	53ᵉ / 111	epoch	✅ Mesuré
LiveBench: Mathematics	62,8 %	63ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	54,5 %	53ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	53,3 %	20ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	45,4 %	63ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	40,9 %	64ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	34,8 %	32ᵉ / 52	epoch	✅ Mesuré
LiveBench: IF	25,9 %	62ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	12,6 %	31ᵉ / 31	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	7,2 %	42ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	27ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	2,4 %	27ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
MMMLU	89,5 %	10ᵉ / 49	llm-stats	Auto-déclaré
TAU-bench Retail	82,4 %	2ᵉ / 24	llm-stats	Auto-déclaré
GPQA	80,9 %	71ᵉ / 213	llm-stats	Auto-déclaré
AIME 2025	78,0 %	69ᵉ / 108	llm-stats	Auto-déclaré
MMMU (validation)	77,1 %	2ᵉ / 4	llm-stats	Auto-déclaré
SWE-Bench Verified	74,5 %	33ᵉ / 100	llm-stats	Auto-déclaré
TAU-bench Airline	56,0 %	9ᵉ / 22	llm-stats	Auto-déclaré
Terminal-Bench	43,3 %	5ᵉ / 25	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Claude Opus 4.128.2

Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Claude Haiku 4.583.7

▶ Claude Opus 4.180.3

Qwen3-235B-A22B-Instruc…71.7

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1449	46ᵉ
Arena Text	1447	53ᵉ
Arena Code	1386	48ᵉ
Arena Search	1148	22ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Anthropic	15 $	75 $	1,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	1,25 $
Latence moyenne par benchmark — Benchable	9 min 36 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. Claude Opus 4.1 ressort très fortement sur plusieurs évaluations Benchable de référence, avec des résultats de tout premier plan sur les hallucinations, la culture générale et l’éthique. Le modèle affiche aussi un bon niveau en codage et en mathématiques sur Benchable, tandis que son Math Index le place dans le haut du classement disponible. À sa sortie, son positionnement dans le top 13% sur GPQA diamond confirme un modèle compétitif parmi les LLM de sa génération, en particulier pour les tâches de raisonnement et de réponse contrôlée.

Limites et points d'attention. Le profil n’est pas uniformément dominant : l’Intelligence Index le situe plutôt au milieu du panel mesuré, et les classements Arena text et Arena code ne le placent pas parmi les tout premiers modèles évalués. Son principal frein est économique : le tarif d’entrée et de sortie correspond à un positionnement premium, avec un prix très supérieur à la moyenne des LLM similaires et environ 3,1 fois plus élevé que celui des modèles frontière. Les poids fermés limitent aussi les usages nécessitant audit, hébergement autonome ou adaptation interne profonde. Le modèle convient surtout aux usages où la qualité de réponse et le long contexte justifient un coût élevé.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).