Claude Opus 4.1

Claude Opus 4.1 est un LLM propriétaire d’Anthropic, sorti le 5 août 2025, avec des poids non ouverts. Il s’inscrit dans le segment premium, avec une tarification nettement supérieure à celle des LLM similaires et des modèles frontière.

Claude Opus 4.1 est un LLM propriétaire d’Anthropic, sorti le 5 août 2025, avec des poids non ouverts. Il s’inscrit dans le segment premium, avec une tarification nettement supérieure à celle des LLM similaires et des modèles frontière.

Le modèle combine une fenêtre de contexte de 200 000 tokens et une limite de connaissances fixée au 2025-01-31. À sa sortie, il se situait dans le top 13% des LLM de sa génération sur Epoch: GPQA diamond, ce qui le place comme un modèle haut de gamme de son époque, sans dominer tous les classements.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie5 août 2025
Connaissances jusqu'à2025-01-31
Multimodaloui
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index28.271ᵉ / 136
Math Index80.317ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)94,0 %38ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,9 %86ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)92,0 %79ᵉ / 239benchable✅ Mesuré
Epoch: GPQA diamond77,3 %47ᵉ / 132epoch✅ Mesuré
LiveBench: Language76,8 %23ᵉ / 76livebench✅ Mesuré
LiveBench: Coding76,1 %20ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified73,3 %20ᵉ / 32epoch✅ Mesuré
Benchable : Instruction Following (Baseline)69,0 %98ᵉ / 252benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202568,9 %53ᵉ / 111epoch✅ Mesuré
LiveBench: Mathematics62,8 %63ᵉ / 76livebench✅ Mesuré
LiveBench: Global average54,5 %53ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding53,3 %20ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis45,4 %63ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning40,9 %64ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified34,8 %32ᵉ / 52epoch✅ Mesuré
LiveBench: IF25,9 %62ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private12,6 %31ᵉ / 31epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private7,2 %42ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private4,2 %27ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private2,4 %27ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
MMMLU89,5 %10ᵉ / 49llm-statsAuto-déclaré
TAU-bench Retail82,4 %2ᵉ / 24llm-statsAuto-déclaré
GPQA80,9 %71ᵉ / 213llm-statsAuto-déclaré
AIME 202578,0 %69ᵉ / 108llm-statsAuto-déclaré
MMMU (validation)77,1 %2ᵉ / 4llm-statsAuto-déclaré
SWE-Bench Verified74,5 %33ᵉ / 100llm-statsAuto-déclaré
TAU-bench Airline56,0 %9ᵉ / 22llm-statsAuto-déclaré
Terminal-Bench43,3 %5ᵉ / 25llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Mistral Medium 3.529.9
▶ Claude Opus 4.128.2
Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
▶ Claude Opus 4.180.3
Qwen3-235B-A22B-Instruc…71.7

Classements Arena (Elo)

CatégorieEloRang
Arena Text144946ᵉ
Arena Text144753ᵉ
Arena Code138648ᵉ
Arena Search114822ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Anthropic15 $75 $1,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable1,25 $
Latence moyenne par benchmark — Benchable9 min 36 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. Claude Opus 4.1 ressort très fortement sur plusieurs évaluations Benchable de référence, avec des résultats de tout premier plan sur les hallucinations, la culture générale et l’éthique. Le modèle affiche aussi un bon niveau en codage et en mathématiques sur Benchable, tandis que son Math Index le place dans le haut du classement disponible. À sa sortie, son positionnement dans le top 13% sur GPQA diamond confirme un modèle compétitif parmi les LLM de sa génération, en particulier pour les tâches de raisonnement et de réponse contrôlée.

Limites et points d'attention. Le profil n’est pas uniformément dominant : l’Intelligence Index le situe plutôt au milieu du panel mesuré, et les classements Arena text et Arena code ne le placent pas parmi les tout premiers modèles évalués. Son principal frein est économique : le tarif d’entrée et de sortie correspond à un positionnement premium, avec un prix très supérieur à la moyenne des LLM similaires et environ 3,1 fois plus élevé que celui des modèles frontière. Les poids fermés limitent aussi les usages nécessitant audit, hébergement autonome ou adaptation interne profonde. Le modèle convient surtout aux usages où la qualité de réponse et le long contexte justifient un coût élevé.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).