Claude Sonnet 4.6

Claude Sonnet 4.6 est un LLM propriétaire d’Anthropic, sorti le 17 février 2026, avec des poids non ouverts. Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles capables de traiter de très grands volumes de texte en une…

Claude Sonnet 4.6 est un LLM propriétaire d’Anthropic, sorti le 17 février 2026, avec des poids non ouverts. Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles capables de traiter de très grands volumes de texte en une seule requête.

Son positionnement combine un profil généraliste solide et une spécialisation marquée sur le code et les tâches agentiques. À sa sortie, il se situait dans le top 12% des LLM de sa génération sur GPQA diamond, tandis que ses classements Arena signalent aussi une forte présence en image-to-code, en code et en document.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie17 février 2026
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image,audio,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index35.942ᵉ / 136
Code Index63.09ᵉ / 50
Agentic Index40.86ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)94,0 %38ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)88,0 %94ᵉ / 239benchable✅ Mesuré
Epoch: GPQA diamond87,4 %23ᵉ / 132epoch✅ Mesuré
LiveBench: Mathematics87,0 %16ᵉ / 76livebench✅ Mesuré
Epoch: OTIS Mock AIME 2024-202585,8 %34ᵉ / 111epoch✅ Mesuré
LiveBench: Reasoning84,8 %7ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public80,0 %6ᵉ / 64epoch✅ Mesuré
LiveBench: Coding79,3 %7ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis77,9 %9ᵉ / 76livebench✅ Mesuré
LiveBench: Language76,1 %27ᵉ / 76livebench✅ Mesuré
LiveBench: Global average75,5 %9ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified75,2 %14ᵉ / 32epoch✅ Mesuré
Benchable : Instruction Following (Baseline)70,0 %92ᵉ / 252benchable✅ Mesuré
LiveBench: IF63,2 %23ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)62,7 %35ᵉ / 52pinchbench✅ Mesuré
LiveBench: Agentic Coding60,0 %7ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private32,4 %17ᵉ / 69epoch✅ Mesuré
Epoch: SimpleQA Verified29,0 %36ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles13,0 %36ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private8,3 %22ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
Tau2 Telecom97,9 %7ᵉ / 34llm-statsAuto-déclaré
Tau2 Retail91,7 %2ᵉ / 25llm-statsAuto-déclaré
GPQA89,9 %18ᵉ / 213llm-statsAuto-déclaré
MMMLU89,3 %12ᵉ / 49llm-statsAuto-déclaré
SWE-Bench Verified79,6 %14ᵉ / 100llm-statsAuto-déclaré
MMMU-Pro75,6 %26ᵉ / 60llm-statsAuto-déclaré
LiveBench75,5 %13ᵉ / 38llm-statsn.d.
BrowseComp74,7 %20ᵉ / 51llm-statsAuto-déclaré
OSWorld72,5 %4ᵉ / 20llm-statsAuto-déclaré
Finance Agent63,3 %2ᵉ / 8llm-statsAuto-déclaré
MCP Atlas61,3 %22ᵉ / 27llm-statsAuto-déclaré
Terminal-Bench 2.059,1 %22ᵉ / 48llm-statsAuto-déclaré
ARC-AGI v258,3 %6ᵉ / 16llm-statsAuto-déclaré
Finance Agent v251,0 %6ᵉ / 25llm-statsn.d.
Humanity's Last Exam49,0 %17ᵉ / 86llm-statsAuto-déclaré
GDPval-AA47,2 %8ᵉ / 33llm-statsn.d.
Legal Agent Benchmark5,4 %3ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Nemotron 3 Ultra 550B A…37.8
▶ Claude Sonnet 4.635.9
Mistral Medium 3.529.9

Code Index

GPT-5.471.1
Gemini 3.5 Flash70.1
Qwen3.7 Max66.0
▶ Claude Sonnet 4.663.0
DeepSeek V4 Pro59.4

Classements Arena (Elo)

CatégorieEloRang
Arena Image-to-Code15572ᵉ
Arena Code152112ᵉ
Arena Document14876ᵉ
Arena Text147223ᵉ
Arena Vision127815ᵉ
Arena Search12186ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
anthropic3 $15 $n.d.
Amazon Bedrock3 $15 $0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)31,4 $
Durée d'exécution — PinchBench5 h 24 min
Indice valeur/coût — PinchBench5,57
Coût moyen par benchmark — Benchable0,23 $
Latence moyenne par benchmark — Benchable4 min 36 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude Sonnet 4.6 ressort surtout par ses résultats en code et en usage agentique, deux domaines où ses indices le placent dans le top 10 de leurs classements respectifs. Les tests Benchable confirment un socle généraliste très robuste, avec des performances maximales en General Knowledge (Baseline) et Ethics (Baseline), ainsi que de très bons scores en Coding (Baseline) et Mathematics (Baseline). Les classements Arena renforcent ce profil technique, avec une place particulièrement élevée en image-to-code et une bonne tenue sur les tâches documentaires. À sa sortie, son rang sur GPQA diamond le situait dans le haut de sa génération.

Limites et points d'attention. Son Intelligence Index reste moins distinctif que ses résultats en code et en agentique, ce qui suggère un modèle plus remarquable sur certains usages spécialisés que comme meilleur généraliste absolu. Le benchmark Hallucinations (Baseline) affiche un score élevé mais un rang seulement intermédiaire, et Email Classification (Baseline) apparaît nettement moins compétitif dans son classement. Le tarif est présenté comme dans la moyenne, mais il reste 54% au-dessus de la moyenne des LLM similaires, tout en étant environ 1,6 fois moins cher que les modèles frontière. Les poids non ouverts limitent les usages nécessitant audit complet, hébergement indépendant ou personnalisation profonde. Le modèle convient surtout aux scénarios de code, d’agents et d’analyse de longs documents lorsque le coût reste acceptable.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).