Anthropic

Claude Sonnet 4.6

Claude Sonnet 4.6 est un LLM propriétaire d’Anthropic, sorti le 17 février 2026, avec des poids non ouverts. Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles capables de traiter de très grands volumes de texte en une…

Son positionnement combine un profil généraliste solide et une spécialisation marquée sur le code et les tâches agentiques. À sa sortie, il se situait dans le top 12% des LLM de sa génération sur GPQA diamond, tandis que ses classements Arena signalent aussi une forte présence en image-to-code, en code et en document.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	17 février 2026
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image,audio,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	35.9	42ᵉ / 136
Code Index	63.0	9ᵉ / 50
Agentic Index	40.8	6ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	94,0 %	38ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	88,0 %	94ᵉ / 239	benchable	✅ Mesuré
Epoch: GPQA diamond	87,4 %	23ᵉ / 132	epoch	✅ Mesuré
LiveBench: Mathematics	87,0 %	16ᵉ / 76	livebench	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	85,8 %	34ᵉ / 111	epoch	✅ Mesuré
LiveBench: Reasoning	84,8 %	7ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	80,0 %	6ᵉ / 64	epoch	✅ Mesuré
LiveBench: Coding	79,3 %	7ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	77,9 %	9ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	76,1 %	27ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	75,5 %	9ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	75,2 %	14ᵉ / 32	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	70,0 %	92ᵉ / 252	benchable	✅ Mesuré
LiveBench: IF	63,2 %	23ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	62,7 %	35ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Agentic Coding	60,0 %	7ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	32,4 %	17ᵉ / 69	epoch	✅ Mesuré
Epoch: SimpleQA Verified	29,0 %	36ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	13,0 %	36ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	8,3 %	22ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
Tau2 Telecom	97,9 %	7ᵉ / 34	llm-stats	Auto-déclaré
Tau2 Retail	91,7 %	2ᵉ / 25	llm-stats	Auto-déclaré
GPQA	89,9 %	18ᵉ / 213	llm-stats	Auto-déclaré
MMMLU	89,3 %	12ᵉ / 49	llm-stats	Auto-déclaré
SWE-Bench Verified	79,6 %	14ᵉ / 100	llm-stats	Auto-déclaré
MMMU-Pro	75,6 %	26ᵉ / 60	llm-stats	Auto-déclaré
LiveBench	75,5 %	13ᵉ / 38	llm-stats	n.d.
BrowseComp	74,7 %	20ᵉ / 51	llm-stats	Auto-déclaré
OSWorld	72,5 %	4ᵉ / 20	llm-stats	Auto-déclaré
Finance Agent	63,3 %	2ᵉ / 8	llm-stats	Auto-déclaré
MCP Atlas	61,3 %	22ᵉ / 27	llm-stats	Auto-déclaré
Terminal-Bench 2.0	59,1 %	22ᵉ / 48	llm-stats	Auto-déclaré
ARC-AGI v2	58,3 %	6ᵉ / 16	llm-stats	Auto-déclaré
Finance Agent v2	51,0 %	6ᵉ / 25	llm-stats	n.d.
Humanity's Last Exam	49,0 %	17ᵉ / 86	llm-stats	Auto-déclaré
GDPval-AA	47,2 %	8ᵉ / 33	llm-stats	n.d.
Legal Agent Benchmark	5,4 %	3ᵉ / 11	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nemotron 3 Ultra 550B A…37.8

▶ Claude Sonnet 4.635.9

Mistral Medium 3.529.9

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Qwen3.7 Max66.0

▶ Claude Sonnet 4.663.0

DeepSeek V4 Pro59.4

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Image-to-Code	1557	2ᵉ
Arena Code	1521	12ᵉ
Arena Document	1487	6ᵉ
Arena Text	1472	23ᵉ
Arena Vision	1278	15ᵉ
Arena Search	1218	6ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
anthropic	3 $	15 $	n.d.
Amazon Bedrock	3 $	15 $	0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	31,4 $
Durée d'exécution — PinchBench	5 h 24 min
Indice valeur/coût — PinchBench	5,57
Coût moyen par benchmark — Benchable	0,23 $
Latence moyenne par benchmark — Benchable	4 min 36 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude Sonnet 4.6 ressort surtout par ses résultats en code et en usage agentique, deux domaines où ses indices le placent dans le top 10 de leurs classements respectifs. Les tests Benchable confirment un socle généraliste très robuste, avec des performances maximales en General Knowledge (Baseline) et Ethics (Baseline), ainsi que de très bons scores en Coding (Baseline) et Mathematics (Baseline). Les classements Arena renforcent ce profil technique, avec une place particulièrement élevée en image-to-code et une bonne tenue sur les tâches documentaires. À sa sortie, son rang sur GPQA diamond le situait dans le haut de sa génération.

Limites et points d'attention. Son Intelligence Index reste moins distinctif que ses résultats en code et en agentique, ce qui suggère un modèle plus remarquable sur certains usages spécialisés que comme meilleur généraliste absolu. Le benchmark Hallucinations (Baseline) affiche un score élevé mais un rang seulement intermédiaire, et Email Classification (Baseline) apparaît nettement moins compétitif dans son classement. Le tarif est présenté comme dans la moyenne, mais il reste 54% au-dessus de la moyenne des LLM similaires, tout en étant environ 1,6 fois moins cher que les modèles frontière. Les poids non ouverts limitent les usages nécessitant audit complet, hébergement indépendant ou personnalisation profonde. Le modèle convient surtout aux scénarios de code, d’agents et d’analyse de longs documents lorsque le coût reste acceptable.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Claude Sonnet 4.6

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast