Anthropic

Claude Sonnet 4

Claude Sonnet 4 est un LLM propriétaire d’Anthropic, sorti le 22 mai 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà longue à l’échelle de l’IA : le modèle se lit surtout comme un représentant de sa génération, plutôt que comme une référence actuelle.

Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, très étendue pour traiter de longs corpus. À sa sortie, il figurait dans le top 9% des LLM de sa période sur GPQA diamond, ce qui le plaçait alors dans le haut du panier de sa génération.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	22 mai 2025
Connaissances jusqu'à	2025-01-31
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	25.5	79ᵉ / 136
Math Index	38.0	38ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,8 %	63ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	88,0 %	94ᵉ / 239	benchable	✅ Mesuré
Epoch: MATH level 5	84,4 %	21ᵉ / 84	epoch	✅ Mesuré
LiveBench: Coding	80,7 %	4ᵉ / 76	livebench	✅ Mesuré
Epoch: GPQA diamond	79,2 %	45ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	71,1 %	51ᵉ / 111	epoch	✅ Mesuré
LiveBench: Language	71,0 %	42ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	66,0 %	110ᵉ / 252	benchable	✅ Mesuré
LiveBench: Mathematics	60,4 %	67ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	51,0 %	58ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	48,8 %	44ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Data Analysis	44,1 %	67ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	39,7 %	67ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	38,3 %	48ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	22,7 %	66ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	4,1 %	50ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	0,0 %	47ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
MMMLU	86,5 %	23ᵉ / 49	llm-stats	Auto-déclaré
TAU-bench Retail	80,5 %	5ᵉ / 24	llm-stats	Auto-déclaré
GPQA	75,4 %	89ᵉ / 213	llm-stats	Auto-déclaré
MMMU	74,4 %	22ᵉ / 61	llm-stats	Auto-déclaré
SWE-Bench Verified	72,7 %	46ᵉ / 100	llm-stats	Auto-déclaré
AIME 2025	70,5 %	82ᵉ / 108	llm-stats	Auto-déclaré
TAU-bench Airline	60,0 %	4ᵉ / 22	llm-stats	Auto-déclaré
Terminal-Bench	35,5 %	13ᵉ / 25	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Claude Sonnet 425.5

Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ Claude Sonnet 438.0

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1399	121ᵉ
Arena Text	1389	134ᵉ
Arena Vision	1207	54ᵉ
Arena Vision	1188	64ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Google Vertex (Global)	3 $	15 $	0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	24,23 $
Durée d'exécution — PinchBench	5 h 43 min
Indice valeur/coût — PinchBench	2,73
Coût moyen par benchmark — Benchable	0,3 $
Latence moyenne par benchmark — Benchable	7 min 25 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. Claude Sonnet 4 affiche ses meilleurs résultats sur Benchable Hallucinations et Benchable Ethics, où il atteint le top 10, avec un score maximal dans les données disponibles. Cette combinaison indique un modèle particulièrement solide, à son époque, sur la fiabilité apparente des réponses et le respect de critères éthiques standardisés. Les tâches de General Knowledge, Email Classification, Coding et Mathematics restent également bien couvertes, avec des scores élevés sur Benchable, même si les rangs montrent une concurrence déjà dense. Sa très grande fenêtre de contexte constitue un autre atout concret, utile pour analyser de longs documents ou maintenir une conversation étendue sans découpage excessif.

Limites et points d'attention. Claude Sonnet 4 est aujourd’hui un modèle ancien : ses performances sont probablement largement dépassées par les générations plus récentes, et un modèle de cet âge est souvent retiré du catalogue actif de son éditeur. Ses classements Arena text le situent loin des premiers rangs, tandis que l’Intelligence Index le place plutôt en milieu ou bas de tableau parmi les modèles comparés. La tarification n’est pas particulièrement agressive : elle se situe dans la moyenne, mais reste 54% au-dessus de celle des LLM similaires, tout en demeurant environ 1,6 fois moins chère que les modèles frontière. Sa licence propriétaire limite aussi l’audit, l’hébergement autonome et les usages nécessitant des poids ouverts.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).