Claude Sonnet 4

Claude Sonnet 4 est un LLM propriétaire d’Anthropic, sorti le 22 mai 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà longue à l’échelle de l’IA : le modèle se lit surtout comme un représentant de sa génération, plutôt que comme une référence actuelle.

Claude Sonnet 4 est un LLM propriétaire d’Anthropic, sorti le 22 mai 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà longue à l’échelle de l’IA : le modèle se lit surtout comme un représentant de sa génération, plutôt que comme une référence actuelle.

Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, très étendue pour traiter de longs corpus. À sa sortie, il figurait dans le top 9% des LLM de sa période sur GPQA diamond, ce qui le plaçait alors dans le haut du panier de sa génération.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie22 mai 2025
Connaissances jusqu'à2025-01-31
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index25.579ᵉ / 136
Math Index38.038ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,8 %63ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)93,0 %58ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)88,0 %94ᵉ / 239benchable✅ Mesuré
Epoch: MATH level 584,4 %21ᵉ / 84epoch✅ Mesuré
LiveBench: Coding80,7 %4ᵉ / 76livebench✅ Mesuré
Epoch: GPQA diamond79,2 %45ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202571,1 %51ᵉ / 111epoch✅ Mesuré
LiveBench: Language71,0 %42ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)66,0 %110ᵉ / 252benchable✅ Mesuré
LiveBench: Mathematics60,4 %67ᵉ / 76livebench✅ Mesuré
LiveBench: Global average51,0 %58ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)48,8 %44ᵉ / 52pinchbench✅ Mesuré
LiveBench: Data Analysis44,1 %67ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning39,7 %67ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding38,3 %48ᵉ / 76livebench✅ Mesuré
LiveBench: IF22,7 %66ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private4,1 %50ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private0,0 %47ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
MMMLU86,5 %23ᵉ / 49llm-statsAuto-déclaré
TAU-bench Retail80,5 %5ᵉ / 24llm-statsAuto-déclaré
GPQA75,4 %89ᵉ / 213llm-statsAuto-déclaré
MMMU74,4 %22ᵉ / 61llm-statsAuto-déclaré
SWE-Bench Verified72,7 %46ᵉ / 100llm-statsAuto-déclaré
AIME 202570,5 %82ᵉ / 108llm-statsAuto-déclaré
TAU-bench Airline60,0 %4ᵉ / 22llm-statsAuto-déclaré
Terminal-Bench35,5 %13ᵉ / 25llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Mistral Medium 3.529.9
▶ Claude Sonnet 425.5
Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
Qwen3-235B-A22B-Instruc…71.7
▶ Claude Sonnet 438.0
Llama 4 Maverick19.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text1399121ᵉ
Arena Text1389134ᵉ
Arena Vision120754ᵉ
Arena Vision118864ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Google Vertex (Global)3 $15 $0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)24,23 $
Durée d'exécution — PinchBench5 h 43 min
Indice valeur/coût — PinchBench2,73
Coût moyen par benchmark — Benchable0,3 $
Latence moyenne par benchmark — Benchable7 min 25 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. Claude Sonnet 4 affiche ses meilleurs résultats sur Benchable Hallucinations et Benchable Ethics, où il atteint le top 10, avec un score maximal dans les données disponibles. Cette combinaison indique un modèle particulièrement solide, à son époque, sur la fiabilité apparente des réponses et le respect de critères éthiques standardisés. Les tâches de General Knowledge, Email Classification, Coding et Mathematics restent également bien couvertes, avec des scores élevés sur Benchable, même si les rangs montrent une concurrence déjà dense. Sa très grande fenêtre de contexte constitue un autre atout concret, utile pour analyser de longs documents ou maintenir une conversation étendue sans découpage excessif.

Limites et points d'attention. Claude Sonnet 4 est aujourd’hui un modèle ancien : ses performances sont probablement largement dépassées par les générations plus récentes, et un modèle de cet âge est souvent retiré du catalogue actif de son éditeur. Ses classements Arena text le situent loin des premiers rangs, tandis que l’Intelligence Index le place plutôt en milieu ou bas de tableau parmi les modèles comparés. La tarification n’est pas particulièrement agressive : elle se situe dans la moyenne, mais reste 54% au-dessus de celle des LLM similaires, tout en demeurant environ 1,6 fois moins chère que les modèles frontière. Sa licence propriétaire limite aussi l’audit, l’hébergement autonome et les usages nécessitant des poids ouverts.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).