Claude Sonnet 4
Claude Sonnet 4 est un LLM propriétaire d’Anthropic, sorti le 22 mai 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà longue à l’échelle de l’IA : le modèle se lit surtout comme un représentant de sa génération, plutôt que comme une référence actuelle.
Claude Sonnet 4 est un LLM propriétaire d’Anthropic, sorti le 22 mai 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà longue à l’échelle de l’IA : le modèle se lit surtout comme un représentant de sa génération, plutôt que comme une référence actuelle.
Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, très étendue pour traiter de longs corpus. À sa sortie, il figurait dans le top 9% des LLM de sa période sur GPQA diamond, ce qui le plaçait alors dans le haut du panier de sa génération.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 22 mai 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 25.5 | 79ᵉ / 136 |
| Math Index | 38.0 | 38ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,8 % | 63ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,0 % | 58ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,0 % | 67ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 88,0 % | 94ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 84,4 % | 21ᵉ / 84 | epoch | ✅ Mesuré |
| LiveBench: Coding | 80,7 % | 4ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 79,2 % | 45ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 71,1 % | 51ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Language | 71,0 % | 42ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 66,0 % | 110ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 60,4 % | 67ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 51,0 % | 58ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 48,8 % | 44ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Data Analysis | 44,1 % | 67ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 39,7 % | 67ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 38,3 % | 48ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 22,7 % | 66ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 4,1 % | 50ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 0,0 % | 47ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| MMMLU | 86,5 % | 23ᵉ / 49 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 80,5 % | 5ᵉ / 24 | llm-stats | Auto-déclaré |
| GPQA | 75,4 % | 89ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMU | 74,4 % | 22ᵉ / 61 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 72,7 % | 46ᵉ / 100 | llm-stats | Auto-déclaré |
| AIME 2025 | 70,5 % | 82ᵉ / 108 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 60,0 % | 4ᵉ / 22 | llm-stats | Auto-déclaré |
| Terminal-Bench | 35,5 % | 13ᵉ / 25 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1399 | 121ᵉ |
| Arena Text | 1389 | 134ᵉ |
| Arena Vision | 1207 | 54ᵉ |
| Arena Vision | 1188 | 64ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Google Vertex (Global) | 3 $ | 15 $ | 0,3 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 24,23 $ |
| Durée d'exécution — PinchBench | 5 h 43 min |
| Indice valeur/coût — PinchBench | 2,73 |
| Coût moyen par benchmark — Benchable | 0,3 $ |
| Latence moyenne par benchmark — Benchable | 7 min 25 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude Sonnet 4 affiche ses meilleurs résultats sur Benchable Hallucinations et Benchable Ethics, où il atteint le top 10, avec un score maximal dans les données disponibles. Cette combinaison indique un modèle particulièrement solide, à son époque, sur la fiabilité apparente des réponses et le respect de critères éthiques standardisés. Les tâches de General Knowledge, Email Classification, Coding et Mathematics restent également bien couvertes, avec des scores élevés sur Benchable, même si les rangs montrent une concurrence déjà dense. Sa très grande fenêtre de contexte constitue un autre atout concret, utile pour analyser de longs documents ou maintenir une conversation étendue sans découpage excessif.
Limites et points d'attention. Claude Sonnet 4 est aujourd’hui un modèle ancien : ses performances sont probablement largement dépassées par les générations plus récentes, et un modèle de cet âge est souvent retiré du catalogue actif de son éditeur. Ses classements Arena text le situent loin des premiers rangs, tandis que l’Intelligence Index le place plutôt en milieu ou bas de tableau parmi les modèles comparés. La tarification n’est pas particulièrement agressive : elle se situe dans la moyenne, mais reste 54% au-dessus de celle des LLM similaires, tout en demeurant environ 1,6 fois moins chère que les modèles frontière. Sa licence propriétaire limite aussi l’audit, l’hébergement autonome et les usages nécessitant des poids ouverts.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).