Claude Sonnet 4.5
Claude Sonnet 4.5 est un LLM propriétaire d’Anthropic, sorti le 29 septembre 2025, avec des poids non ouverts et une fenêtre de contexte très large de 1 000 000 tokens. Le modèle se place dans la famille des LLM généralistes haut de gamme, avec un profil orienté raisonnement,…
Claude Sonnet 4.5 est un LLM propriétaire d’Anthropic, sorti le 29 septembre 2025, avec des poids non ouverts et une fenêtre de contexte très large de 1 000 000 tokens. Le modèle se place dans la famille des LLM généralistes haut de gamme, avec un profil orienté raisonnement, connaissances générales, codage et traitement de longs documents.
Son intérêt tient surtout à une combinaison rare entre contexte massif, très bons résultats sur plusieurs évaluations Benchable et position solide à sa sortie, notamment sur GPQA diamond dans le haut de sa génération. Sa base de connaissances s’arrête au 31 janvier 2025, un point important pour les usages sensibles à l’actualité.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 29 septembre 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image,audio,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 29.3 | 68ᵉ / 136 |
| Math Index | 37.0 | 39ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 97,7 % | 5ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 88,0 % | 94ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 82,3 % | 40ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 77,8 % | 45ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Coding | 76,1 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 76,0 % | 28ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 71,3 % | 23ᵉ / 32 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 67,7 % | 104ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 62,6 % | 64ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 53,7 % | 54ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 48,3 % | 35ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 47,0 % | 59ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 42,3 % | 62ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 23,9 % | 28ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 23,6 % | 42ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: IF | 23,5 % | 64ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 15,2 % | 34ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 12,0 % | 37ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 27ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 2,4 % | 27ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| MMMLU | 89,1 % | 13ᵉ / 49 | llm-stats | Auto-déclaré |
| AIME 2025 | 87,0 % | 51ᵉ / 108 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 86,2 % | 1ᵉ / 24 | llm-stats | Auto-déclaré |
| GPQA | 83,4 % | 53ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMUval | 77,8 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 70,0 % | 1ᵉ / 22 | llm-stats | Auto-déclaré |
| OSWorld | 61,4 % | 8ᵉ / 20 | llm-stats | Auto-déclaré |
| Terminal-Bench | 50,0 % | 1ᵉ / 25 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1455 | 40ᵉ |
| Arena Text | 1455 | 42ᵉ |
| Arena Document | 1449 | 14ᵉ |
| Arena Code | 1388 | 46ᵉ |
| Arena Code | 1386 | 49ᵉ |
| Arena Search | 1157 | 21ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| anthropic | 3 $ | 15 $ | n.d. |
| Amazon Bedrock | 3 $ | 15 $ | 0,3 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,27 $ |
| Latence moyenne par benchmark — Benchable | 8 min 22 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude Sonnet 4.5 se distingue par des résultats de premier plan sur Benchable Hallucinations, General Knowledge et Ethics, ce qui indique un profil robuste sur la fiabilité factuelle, les connaissances générales et les réponses à contraintes normatives. Le modèle obtient aussi un résultat très élevé sur Epoch: MATH level 5, signe d’une bonne tenue sur des problèmes mathématiques exigeants, et reste solide en codage sur Benchable Coding. Sa grande fenêtre de contexte renforce son intérêt pour l’analyse de longs documents, la synthèse de corpus volumineux et les tâches nécessitant de conserver beaucoup d’informations en mémoire. À sa sortie, son classement dans le top 8% sur GPQA diamond le situait clairement dans le haut du panier des LLM de sa génération.
Limites et points d'attention. Son Intelligence Index le place plutôt en milieu de tableau, ce qui nuance ses excellents scores ponctuels sur certains benchmarks. Le Math Index est moins favorable que son résultat sur MATH level 5, signe d’un profil mathématique performant mais pas uniformément dominant. Le tarif est dans la moyenne en valeur absolue, mais reste 54% au-dessus de la moyenne des LLM similaires, malgré un coût inférieur aux modèles frontière. Claude Sonnet 4.5 convient surtout aux usages nécessitant long contexte, bonnes connaissances générales, raisonnement mathématique avancé et codage, avec une vigilance sur les informations postérieures au 31 janvier 2025.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).