Anthropic

Claude Sonnet 4.5

Claude Sonnet 4.5 est un LLM propriétaire d’Anthropic, sorti le 29 septembre 2025, avec des poids non ouverts et une fenêtre de contexte très large de 1 000 000 tokens. Le modèle se place dans la famille des LLM généralistes haut de gamme, avec un profil orienté raisonnement,…

Son intérêt tient surtout à une combinaison rare entre contexte massif, très bons résultats sur plusieurs évaluations Benchable et position solide à sa sortie, notamment sur GPQA diamond dans le haut de sa génération. Sa base de connaissances s’arrête au 31 janvier 2025, un point important pour les usages sensibles à l’actualité.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	29 septembre 2025
Connaissances jusqu'à	2025-01-31
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image,audio,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	29.3	68ᵉ / 136
Math Index	37.0	39ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Epoch: MATH level 5	97,7 %	5ᵉ / 84	epoch	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	88,0 %	94ᵉ / 239	benchable	✅ Mesuré
Epoch: GPQA diamond	82,3 %	40ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	77,8 %	45ᵉ / 111	epoch	✅ Mesuré
LiveBench: Coding	76,1 %	20ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	76,0 %	28ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	71,3 %	23ᵉ / 32	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	67,7 %	104ᵉ / 252	benchable	✅ Mesuré
LiveBench: Mathematics	62,6 %	64ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	53,7 %	54ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	48,3 %	35ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	47,0 %	59ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	42,3 %	62ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	23,9 %	28ᵉ / 31	epoch	✅ Mesuré
Epoch: SimpleQA Verified	23,6 %	42ᵉ / 52	epoch	✅ Mesuré
LiveBench: IF	23,5 %	64ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	15,2 %	34ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	12,0 %	37ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	27ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	2,4 %	27ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
MMMLU	89,1 %	13ᵉ / 49	llm-stats	Auto-déclaré
AIME 2025	87,0 %	51ᵉ / 108	llm-stats	Auto-déclaré
TAU-bench Retail	86,2 %	1ᵉ / 24	llm-stats	Auto-déclaré
GPQA	83,4 %	53ᵉ / 213	llm-stats	Auto-déclaré
MMMUval	77,8 %	3ᵉ / 4	llm-stats	Auto-déclaré
TAU-bench Airline	70,0 %	1ᵉ / 22	llm-stats	Auto-déclaré
OSWorld	61,4 %	8ᵉ / 20	llm-stats	Auto-déclaré
Terminal-Bench	50,0 %	1ᵉ / 25	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Claude Sonnet 4.529.3

Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ Claude Sonnet 4.537.0

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1455	40ᵉ
Arena Text	1455	42ᵉ
Arena Document	1449	14ᵉ
Arena Code	1388	46ᵉ
Arena Code	1386	49ᵉ
Arena Search	1157	21ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
anthropic	3 $	15 $	n.d.
Amazon Bedrock	3 $	15 $	0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,27 $
Latence moyenne par benchmark — Benchable	8 min 22 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. Claude Sonnet 4.5 se distingue par des résultats de premier plan sur Benchable Hallucinations, General Knowledge et Ethics, ce qui indique un profil robuste sur la fiabilité factuelle, les connaissances générales et les réponses à contraintes normatives. Le modèle obtient aussi un résultat très élevé sur Epoch: MATH level 5, signe d’une bonne tenue sur des problèmes mathématiques exigeants, et reste solide en codage sur Benchable Coding. Sa grande fenêtre de contexte renforce son intérêt pour l’analyse de longs documents, la synthèse de corpus volumineux et les tâches nécessitant de conserver beaucoup d’informations en mémoire. À sa sortie, son classement dans le top 8% sur GPQA diamond le situait clairement dans le haut du panier des LLM de sa génération.

Limites et points d'attention. Son Intelligence Index le place plutôt en milieu de tableau, ce qui nuance ses excellents scores ponctuels sur certains benchmarks. Le Math Index est moins favorable que son résultat sur MATH level 5, signe d’un profil mathématique performant mais pas uniformément dominant. Le tarif est dans la moyenne en valeur absolue, mais reste 54% au-dessus de la moyenne des LLM similaires, malgré un coût inférieur aux modèles frontière. Claude Sonnet 4.5 convient surtout aux usages nécessitant long contexte, bonnes connaissances générales, raisonnement mathématique avancé et codage, avec une vigilance sur les informations postérieures au 31 janvier 2025.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).