Claude Sonnet 4.5

Claude Sonnet 4.5 est un LLM propriétaire d’Anthropic, sorti le 29 septembre 2025, avec des poids non ouverts et une fenêtre de contexte très large de 1 000 000 tokens. Le modèle se place dans la famille des LLM généralistes haut de gamme, avec un profil orienté raisonnement,…

Claude Sonnet 4.5 est un LLM propriétaire d’Anthropic, sorti le 29 septembre 2025, avec des poids non ouverts et une fenêtre de contexte très large de 1 000 000 tokens. Le modèle se place dans la famille des LLM généralistes haut de gamme, avec un profil orienté raisonnement, connaissances générales, codage et traitement de longs documents.

Son intérêt tient surtout à une combinaison rare entre contexte massif, très bons résultats sur plusieurs évaluations Benchable et position solide à sa sortie, notamment sur GPQA diamond dans le haut de sa génération. Sa base de connaissances s’arrête au 31 janvier 2025, un point important pour les usages sensibles à l’actualité.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie29 septembre 2025
Connaissances jusqu'à2025-01-31
Multimodaloui
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image,audio,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index29.368ᵉ / 136
Math Index37.039ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Epoch: MATH level 597,7 %5ᵉ / 84epoch✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)88,0 %94ᵉ / 239benchable✅ Mesuré
Epoch: GPQA diamond82,3 %40ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202577,8 %45ᵉ / 111epoch✅ Mesuré
LiveBench: Coding76,1 %20ᵉ / 76livebench✅ Mesuré
LiveBench: Language76,0 %28ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified71,3 %23ᵉ / 32epoch✅ Mesuré
Benchable : Instruction Following (Baseline)67,7 %104ᵉ / 252benchable✅ Mesuré
LiveBench: Mathematics62,6 %64ᵉ / 76livebench✅ Mesuré
LiveBench: Global average53,7 %54ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding48,3 %35ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis47,0 %59ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning42,3 %62ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private23,9 %28ᵉ / 31epoch✅ Mesuré
Epoch: SimpleQA Verified23,6 %42ᵉ / 52epoch✅ Mesuré
LiveBench: IF23,5 %64ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private15,2 %34ᵉ / 69epoch✅ Mesuré
Epoch: Chess Puzzles12,0 %37ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private4,2 %27ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private2,4 %27ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
MMMLU89,1 %13ᵉ / 49llm-statsAuto-déclaré
AIME 202587,0 %51ᵉ / 108llm-statsAuto-déclaré
TAU-bench Retail86,2 %1ᵉ / 24llm-statsAuto-déclaré
GPQA83,4 %53ᵉ / 213llm-statsAuto-déclaré
MMMUval77,8 %3ᵉ / 4llm-statsAuto-déclaré
TAU-bench Airline70,0 %1ᵉ / 22llm-statsAuto-déclaré
OSWorld61,4 %8ᵉ / 20llm-statsAuto-déclaré
Terminal-Bench50,0 %1ᵉ / 25llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Mistral Medium 3.529.9
▶ Claude Sonnet 4.529.3
Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
Qwen3-235B-A22B-Instruc…71.7
▶ Claude Sonnet 4.537.0
Llama 4 Maverick19.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text145540ᵉ
Arena Text145542ᵉ
Arena Document144914ᵉ
Arena Code138846ᵉ
Arena Code138649ᵉ
Arena Search115721ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
anthropic3 $15 $n.d.
Amazon Bedrock3 $15 $0,3 $

Prix en dollars US par million de tokens.

Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,27 $
Latence moyenne par benchmark — Benchable8 min 22 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. Claude Sonnet 4.5 se distingue par des résultats de premier plan sur Benchable Hallucinations, General Knowledge et Ethics, ce qui indique un profil robuste sur la fiabilité factuelle, les connaissances générales et les réponses à contraintes normatives. Le modèle obtient aussi un résultat très élevé sur Epoch: MATH level 5, signe d’une bonne tenue sur des problèmes mathématiques exigeants, et reste solide en codage sur Benchable Coding. Sa grande fenêtre de contexte renforce son intérêt pour l’analyse de longs documents, la synthèse de corpus volumineux et les tâches nécessitant de conserver beaucoup d’informations en mémoire. À sa sortie, son classement dans le top 8% sur GPQA diamond le situait clairement dans le haut du panier des LLM de sa génération.

Limites et points d'attention. Son Intelligence Index le place plutôt en milieu de tableau, ce qui nuance ses excellents scores ponctuels sur certains benchmarks. Le Math Index est moins favorable que son résultat sur MATH level 5, signe d’un profil mathématique performant mais pas uniformément dominant. Le tarif est dans la moyenne en valeur absolue, mais reste 54% au-dessus de la moyenne des LLM similaires, malgré un coût inférieur aux modèles frontière. Claude Sonnet 4.5 convient surtout aux usages nécessitant long contexte, bonnes connaissances générales, raisonnement mathématique avancé et codage, avec une vigilance sur les informations postérieures au 31 janvier 2025.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).