Anthropic

Claude 3 Sonnet

Claude 3 Sonnet est un LLM propriétaire d’Anthropic, publié le 29 février 2024 aux États-Unis, avec des poids non ouverts. Son ancienneté, environ deux ans, est déjà très importante dans l’IA générative: la fiche le situe donc surtout par rapport aux modèles de sa génération, plutôt que…

Son trait le plus visible est une fenêtre de contexte de 200 000 tokens, utile pour traiter de longs contenus dans une même session. Ses connaissances s’arrêtent au 31 août 2023, un point central pour interpréter ses réponses sur l’actualité, les produits récents et l’état présent du marché.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	29 février 2024
Connaissances jusqu'à	2023-08-31
Multimodal	oui
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	40,6 %	101ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	18,2 %	69ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	2,5 %	99ᵉ / 111	epoch	✅ Mesuré
ARC-C	93,2 %	6ᵉ / 34	llm-stats	Auto-déclaré
GSM8k	92,3 %	18ᵉ / 47	llm-stats	Auto-déclaré
HellaSwag	89,0 %	5ᵉ / 27	llm-stats	Auto-déclaré
MGSM	83,5 %	16ᵉ / 30	llm-stats	Auto-déclaré
BIG-Bench Hard	82,9 %	7ᵉ / 20	llm-stats	Auto-déclaré
MMLU	79,0 %	65ᵉ / 98	llm-stats	Auto-déclaré
DROP	78,9 %	16ᵉ / 29	llm-stats	Auto-déclaré
HumanEval	73,0 %	52ᵉ / 65	llm-stats	Auto-déclaré
MMLU-Pro	56,8 %	102ᵉ / 125	llm-stats	Auto-déclaré
MATH	43,1 %	62ᵉ / 70	llm-stats	Auto-déclaré
GPQA	40,4 %	183ᵉ / 213	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Claude 3 Sonnet41 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Claude 3 Sonnet18 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	1016	118ᵉ

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. À sa sortie, Claude 3 Sonnet se classait dans le top 17% des LLM de sa période sur GPQA diamond (questions scientifiques niveau doctorat), parmi 18 modèles comparables. Cet indicateur le plaçait alors dans le haut du panier de sa génération pour une partie du raisonnement scientifique. Sa fenêtre de contexte de 200 000 tokens constituait aussi un avantage concret pour analyser de longs documents, conserver davantage d’éléments dans une même session et limiter les découpages de texte. La couverture repose sur 4 sources de données concordantes, ce qui rend son positionnement plus robuste que celui d’un modèle documenté par une source isolée.

Limites et points d’attention. Les classements disponibles le placent aujourd’hui loin du haut de tableau: GPQA diamond est désormais en retrait, MATH level 5 le situe dans une zone faible à moyenne, et OTIS Mock AIME 2024-2025 montre une performance très basse sur les problèmes d’olympiades de mathématiques. Arena vision le place aussi dans la partie basse du classement vision. Son ancienneté pèse fortement: les modèles haut de gamme récents ont largement dépassé ses résultats, et ce type de modèle est souvent retiré du catalogue de l’éditeur. Ses connaissances arrêtées à août 2023 renforcent ce décalage pour les sujets récents.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Claude 3 Sonnet

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast