Claude 3 Sonnet

Claude 3 Sonnet est un LLM propriétaire d’Anthropic, publié le 29 février 2024 aux États-Unis, avec des poids non ouverts. Son ancienneté, environ deux ans, est déjà très importante dans l’IA générative: la fiche le situe donc surtout par rapport aux modèles de sa génération, plutôt que…

Claude 3 Sonnet est un LLM propriétaire d’Anthropic, publié le 29 février 2024 aux États-Unis, avec des poids non ouverts. Son ancienneté, environ deux ans, est déjà très importante dans l’IA générative: la fiche le situe donc surtout par rapport aux modèles de sa génération, plutôt que comme une référence actuelle.

Son trait le plus visible est une fenêtre de contexte de 200 000 tokens, utile pour traiter de longs contenus dans une même session. Ses connaissances s’arrêtent au 31 août 2023, un point central pour interpréter ses réponses sur l’actualité, les produits récents et l’état présent du marché.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie29 février 2024
Connaissances jusqu'à2023-08-31
Multimodaloui
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond40,6 %101ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 518,2 %69ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20252,5 %99ᵉ / 111epoch✅ Mesuré
ARC-C93,2 %6ᵉ / 34llm-statsAuto-déclaré
GSM8k92,3 %18ᵉ / 47llm-statsAuto-déclaré
HellaSwag89,0 %5ᵉ / 27llm-statsAuto-déclaré
MGSM83,5 %16ᵉ / 30llm-statsAuto-déclaré
BIG-Bench Hard82,9 %7ᵉ / 20llm-statsAuto-déclaré
MMLU79,0 %65ᵉ / 98llm-statsAuto-déclaré
DROP78,9 %16ᵉ / 29llm-statsAuto-déclaré
HumanEval73,0 %52ᵉ / 65llm-statsAuto-déclaré
MMLU-Pro56,8 %102ᵉ / 125llm-statsAuto-déclaré
MATH43,1 %62ᵉ / 70llm-statsAuto-déclaré
GPQA40,4 %183ᵉ / 213llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %
Gemini 3.1 Pro Preview94 %
Qwen3.7 Max92 %
Phi 456 %
▶ Claude 3 Sonnet41 %

Epoch: MATH level 5

GPT-598 %
Claude Sonnet 4.598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Claude 3 Sonnet18 %

Classements Arena (Elo)

CatégorieEloRang
Arena Vision1016118ᵉ

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. À sa sortie, Claude 3 Sonnet se classait dans le top 17% des LLM de sa période sur GPQA diamond (questions scientifiques niveau doctorat), parmi 18 modèles comparables. Cet indicateur le plaçait alors dans le haut du panier de sa génération pour une partie du raisonnement scientifique. Sa fenêtre de contexte de 200 000 tokens constituait aussi un avantage concret pour analyser de longs documents, conserver davantage d’éléments dans une même session et limiter les découpages de texte. La couverture repose sur 4 sources de données concordantes, ce qui rend son positionnement plus robuste que celui d’un modèle documenté par une source isolée.

Limites et points d’attention. Les classements disponibles le placent aujourd’hui loin du haut de tableau: GPQA diamond est désormais en retrait, MATH level 5 le situe dans une zone faible à moyenne, et OTIS Mock AIME 2024-2025 montre une performance très basse sur les problèmes d’olympiades de mathématiques. Arena vision le place aussi dans la partie basse du classement vision. Son ancienneté pèse fortement: les modèles haut de gamme récents ont largement dépassé ses résultats, et ce type de modèle est souvent retiré du catalogue de l’éditeur. Ses connaissances arrêtées à août 2023 renforcent ce décalage pour les sujets récents.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.