Claude 3 Sonnet
Claude 3 Sonnet est un LLM propriétaire d’Anthropic, publié le 29 février 2024 aux États-Unis, avec des poids non ouverts. Son ancienneté, environ deux ans, est déjà très importante dans l’IA générative: la fiche le situe donc surtout par rapport aux modèles de sa génération, plutôt que…
Claude 3 Sonnet est un LLM propriétaire d’Anthropic, publié le 29 février 2024 aux États-Unis, avec des poids non ouverts. Son ancienneté, environ deux ans, est déjà très importante dans l’IA générative: la fiche le situe donc surtout par rapport aux modèles de sa génération, plutôt que comme une référence actuelle.
Son trait le plus visible est une fenêtre de contexte de 200 000 tokens, utile pour traiter de longs contenus dans une même session. Ses connaissances s’arrêtent au 31 août 2023, un point central pour interpréter ses réponses sur l’actualité, les produits récents et l’état présent du marché.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 29 février 2024 |
| Connaissances jusqu'à | 2023-08-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 40,6 % | 101ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 18,2 % | 69ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 2,5 % | 99ᵉ / 111 | epoch | ✅ Mesuré |
| ARC-C | 93,2 % | 6ᵉ / 34 | llm-stats | Auto-déclaré |
| GSM8k | 92,3 % | 18ᵉ / 47 | llm-stats | Auto-déclaré |
| HellaSwag | 89,0 % | 5ᵉ / 27 | llm-stats | Auto-déclaré |
| MGSM | 83,5 % | 16ᵉ / 30 | llm-stats | Auto-déclaré |
| BIG-Bench Hard | 82,9 % | 7ᵉ / 20 | llm-stats | Auto-déclaré |
| MMLU | 79,0 % | 65ᵉ / 98 | llm-stats | Auto-déclaré |
| DROP | 78,9 % | 16ᵉ / 29 | llm-stats | Auto-déclaré |
| HumanEval | 73,0 % | 52ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU-Pro | 56,8 % | 102ᵉ / 125 | llm-stats | Auto-déclaré |
| MATH | 43,1 % | 62ᵉ / 70 | llm-stats | Auto-déclaré |
| GPQA | 40,4 % | 183ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: MATH level 5
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 1016 | 118ᵉ |
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. À sa sortie, Claude 3 Sonnet se classait dans le top 17% des LLM de sa période sur GPQA diamond (questions scientifiques niveau doctorat), parmi 18 modèles comparables. Cet indicateur le plaçait alors dans le haut du panier de sa génération pour une partie du raisonnement scientifique. Sa fenêtre de contexte de 200 000 tokens constituait aussi un avantage concret pour analyser de longs documents, conserver davantage d’éléments dans une même session et limiter les découpages de texte. La couverture repose sur 4 sources de données concordantes, ce qui rend son positionnement plus robuste que celui d’un modèle documenté par une source isolée.
Limites et points d’attention. Les classements disponibles le placent aujourd’hui loin du haut de tableau: GPQA diamond est désormais en retrait, MATH level 5 le situe dans une zone faible à moyenne, et OTIS Mock AIME 2024-2025 montre une performance très basse sur les problèmes d’olympiades de mathématiques. Arena vision le place aussi dans la partie basse du classement vision. Son ancienneté pèse fortement: les modèles haut de gamme récents ont largement dépassé ses résultats, et ce type de modèle est souvent retiré du catalogue de l’éditeur. Ses connaissances arrêtées à août 2023 renforcent ce décalage pour les sujets récents.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.