Claude Sonnet 4.6
Claude Sonnet 4.6 est un LLM propriétaire d’Anthropic, sorti le 17 février 2026, avec des poids non ouverts. Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles capables de traiter de très grands volumes de texte en une…
Claude Sonnet 4.6 est un LLM propriétaire d’Anthropic, sorti le 17 février 2026, avec des poids non ouverts. Son trait le plus visible est une fenêtre de contexte de 1 000 000 tokens, qui le place dans la catégorie des modèles capables de traiter de très grands volumes de texte en une seule requête.
Son positionnement combine un profil généraliste solide et une spécialisation marquée sur le code et les tâches agentiques. À sa sortie, il se situait dans le top 12% des LLM de sa génération sur GPQA diamond, tandis que ses classements Arena signalent aussi une forte présence en image-to-code, en code et en document.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 17 février 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image,audio,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 35.9 | 42ᵉ / 136 |
| Code Index | 63.0 | 9ᵉ / 50 |
| Agentic Index | 40.8 | 6ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,0 % | 38ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 88,0 % | 94ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 87,4 % | 23ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 87,0 % | 16ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 85,8 % | 34ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Reasoning | 84,8 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 80,0 % | 6ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Coding | 79,3 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 77,9 % | 9ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 76,1 % | 27ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 75,5 % | 9ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 75,2 % | 14ᵉ / 32 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 70,0 % | 92ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: IF | 63,2 % | 23ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 62,7 % | 35ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Agentic Coding | 60,0 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 32,4 % | 17ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 29,0 % | 36ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 13,0 % | 36ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 8,3 % | 22ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| Tau2 Telecom | 97,9 % | 7ᵉ / 34 | llm-stats | Auto-déclaré |
| Tau2 Retail | 91,7 % | 2ᵉ / 25 | llm-stats | Auto-déclaré |
| GPQA | 89,9 % | 18ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMLU | 89,3 % | 12ᵉ / 49 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 79,6 % | 14ᵉ / 100 | llm-stats | Auto-déclaré |
| MMMU-Pro | 75,6 % | 26ᵉ / 60 | llm-stats | Auto-déclaré |
| LiveBench | 75,5 % | 13ᵉ / 38 | llm-stats | n.d. |
| BrowseComp | 74,7 % | 20ᵉ / 51 | llm-stats | Auto-déclaré |
| OSWorld | 72,5 % | 4ᵉ / 20 | llm-stats | Auto-déclaré |
| Finance Agent | 63,3 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| MCP Atlas | 61,3 % | 22ᵉ / 27 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 59,1 % | 22ᵉ / 48 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 58,3 % | 6ᵉ / 16 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 51,0 % | 6ᵉ / 25 | llm-stats | n.d. |
| Humanity's Last Exam | 49,0 % | 17ᵉ / 86 | llm-stats | Auto-déclaré |
| GDPval-AA | 47,2 % | 8ᵉ / 33 | llm-stats | n.d. |
| Legal Agent Benchmark | 5,4 % | 3ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Image-to-Code | 1557 | 2ᵉ |
| Arena Code | 1521 | 12ᵉ |
| Arena Document | 1487 | 6ᵉ |
| Arena Text | 1472 | 23ᵉ |
| Arena Vision | 1278 | 15ᵉ |
| Arena Search | 1218 | 6ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| anthropic | 3 $ | 15 $ | n.d. |
| Amazon Bedrock | 3 $ | 15 $ | 0,3 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 54 % au-dessus de la moyenne des LLM similaires, et 1,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 31,4 $ |
| Durée d'exécution — PinchBench | 5 h 24 min |
| Indice valeur/coût — PinchBench | 5,57 |
| Coût moyen par benchmark — Benchable | 0,23 $ |
| Latence moyenne par benchmark — Benchable | 4 min 36 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Claude Sonnet 4.6 ressort surtout par ses résultats en code et en usage agentique, deux domaines où ses indices le placent dans le top 10 de leurs classements respectifs. Les tests Benchable confirment un socle généraliste très robuste, avec des performances maximales en General Knowledge (Baseline) et Ethics (Baseline), ainsi que de très bons scores en Coding (Baseline) et Mathematics (Baseline). Les classements Arena renforcent ce profil technique, avec une place particulièrement élevée en image-to-code et une bonne tenue sur les tâches documentaires. À sa sortie, son rang sur GPQA diamond le situait dans le haut de sa génération.
Limites et points d'attention. Son Intelligence Index reste moins distinctif que ses résultats en code et en agentique, ce qui suggère un modèle plus remarquable sur certains usages spécialisés que comme meilleur généraliste absolu. Le benchmark Hallucinations (Baseline) affiche un score élevé mais un rang seulement intermédiaire, et Email Classification (Baseline) apparaît nettement moins compétitif dans son classement. Le tarif est présenté comme dans la moyenne, mais il reste 54% au-dessus de la moyenne des LLM similaires, tout en étant environ 1,6 fois moins cher que les modèles frontière. Les poids non ouverts limitent les usages nécessitant audit complet, hébergement indépendant ou personnalisation profonde. Le modèle convient surtout aux scénarios de code, d’agents et d’analyse de longs documents lorsque le coût reste acceptable.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).