Claude 3 Opus
Claude 3 Opus est un LLM propriétaire d’Anthropic, sorti le 29 février 2024, avec des poids non ouverts. Environ deux ans après sa publication, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes les plus…
Claude 3 Opus est un LLM propriétaire d’Anthropic, sorti le 29 février 2024, avec des poids non ouverts. Environ deux ans après sa publication, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes les plus récents.
Son profil combine une fenêtre de contexte de 200 000 tokens, un positionnement tarifaire premium et une base de connaissances arrêtée au 31 août 2023. À sa sortie, il se situait dans le top 6% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 29 février 2024 |
| Connaissances jusqu'à | 2023-08-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 11.8 | 123ᵉ / 136 |
| Code Index | 19.5 | 47ᵉ / 50 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 47,2 % | 89ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 37,5 % | 57ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 4,7 % | 92ᵉ / 111 | epoch | ✅ Mesuré |
| ARC-C | 96,4 % | 3ᵉ / 34 | llm-stats | Auto-déclaré |
| HellaSwag | 95,4 % | 1ᵉ / 27 | llm-stats | Auto-déclaré |
| GSM8k | 95,0 % | 11ᵉ / 47 | llm-stats | Auto-déclaré |
| MGSM | 90,7 % | 6ᵉ / 30 | llm-stats | Auto-déclaré |
| BIG-Bench Hard | 86,8 % | 4ᵉ / 20 | llm-stats | Auto-déclaré |
| MMLU | 86,8 % | 26ᵉ / 98 | llm-stats | Auto-déclaré |
| HumanEval | 84,9 % | 35ᵉ / 65 | llm-stats | Auto-déclaré |
| DROP | 83,1 % | 8ᵉ / 29 | llm-stats | Auto-déclaré |
| MMLU-Pro | 68,5 % | 85ᵉ / 125 | llm-stats | Auto-déclaré |
| MATH | 60,1 % | 46ᵉ / 70 | llm-stats | Auto-déclaré |
| GPQA | 50,4 % | 156ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 1062 | 108ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| artificialanalysis | 15 $ | 75 $ | 1,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 670 % au-dessus de la moyenne des LLM similaires, et 3,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude 3 Opus a surtout marqué sa période par son niveau général élevé sur les tâches complexes de raisonnement scientifique. Sur GPQA diamond, il figurait à sa sortie dans le haut du panier des LLM comparables, ce qui en faisait un modèle crédible pour l’analyse de contenus techniques exigeants. Sa fenêtre de contexte de 200 000 tokens reste un élément structurant de sa fiche, utile pour traiter de longs documents ou de longues conversations dans un seul échange. Son positionnement premium correspondait à un modèle haut de gamme de 2024, avec une tarification nettement supérieure à la moyenne des LLM similaires.
Limites et points d'attention. Claude 3 Opus est aujourd’hui largement dépassé dans les classements disponibles, avec un Intelligence Index en bas de tableau et un Code Index très faible face aux modèles évalués plus récemment. Les résultats en mathématiques sont contrastés, notamment sur MATH level 5 et très faibles sur OTIS Mock AIME 2024-2025, qui mesure des problèmes d’olympiades de niveau lycée. Le modèle est aussi cher à exploiter, à 15 $ par million de tokens en entrée et 75 $ en sortie, soit 670% au-dessus de la moyenne des LLM similaires et environ 3,1 fois le tarif des modèles frontière. Son ancienneté implique aussi une base de connaissances arrêtée en 2023 et une disponibilité souvent réduite dans les catalogues actuels.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.