Claude Opus 4.8
Claude Opus 4.8 est un LLM propriétaire d’Anthropic, sorti le 28 mai 2026 et positionné sur le segment premium. Sa fiche le situe dans le haut de gamme récent, avec une fenêtre de contexte de 1 000 000 tokens, un atout central pour traiter de longs corpus, des bases documentaires ou des…
Claude Opus 4.8 est un LLM propriétaire d’Anthropic, sorti le 28 mai 2026 et positionné sur le segment premium. Sa fiche le situe dans le haut de gamme récent, avec une fenêtre de contexte de 1 000 000 tokens, un atout central pour traiter de longs corpus, des bases documentaires ou des échanges étendus.
Le modèle se distingue par un profil très équilibré entre raisonnement général, code et usages agentiques. À sa sortie, il se plaçait dans le top 13% des LLM de sa génération sur GPQA diamond, un indicateur utile pour situer son niveau face aux modèles contemporains.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 28 mai 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 55.7 | 2ᵉ / 136 |
| Code Index | 74.3 | 2ᵉ / 50 |
| Agentic Index | 47.2 | 2ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 98,3 % | 4ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 95,3 % | 2ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 94,0 % | 126ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 94,0 % | 61ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,0 % | 80ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 91,0 % | 11ᵉ / 132 | epoch | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 90,5 % | 2ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Reasoning | 89,7 % | 1ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 81,4 % | 9ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 80,0 % | 5ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: Coding | 79,3 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 78,8 % | 4ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 78,3 % | 5ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 69,0 % | 98ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: IF | 67,4 % | 11ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 60,0 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 56,1 % | 6ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 47,2 % | 5ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 39,5 % | 25ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 34,0 % | 11ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 31,2 % | 6ᵉ / 55 | epoch | ✅ Mesuré |
| GPQA | 93,6 % | 4ᵉ / 213 | llm-stats | Auto-déclaré |
| DeepSearchQA | 93,1 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| CharXiv-R | 89,9 % | 3ᵉ / 42 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 88,6 % | 3ᵉ / 100 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 87,9 % | 1ᵉ / 23 | llm-stats | Auto-déclaré |
| Include | 87,6 % | 1ᵉ / 31 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 84,4 % | 2ᵉ / 32 | llm-stats | Auto-déclaré |
| BrowseComp | 84,3 % | 8ᵉ / 51 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 83,4 % | 2ᵉ / 17 | llm-stats | Auto-déclaré |
| Graphwalks parents >128k | 83,3 % | 2ᵉ / 7 | llm-stats | Auto-déclaré |
| MCP Atlas | 82,2 % | 3ᵉ / 27 | llm-stats | Auto-déclaré |
| CyberGym | 78,8 % | 3ᵉ / 9 | llm-stats | Auto-déclaré |
| LiveBench | 77,2 % | 6ᵉ / 38 | llm-stats | n.d. |
| FrontierSWE | 75,0 % | 2ᵉ / 13 | llm-stats | n.d. |
| Terminal-Bench 2.0 | 74,6 % | 6ᵉ / 48 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 69,2 % | 3ᵉ / 34 | llm-stats | Auto-déclaré |
| Graphwalks BFS >128k | 68,1 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| OfficeQA Pro | 66,2 % | 3ᵉ / 5 | llm-stats | Auto-déclaré |
| Toolathlon | 59,9 % | 1ᵉ / 23 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 57,9 % | 4ᵉ / 86 | llm-stats | Auto-déclaré |
| HealthBench Professional | 55,8 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| GDPval-AA | 54,6 % | 2ᵉ / 33 | llm-stats | n.d. |
| Finance Agent v2 | 53,9 % | 3ᵉ / 25 | llm-stats | n.d. |
| Finance Agent | 53,9 % | 7ᵉ / 8 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1565 | 3ᵉ |
| Arena Code | 1542 | 6ᵉ |
| Arena Text | 1484 | 9ᵉ |
| Arena Text | 1479 | 11ᵉ |
| Arena Document | 1473 | 10ᵉ |
| Arena Document | 1472 | 11ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| anthropic | 5 $ | 25 $ | n.d. |
| Google Vertex | 5 $ | 25 $ | 0,5 $ |
| Anthropic | 10 $ | 50 $ | 1 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 81,79 $ |
| Durée d'exécution — PinchBench | 4 h 04 min |
| Indice valeur/coût — PinchBench | 1,15 |
| Coût moyen par benchmark — Benchable | 0,41 $ |
| Latence moyenne par benchmark — Benchable | 4 min 32 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Claude Opus 4.8 figure dans le top 10 sur les principaux indices agrégés disponibles, notamment Intelligence Index, Code Index et Agentic Index. Ce profil signale un modèle solide à la fois pour les tâches de raisonnement, le développement logiciel et les enchaînements d’actions plus autonomes. Les résultats en mathématiques sont particulièrement élevés, avec une place parmi les meilleurs sur LiveBench: Mathematics et OTIS Mock AIME 2024-2025, qui mesure des exercices d’olympiades de mathématiques de niveau lycée. Le modèle obtient aussi un score maximal sur Benchable: Ethics (Baseline), avec le premier rang du corpus suivi. En code, ses classements Arena Code le placent dans le groupe de tête, ce qui confirme un positionnement compétitif pour la génération, l’analyse et la correction de code.
Limites et points d'attention. Claude Opus 4.8 reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant, l’hébergement autonome et l’adaptation fine hors des canaux prévus par l’éditeur. Son tarif est nettement haut de gamme: l’entrée et la sortie sont facturées à un niveau premium, avec un prix annoncé 157% au-dessus de la moyenne des LLM similaires. Certains résultats sont moins distinctifs que ses meilleurs scores, notamment Benchable: General Knowledge (Baseline) et Benchable: Email Classification (Baseline), où le rang ne le place pas dans le tout premier groupe malgré de bons scores bruts. Claude Opus 4.8 cible surtout les usages exigeants en raisonnement, code, mathématiques et traitement de longs contextes, lorsque le coût supérieur reste acceptable.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).