Claude Opus 4.7
Claude Opus 4.7 est un LLM propriétaire d’Anthropic, sorti le 12 mai 2026 et positionné sur le segment premium. Ses poids ne sont pas ouverts, et son profil vise clairement les usages haut de gamme, avec une très grande fenêtre de contexte de 1 000 000 tokens.
Claude Opus 4.7 est un LLM propriétaire d’Anthropic, sorti le 12 mai 2026 et positionné sur le segment premium. Ses poids ne sont pas ouverts, et son profil vise clairement les usages haut de gamme, avec une très grande fenêtre de contexte de 1 000 000 tokens.
Le modèle se distingue par des résultats de tout premier plan en connaissance générale, éthique, raisonnement, mathématiques de niveau olympiades et code. À sa sortie, il se situe dans le top 17% des LLM de sa génération sur GPQA diamond, avec une couverture fondée sur 8 sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 12 mai 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 000 000 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 53.5 | 3ᵉ / 136 |
| Code Index | 73.6 | 3ᵉ / 50 |
| Agentic Index | 44.4 | 3ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 98,0 % | 23ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 97,8 % | 5ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,0 % | 38ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 93,1 % | 6ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 90,2 % | 14ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 90,0 % | 2ᵉ / 64 | epoch | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 90,0 % | 145ᵉ / 229 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 87,7 % | 5ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 83,5 % | 1ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Coding | 82,1 % | 3ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 80,0 % | 48ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Data Analysis | 78,3 % | 6ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 77,9 % | 17ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 76,9 % | 6ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 76,0 % | 17ᵉ / 52 | pinchbench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 70,2 % | 8ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 60,0 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 59,3 % | 34ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 50,6 % | 15ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 43,8 % | 6ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 31,7 % | 10ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 30,0 % | 14ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 22,9 % | 8ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| GPQA | 94,2 % | 3ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMLU | 91,5 % | 5ᵉ / 49 | llm-stats | Auto-déclaré |
| CharXiv-R | 91,0 % | 2ᵉ / 42 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 87,6 % | 4ᵉ / 100 | llm-stats | Auto-déclaré |
| BrowseComp | 79,3 % | 13ᵉ / 51 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 78,0 % | 6ᵉ / 17 | llm-stats | Auto-déclaré |
| MCP Atlas | 77,3 % | 5ᵉ / 27 | llm-stats | Auto-déclaré |
| LiveBench | 76,9 % | 8ᵉ / 38 | llm-stats | n.d. |
| CyberGym | 73,1 % | 5ᵉ / 9 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 69,4 % | 9ᵉ / 48 | llm-stats | Auto-déclaré |
| Finance Agent | 64,4 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 64,3 % | 4ᵉ / 34 | llm-stats | Auto-déclaré |
| FrontierSWE | 63,0 % | 5ᵉ / 13 | llm-stats | n.d. |
| Humanity's Last Exam | 54,7 % | 7ᵉ / 86 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 51,5 % | 5ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 51,4 % | 4ᵉ / 33 | llm-stats | n.d. |
| Legal Agent Benchmark | 7,1 % | 2ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Image-to-Code | 1581 | 1ᵉ |
| Arena Code | 1563 | 4ᵉ |
| Arena Code | 1557 | 5ᵉ |
| Arena Image-to-Code | 1556 | 3ᵉ |
| Arena Text | 1502 | 3ᵉ |
| Arena Document | 1498 | 3ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| anthropic | 5 $ | 25 $ | n.d. |
| Google Vertex (Europe) | 5 $ | 25 $ | 0,5 $ |
| Anthropic | 30 $ | 150 $ | 3 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 62,5 $ |
| Durée d'exécution — PinchBench | 4 h 31 min |
| Indice valeur/coût — PinchBench | 2,41 |
| Coût moyen par benchmark — Benchable | 0,39 $ |
| Latence moyenne par benchmark — Benchable | 4 min 12 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | United States of America |
Notre analyse
Forces. Claude Opus 4.7 fait partie des meilleurs modèles mesurés sur l’Intelligence Index, le Code Index et l’Agentic Index, avec un profil équilibré entre raisonnement général, programmation et tâches agentiques. Ses scores parfaits en Benchable General Knowledge et Ethics signalent une forte maîtrise des questions factuelles et des scénarios d’évaluation éthique. Le modèle se place aussi dans le top 10 sur OTIS Mock AIME 2024-2025, un benchmark d’olympiades de mathématiques de niveau lycée, ce qui confirme un très bon niveau en raisonnement formel. En code, il combine un très bon Code Index, une place de tête en Arena image-to-code et des classements élevés en Arena code.
Limites et points d'attention. Le principal frein est économique : l’entrée à 5 $ par million de tokens et la sortie à 25 $ par million le placent nettement dans le premium, avec une tarification 157% au-dessus de la moyenne des LLM similaires. Les performances ne sont pas uniformément dominantes : Email Classification reste nettement moins bien classé que ses meilleurs domaines, et Coding Baseline n’atteint pas le niveau relatif de ses résultats en connaissance générale, éthique ou mathématiques. La licence propriétaire limite aussi l’audit direct des poids et les déploiements nécessitant un contrôle complet du modèle. Claude Opus 4.7 convient surtout aux usages exigeants en raisonnement, analyse longue, génération de code et workflows agentiques, lorsque le coût supérieur reste acceptable.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).