Claude Haiku 4.5
Claude Haiku 4.5 est un LLM propriétaire d’Anthropic, sorti le 15 octobre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Le modèle se distingue surtout par un positionnement très économique, à 1 $ par million de tokens en entrée et 5 $ en sortie.
Claude Haiku 4.5 est un LLM propriétaire d’Anthropic, sorti le 15 octobre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Le modèle se distingue surtout par un positionnement très économique, à 1 $ par million de tokens en entrée et 5 $ en sortie.
Son profil combine un coût nettement inférieur à la moyenne des LLM similaires et des résultats solides sur certains tests ciblés, notamment en mathématiques, en éthique et sur les mesures liées aux hallucinations. À sa sortie, il se situait dans le top 31% des LLM de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 15 octobre 2025 |
| Connaissances jusqu'à | 2025-02-01 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 29.6 | 64ᵉ / 136 |
| Code Index | 43.9 | 30ᵉ / 50 |
| Agentic Index | 16.4 | 32ᵉ / 42 |
| Math Index | 83.7 | 15ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 96,4 % | 9ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,0 % | 67ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 91,0 % | 98ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 76,0 % | 131ᵉ / 239 | benchable | ✅ Mesuré |
| LiveBench: Coding | 72,2 % | 35ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 71,2 % | 57ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 70,0 % | 92ᵉ / 252 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 67,7 % | 30ᵉ / 52 | pinchbench | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 66,7 % | 54ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 58,0 % | 69ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 57,0 % | 61ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 45,3 % | 66ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 45,1 % | 64ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 33,9 % | 73ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 33,3 % | 52ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 17,8 % | 73ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 5,9 % | 44ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 5,9 % | 52ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 2,1 % | 39ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| Tau2 Retail | 83,2 % | 5ᵉ / 25 | llm-stats | Auto-déclaré |
| MMMLU | 83,0 % | 36ᵉ / 49 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 83,0 % | 20ᵉ / 34 | llm-stats | Auto-déclaré |
| AIME 2025 | 80,7 % | 65ᵉ / 108 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 73,3 % | 42ᵉ / 100 | llm-stats | Auto-déclaré |
| MMMU (validation) | 73,2 % | 4ᵉ / 4 | llm-stats | Auto-déclaré |
| GPQA | 73,0 % | 104ᵉ / 213 | llm-stats | Auto-déclaré |
| Tau2 Airline | 63,6 % | 9ᵉ / 22 | llm-stats | Auto-déclaré |
| OSWorld | 50,7 % | 9ᵉ / 20 | llm-stats | Auto-déclaré |
| Cybersecurity CTFs | 46,9 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| Terminal-Bench | 41,0 % | 7ᵉ / 25 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 31,0 % | 22ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 30,1 % | 32ᵉ / 33 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Document | 1418 | 22ᵉ |
| Arena Text | 1411 | 107ᵉ |
| Arena Code | 1326 | 68ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| anthropic | 1 $ | 5 $ | n.d. |
| Amazon Bedrock | 1 $ | 5 $ | 0,1 $ |
| artificialanalysis | 1 $ | 5 $ | 0,1 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 49 % en dessous de la moyenne des LLM similaires, et 4,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 12,19 $ |
| Durée d'exécution — PinchBench | 3 h 53 min |
| Indice valeur/coût — PinchBench | 53,49 |
| Coût moyen par benchmark — Benchable | 0,09 $ |
| Latence moyenne par benchmark — Benchable | 3 min 18 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude Haiku 4.5 affiche ses meilleurs signaux en mathématiques, avec un résultat top 10 sur Epoch: MATH level 5 et un Math Index placé dans le haut du classement. Les benchmarks Benchable le mettent aussi en avant sur Hallucinations (Baseline) et Ethics (Baseline), deux tests où il atteint le premier rang dans les données fournies. Sa grande fenêtre de contexte de 200 000 tokens renforce son intérêt pour les dossiers longs, l’analyse documentaire et les tâches où le volume de texte compte. Son prix constitue un autre point fort net : il est 49% sous la moyenne des LLM similaires et environ 4,8 fois moins cher que les modèles frontière.
Limites et points d’attention. Le profil est moins homogène hors mathématiques. L’Intelligence Index le place en milieu de tableau, tandis que l’Agentic Index apparaît faible par rapport aux modèles évalués, ce qui limite son intérêt pour les tâches autonomes complexes. Le code donne un signal mitigé : le Code Index est correct, mais l’Arena code reste plus modeste. L’Arena text est également loin des meilleurs rangs, ce qui suggère une compétitivité limitée dans les préférences humaines générales. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances s’arrêtent au 2025-02-01. Claude Haiku 4.5 convient surtout aux usages sensibles au coût, aux traitements longs et aux tâches mathématiques ou de classification bien cadrées.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).