Claude Haiku 4.5

Claude Haiku 4.5 est un LLM propriétaire d’Anthropic, sorti le 15 octobre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Le modèle se distingue surtout par un positionnement très économique, à 1 $ par million de tokens en entrée et 5 $ en sortie.

Claude Haiku 4.5 est un LLM propriétaire d’Anthropic, sorti le 15 octobre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Le modèle se distingue surtout par un positionnement très économique, à 1 $ par million de tokens en entrée et 5 $ en sortie.

Son profil combine un coût nettement inférieur à la moyenne des LLM similaires et des résultats solides sur certains tests ciblés, notamment en mathématiques, en éthique et sur les mesures liées aux hallucinations. À sa sortie, il se situait dans le top 31% des LLM de sa génération sur GPQA diamond.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie15 octobre 2025
Connaissances jusqu'à2025-02-01
Multimodaloui
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index29.664ᵉ / 136
Code Index43.930ᵉ / 50
Agentic Index16.432ᵉ / 42
Math Index83.715ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,0 %113ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Epoch: MATH level 596,4 %9ᵉ / 84epoch✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)91,0 %98ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)76,0 %131ᵉ / 239benchable✅ Mesuré
LiveBench: Coding72,2 %35ᵉ / 76livebench✅ Mesuré
Epoch: GPQA diamond71,2 %57ᵉ / 132epoch✅ Mesuré
Benchable : Instruction Following (Baseline)70,0 %92ᵉ / 252benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)67,7 %30ᵉ / 52pinchbench✅ Mesuré
Epoch: OTIS Mock AIME 2024-202566,7 %54ᵉ / 111epoch✅ Mesuré
LiveBench: Mathematics58,0 %69ᵉ / 76livebench✅ Mesuré
LiveBench: Language57,0 %61ᵉ / 76livebench✅ Mesuré
LiveBench: Global average45,3 %66ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis45,1 %64ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning33,9 %73ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding33,3 %52ᵉ / 76livebench✅ Mesuré
LiveBench: IF17,8 %73ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private5,9 %44ᵉ / 69epoch✅ Mesuré
Epoch: SimpleQA Verified5,9 %52ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private2,1 %39ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
Tau2 Retail83,2 %5ᵉ / 25llm-statsAuto-déclaré
MMMLU83,0 %36ᵉ / 49llm-statsAuto-déclaré
Tau2 Telecom83,0 %20ᵉ / 34llm-statsAuto-déclaré
AIME 202580,7 %65ᵉ / 108llm-statsAuto-déclaré
SWE-Bench Verified73,3 %42ᵉ / 100llm-statsAuto-déclaré
MMMU (validation)73,2 %4ᵉ / 4llm-statsAuto-déclaré
GPQA73,0 %104ᵉ / 213llm-statsAuto-déclaré
Tau2 Airline63,6 %9ᵉ / 22llm-statsAuto-déclaré
OSWorld50,7 %9ᵉ / 20llm-statsAuto-déclaré
Cybersecurity CTFs46,9 %2ᵉ / 3llm-statsAuto-déclaré
Terminal-Bench41,0 %7ᵉ / 25llm-statsAuto-déclaré
Finance Agent v231,0 %22ᵉ / 25llm-statsn.d.
GDPval-AA30,1 %32ᵉ / 33llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Mistral Medium 3.529.9
▶ Claude Haiku 4.529.6
Nova 2.0 Pro Preview21.8

Code Index

GPT-5.471.1
Gemini 3.5 Flash70.1
Mistral Medium 3.546.9
▶ Claude Haiku 4.543.9
Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

CatégorieEloRang
Arena Document141822ᵉ
Arena Text1411107ᵉ
Arena Code132668ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
anthropic1 $5 $n.d.
Amazon Bedrock1 $5 $0,1 $
artificialanalysis1 $5 $0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 49 % en dessous de la moyenne des LLM similaires, et 4,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)12,19 $
Durée d'exécution — PinchBench3 h 53 min
Indice valeur/coût — PinchBench53,49
Coût moyen par benchmark — Benchable0,09 $
Latence moyenne par benchmark — Benchable3 min 18 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. Claude Haiku 4.5 affiche ses meilleurs signaux en mathématiques, avec un résultat top 10 sur Epoch: MATH level 5 et un Math Index placé dans le haut du classement. Les benchmarks Benchable le mettent aussi en avant sur Hallucinations (Baseline) et Ethics (Baseline), deux tests où il atteint le premier rang dans les données fournies. Sa grande fenêtre de contexte de 200 000 tokens renforce son intérêt pour les dossiers longs, l’analyse documentaire et les tâches où le volume de texte compte. Son prix constitue un autre point fort net : il est 49% sous la moyenne des LLM similaires et environ 4,8 fois moins cher que les modèles frontière.

Limites et points d’attention. Le profil est moins homogène hors mathématiques. L’Intelligence Index le place en milieu de tableau, tandis que l’Agentic Index apparaît faible par rapport aux modèles évalués, ce qui limite son intérêt pour les tâches autonomes complexes. Le code donne un signal mitigé : le Code Index est correct, mais l’Arena code reste plus modeste. L’Arena text est également loin des meilleurs rangs, ce qui suggère une compétitivité limitée dans les préférences humaines générales. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances s’arrêtent au 2025-02-01. Claude Haiku 4.5 convient surtout aux usages sensibles au coût, aux traitements longs et aux tâches mathématiques ou de classification bien cadrées.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).