Anthropic

Claude Haiku 4.5

Claude Haiku 4.5 est un LLM propriétaire d’Anthropic, sorti le 15 octobre 2025, avec des poids non ouverts et une fenêtre de contexte de 200 000 tokens. Le modèle se distingue surtout par un positionnement très économique, à 1 $ par million de tokens en entrée et 5 $ en sortie.

Son profil combine un coût nettement inférieur à la moyenne des LLM similaires et des résultats solides sur certains tests ciblés, notamment en mathématiques, en éthique et sur les mesures liées aux hallucinations. À sa sortie, il se situait dans le top 31% des LLM de sa génération sur GPQA diamond.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	15 octobre 2025
Connaissances jusqu'à	2025-02-01
Multimodal	oui
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	29.6	64ᵉ / 136
Code Index	43.9	30ᵉ / 50
Agentic Index	16.4	32ᵉ / 42
Math Index	83.7	15ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,0 %	113ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Epoch: MATH level 5	96,4 %	9ᵉ / 84	epoch	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	91,0 %	98ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	76,0 %	131ᵉ / 239	benchable	✅ Mesuré
LiveBench: Coding	72,2 %	35ᵉ / 76	livebench	✅ Mesuré
Epoch: GPQA diamond	71,2 %	57ᵉ / 132	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	70,0 %	92ᵉ / 252	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	67,7 %	30ᵉ / 52	pinchbench	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	66,7 %	54ᵉ / 111	epoch	✅ Mesuré
LiveBench: Mathematics	58,0 %	69ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	57,0 %	61ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	45,3 %	66ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	45,1 %	64ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	33,9 %	73ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	33,3 %	52ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	17,8 %	73ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	5,9 %	44ᵉ / 69	epoch	✅ Mesuré
Epoch: SimpleQA Verified	5,9 %	52ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	2,1 %	39ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
Tau2 Retail	83,2 %	5ᵉ / 25	llm-stats	Auto-déclaré
MMMLU	83,0 %	36ᵉ / 49	llm-stats	Auto-déclaré
Tau2 Telecom	83,0 %	20ᵉ / 34	llm-stats	Auto-déclaré
AIME 2025	80,7 %	65ᵉ / 108	llm-stats	Auto-déclaré
SWE-Bench Verified	73,3 %	42ᵉ / 100	llm-stats	Auto-déclaré
MMMU (validation)	73,2 %	4ᵉ / 4	llm-stats	Auto-déclaré
GPQA	73,0 %	104ᵉ / 213	llm-stats	Auto-déclaré
Tau2 Airline	63,6 %	9ᵉ / 22	llm-stats	Auto-déclaré
OSWorld	50,7 %	9ᵉ / 20	llm-stats	Auto-déclaré
Cybersecurity CTFs	46,9 %	2ᵉ / 3	llm-stats	Auto-déclaré
Terminal-Bench	41,0 %	7ᵉ / 25	llm-stats	Auto-déclaré
Finance Agent v2	31,0 %	22ᵉ / 25	llm-stats	n.d.
GDPval-AA	30,1 %	32ᵉ / 33	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Claude Haiku 4.529.6

Nova 2.0 Pro Preview21.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Mistral Medium 3.546.9

▶ Claude Haiku 4.543.9

Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Document	1418	22ᵉ
Arena Text	1411	107ᵉ
Arena Code	1326	68ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
anthropic	1 $	5 $	n.d.
Amazon Bedrock	1 $	5 $	0,1 $
artificialanalysis	1 $	5 $	0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 49 % en dessous de la moyenne des LLM similaires, et 4,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	12,19 $
Durée d'exécution — PinchBench	3 h 53 min
Indice valeur/coût — PinchBench	53,49
Coût moyen par benchmark — Benchable	0,09 $
Latence moyenne par benchmark — Benchable	3 min 18 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. Claude Haiku 4.5 affiche ses meilleurs signaux en mathématiques, avec un résultat top 10 sur Epoch: MATH level 5 et un Math Index placé dans le haut du classement. Les benchmarks Benchable le mettent aussi en avant sur Hallucinations (Baseline) et Ethics (Baseline), deux tests où il atteint le premier rang dans les données fournies. Sa grande fenêtre de contexte de 200 000 tokens renforce son intérêt pour les dossiers longs, l’analyse documentaire et les tâches où le volume de texte compte. Son prix constitue un autre point fort net : il est 49% sous la moyenne des LLM similaires et environ 4,8 fois moins cher que les modèles frontière.

Limites et points d’attention. Le profil est moins homogène hors mathématiques. L’Intelligence Index le place en milieu de tableau, tandis que l’Agentic Index apparaît faible par rapport aux modèles évalués, ce qui limite son intérêt pour les tâches autonomes complexes. Le code donne un signal mitigé : le Code Index est correct, mais l’Arena code reste plus modeste. L’Arena text est également loin des meilleurs rangs, ce qui suggère une compétitivité limitée dans les préférences humaines générales. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances s’arrêtent au 2025-02-01. Claude Haiku 4.5 convient surtout aux usages sensibles au coût, aux traitements longs et aux tâches mathématiques ou de classification bien cadrées.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).