Anthropic

Claude 3 Haiku

Claude 3 Haiku est un LLM propriétaire d’Anthropic, sorti le 13 mars 2024, avec des poids non ouverts. Environ deux ans après sa sortie, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles disponibles autour de 2024 plutôt qu’aux systèmes les…

Son positionnement repose sur un coût très bas et une grande fenêtre de contexte de 200 000 tokens. À sa sortie, il se situait dans le top 33% de sa génération sur GPQA diamond, tandis que ses connaissances s’arrêtent au 31 août 2023.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	13 mars 2024
Connaissances jusqu'à	2023-08-31
Multimodal	oui
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	96,5 %	166ᵉ / 250	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	86,0 %	168ᵉ / 229	benchable	✅ Mesuré
Benchable : Coding (Baseline)	72,0 %	197ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	61,0 %	134ᵉ / 252	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	58,0 %	179ᵉ / 217	benchable	✅ Mesuré
Epoch: GPQA diamond	36,3 %	108ᵉ / 132	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	36,0 %	203ᵉ / 239	benchable	✅ Mesuré
Epoch: MATH level 5	14,9 %	73ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	1,8 %	105ᵉ / 111	epoch	✅ Mesuré
ARC-C	89,2 %	12ᵉ / 34	llm-stats	Auto-déclaré
GSM8k	88,9 %	28ᵉ / 47	llm-stats	Auto-déclaré
HellaSwag	85,9 %	11ᵉ / 27	llm-stats	Auto-déclaré
DROP	78,4 %	17ᵉ / 29	llm-stats	Auto-déclaré
HumanEval	75,9 %	47ᵉ / 65	llm-stats	Auto-déclaré
MMLU	75,2 %	73ᵉ / 98	llm-stats	Auto-déclaré
MGSM	75,1 %	19ᵉ / 30	llm-stats	Auto-déclaré
BIG-Bench Hard	73,7 %	9ᵉ / 20	llm-stats	Auto-déclaré
MATH	38,9 %	66ᵉ / 70	llm-stats	Auto-déclaré
GPQA	33,3 %	196ᵉ / 213	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Claude 3 Haiku98 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Claude 3 Haiku98 %

WizardLM-2 8x22B95 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	1000	120ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Amazon Bedrock	0,25 $	1,25 $	0,03 $

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	2 min 21 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude 3 Haiku ressort surtout comme un modèle économique, avec une tarification nettement inférieure à celle des LLM similaires et bien en dessous des modèles frontière. Ses meilleurs résultats Benchable concernent Ethics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), ce qui indique un profil solide pour des tâches de tri, de conformité générale et de questions de culture générale dans le contexte de sa génération. Sa fenêtre de 200 000 tokens reste un attribut distinctif pour traiter de longs documents ou de gros volumes de texte. À sa sortie, son classement sur GPQA diamond le plaçait dans le haut du panier des LLM de la même période.

Limites et points d'attention. Claude 3 Haiku est aujourd’hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent absent des catalogues actuels de l’éditeur. Ses résultats Benchable sont plus faibles en Coding (Baseline) et en Instruction Following (Baseline), deux domaines devenus centraux pour les usages techniques et agentiques. Le score Hallucinations (Baseline) le place plutôt en milieu de tableau, ce qui impose de vérifier les réponses factuelles. Ses performances en vision Arena restent modestes. Sa licence propriétaire limite l’audit indépendant et l’exécution locale, tandis que l’arrêt des connaissances au 31 août 2023 réduit sa pertinence sur les sujets récents.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Claude 3 Haiku

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast