Claude 3 Haiku

Claude 3 Haiku est un LLM propriétaire d’Anthropic, sorti le 13 mars 2024, avec des poids non ouverts. Environ deux ans après sa sortie, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles disponibles autour de 2024 plutôt qu’aux systèmes les…

Claude 3 Haiku est un LLM propriétaire d’Anthropic, sorti le 13 mars 2024, avec des poids non ouverts. Environ deux ans après sa sortie, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles disponibles autour de 2024 plutôt qu’aux systèmes les plus récents.

Son positionnement repose sur un coût très bas et une grande fenêtre de contexte de 200 000 tokens. À sa sortie, il se situait dans le top 33% de sa génération sur GPQA diamond, tandis que ses connaissances s’arrêtent au 31 août 2023.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie13 mars 2024
Connaissances jusqu'à2023-08-31
Multimodaloui
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)96,5 %166ᵉ / 250benchable✅ Mesuré
Benchable : Hallucinations (Baseline)86,0 %168ᵉ / 229benchable✅ Mesuré
Benchable : Coding (Baseline)72,0 %197ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)61,0 %134ᵉ / 252benchable✅ Mesuré
Benchable : Mathematics (Baseline)58,0 %179ᵉ / 217benchable✅ Mesuré
Epoch: GPQA diamond36,3 %108ᵉ / 132epoch✅ Mesuré
Benchable : Reasoning (Baseline)36,0 %203ᵉ / 239benchable✅ Mesuré
Epoch: MATH level 514,9 %73ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20251,8 %105ᵉ / 111epoch✅ Mesuré
ARC-C89,2 %12ᵉ / 34llm-statsAuto-déclaré
GSM8k88,9 %28ᵉ / 47llm-statsAuto-déclaré
HellaSwag85,9 %11ᵉ / 27llm-statsAuto-déclaré
DROP78,4 %17ᵉ / 29llm-statsAuto-déclaré
HumanEval75,9 %47ᵉ / 65llm-statsAuto-déclaré
MMLU75,2 %73ᵉ / 98llm-statsAuto-déclaré
MGSM75,1 %19ᵉ / 30llm-statsAuto-déclaré
BIG-Bench Hard73,7 %9ᵉ / 20llm-statsAuto-déclaré
MATH38,9 %66ᵉ / 70llm-statsAuto-déclaré
GPQA33,3 %196ᵉ / 213llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %
deepseek-chat-v3100 %
Gemini 2.5 Flash Lite P…100 %
Qwen2.5 72B Instruct100 %
▶ Claude 3 Haiku98 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %
Gemini 2.5 Flash-Lite100 %
GPT-4 Turbo100 %
nova-premier-v199 %
▶ Claude 3 Haiku98 %
WizardLM-2 8x22B95 %

Classements Arena (Elo)

CatégorieEloRang
Arena Vision1000120ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Amazon Bedrock0,25 $1,25 $0,03 $

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable2 min 21 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Claude 3 Haiku ressort surtout comme un modèle économique, avec une tarification nettement inférieure à celle des LLM similaires et bien en dessous des modèles frontière. Ses meilleurs résultats Benchable concernent Ethics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), ce qui indique un profil solide pour des tâches de tri, de conformité générale et de questions de culture générale dans le contexte de sa génération. Sa fenêtre de 200 000 tokens reste un attribut distinctif pour traiter de longs documents ou de gros volumes de texte. À sa sortie, son classement sur GPQA diamond le plaçait dans le haut du panier des LLM de la même période.

Limites et points d'attention. Claude 3 Haiku est aujourd’hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent absent des catalogues actuels de l’éditeur. Ses résultats Benchable sont plus faibles en Coding (Baseline) et en Instruction Following (Baseline), deux domaines devenus centraux pour les usages techniques et agentiques. Le score Hallucinations (Baseline) le place plutôt en milieu de tableau, ce qui impose de vérifier les réponses factuelles. Ses performances en vision Arena restent modestes. Sa licence propriétaire limite l’audit indépendant et l’exécution locale, tandis que l’arrêt des connaissances au 31 août 2023 réduit sa pertinence sur les sujets récents.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).