Anthropic

Claude 3.5 Haiku

Claude 3.5 Haiku est un LLM propriétaire d’Anthropic, sorti le 4 novembre 2024. Avec près de 2 ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes actuels.

Son positionnement repose sur un coût très bas et une grande fenêtre de contexte de 200 000 tokens. Le modèle était 59% moins cher que la moyenne des LLM similaires et environ 6 fois moins cher que les modèles frontière, avec des connaissances arrêtées au 31 juillet 2024.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Licence	Proprietary (poids non ouverts)
Date de sortie	4 novembre 2024
Connaissances jusqu'à	2024-07-31
Multimodal	non
Fenêtre de contexte	200 000 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	12.3	121ᵉ / 136
Code Index	15.9	49ᵉ / 50
Agentic Index	1.9	41ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	46,4 %	50ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	38,1 %	104ᵉ / 132	epoch	✅ Mesuré
Epoch: SimpleQA Verified	6,7 %	51ᵉ / 52	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	4,3 %	95ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	0,3 %	65ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
HumanEval	88,1 %	24ᵉ / 65	llm-stats	Auto-déclaré
MGSM	85,6 %	14ᵉ / 30	llm-stats	Auto-déclaré
DROP	83,1 %	8ᵉ / 29	llm-stats	Auto-déclaré
MATH	69,4 %	40ᵉ / 70	llm-stats	Auto-déclaré
MMLU-Pro	65,0 %	96ᵉ / 125	llm-stats	Auto-déclaré
TAU-bench Retail	51,0 %	23ᵉ / 24	llm-stats	Auto-déclaré
GPQA	41,6 %	181ᵉ / 213	llm-stats	Auto-déclaré
SWE-Bench Verified	40,6 %	91ᵉ / 100	llm-stats	Auto-déclaré
TAU-bench Airline	22,8 %	21ᵉ / 22	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Llama 4 Maverick14.3

▶ Claude 3.5 Haiku12.3

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Llama 4 Maverick16.3

▶ Claude 3.5 Haiku15.9

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	1126	93ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
artificialanalysis	0,8 $	4 $	0,08 $

Prix en dollars US par million de tokens.

Sa tarification se situe 59 % en dessous de la moyenne des LLM similaires, et 6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Claude 3.5 Haiku se distingue surtout par son rapport coût-contexte : une fenêtre de 200 000 tokens, associée à une tarification très économique, en faisait un candidat crédible pour traiter de longs documents à faible coût. À sa sortie, il se situait dans la moitié supérieure de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, ce qui indique un niveau correct pour un petit modèle économique de fin 2024. Sur MATH level 5, il reste plutôt en milieu de tableau, un résultat cohérent avec un modèle orienté efficacité plutôt que performance maximale.

Limites et points d'attention. Les performances sont aujourd’hui largement dépassées. Les classements globaux le placent loin des meilleurs LLM sur l’Intelligence Index, presque en bas de tableau sur le Code Index et l’Agentic Index. Les résultats sont particulièrement faibles sur SimpleQA Verified, qui mesure les réponses factuelles vérifiables, ainsi que sur OTIS Mock AIME et FrontierMath, où les mathématiques difficiles ne sont pas maîtrisées. Son statut propriétaire limite aussi l’audit des poids et la réutilisation indépendante. Avec une coupure de connaissances au 31 juillet 2024 et une ancienneté proche de 2 ans, il correspond davantage à un modèle historique de catalogue qu’à une option compétitive actuelle, souvent remplacée ou retirée dans les offres modernes.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Claude 3.5 Haiku

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast