Claude 3.5 Haiku

Claude 3.5 Haiku est un LLM propriétaire d’Anthropic, sorti le 4 novembre 2024. Avec près de 2 ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes actuels.

Claude 3.5 Haiku est un LLM propriétaire d’Anthropic, sorti le 4 novembre 2024. Avec près de 2 ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes actuels.

Son positionnement repose sur un coût très bas et une grande fenêtre de contexte de 200 000 tokens. Le modèle était 59% moins cher que la moyenne des LLM similaires et environ 6 fois moins cher que les modèles frontière, avec des connaissances arrêtées au 31 juillet 2024.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
LicenceProprietary (poids non ouverts)
Date de sortie4 novembre 2024
Connaissances jusqu'à2024-07-31
Multimodalnon
Fenêtre de contexte200 000 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index12.3121ᵉ / 136
Code Index15.949ᵉ / 50
Agentic Index1.941ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 546,4 %50ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond38,1 %104ᵉ / 132epoch✅ Mesuré
Epoch: SimpleQA Verified6,7 %51ᵉ / 52epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20254,3 %95ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private0,3 %65ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
HumanEval88,1 %24ᵉ / 65llm-statsAuto-déclaré
MGSM85,6 %14ᵉ / 30llm-statsAuto-déclaré
DROP83,1 %8ᵉ / 29llm-statsAuto-déclaré
MATH69,4 %40ᵉ / 70llm-statsAuto-déclaré
MMLU-Pro65,0 %96ᵉ / 125llm-statsAuto-déclaré
TAU-bench Retail51,0 %23ᵉ / 24llm-statsAuto-déclaré
GPQA41,6 %181ᵉ / 213llm-statsAuto-déclaré
SWE-Bench Verified40,6 %91ᵉ / 100llm-statsAuto-déclaré
TAU-bench Airline22,8 %21ᵉ / 22llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9
GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Llama 4 Maverick14.3
▶ Claude 3.5 Haiku12.3

Code Index

Claude Fable 576.5
GPT-5.471.1
Gemini 3.5 Flash70.1
Llama 4 Maverick16.3
▶ Claude 3.5 Haiku15.9

Classements Arena (Elo)

CatégorieEloRang
Arena Vision112693ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
artificialanalysis0,8 $4 $0,08 $

Prix en dollars US par million de tokens.

Sa tarification se situe 59 % en dessous de la moyenne des LLM similaires, et 6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Notre analyse

Forces. Claude 3.5 Haiku se distingue surtout par son rapport coût-contexte : une fenêtre de 200 000 tokens, associée à une tarification très économique, en faisait un candidat crédible pour traiter de longs documents à faible coût. À sa sortie, il se situait dans la moitié supérieure de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, ce qui indique un niveau correct pour un petit modèle économique de fin 2024. Sur MATH level 5, il reste plutôt en milieu de tableau, un résultat cohérent avec un modèle orienté efficacité plutôt que performance maximale.

Limites et points d'attention. Les performances sont aujourd’hui largement dépassées. Les classements globaux le placent loin des meilleurs LLM sur l’Intelligence Index, presque en bas de tableau sur le Code Index et l’Agentic Index. Les résultats sont particulièrement faibles sur SimpleQA Verified, qui mesure les réponses factuelles vérifiables, ainsi que sur OTIS Mock AIME et FrontierMath, où les mathématiques difficiles ne sont pas maîtrisées. Son statut propriétaire limite aussi l’audit des poids et la réutilisation indépendante. Avec une coupure de connaissances au 31 juillet 2024 et une ancienneté proche de 2 ans, il correspond davantage à un modèle historique de catalogue qu’à une option compétitive actuelle, souvent remplacée ou retirée dans les offres modernes.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.