Claude 3.5 Haiku
Claude 3.5 Haiku est un LLM propriétaire d’Anthropic, sorti le 4 novembre 2024. Avec près de 2 ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes actuels.
Claude 3.5 Haiku est un LLM propriétaire d’Anthropic, sorti le 4 novembre 2024. Avec près de 2 ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes actuels.
Son positionnement repose sur un coût très bas et une grande fenêtre de contexte de 200 000 tokens. Le modèle était 59% moins cher que la moyenne des LLM similaires et environ 6 fois moins cher que les modèles frontière, avec des connaissances arrêtées au 31 juillet 2024.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 4 novembre 2024 |
| Connaissances jusqu'à | 2024-07-31 |
| Multimodal | non |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 12.3 | 121ᵉ / 136 |
| Code Index | 15.9 | 49ᵉ / 50 |
| Agentic Index | 1.9 | 41ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 46,4 % | 50ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 38,1 % | 104ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 6,7 % | 51ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 4,3 % | 95ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 0,3 % | 65ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| HumanEval | 88,1 % | 24ᵉ / 65 | llm-stats | Auto-déclaré |
| MGSM | 85,6 % | 14ᵉ / 30 | llm-stats | Auto-déclaré |
| DROP | 83,1 % | 8ᵉ / 29 | llm-stats | Auto-déclaré |
| MATH | 69,4 % | 40ᵉ / 70 | llm-stats | Auto-déclaré |
| MMLU-Pro | 65,0 % | 96ᵉ / 125 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 51,0 % | 23ᵉ / 24 | llm-stats | Auto-déclaré |
| GPQA | 41,6 % | 181ᵉ / 213 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 40,6 % | 91ᵉ / 100 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 22,8 % | 21ᵉ / 22 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 1126 | 93ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| artificialanalysis | 0,8 $ | 4 $ | 0,08 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 59 % en dessous de la moyenne des LLM similaires, et 6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Notre analyse
Forces. Claude 3.5 Haiku se distingue surtout par son rapport coût-contexte : une fenêtre de 200 000 tokens, associée à une tarification très économique, en faisait un candidat crédible pour traiter de longs documents à faible coût. À sa sortie, il se situait dans la moitié supérieure de sa génération sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, ce qui indique un niveau correct pour un petit modèle économique de fin 2024. Sur MATH level 5, il reste plutôt en milieu de tableau, un résultat cohérent avec un modèle orienté efficacité plutôt que performance maximale.
Limites et points d'attention. Les performances sont aujourd’hui largement dépassées. Les classements globaux le placent loin des meilleurs LLM sur l’Intelligence Index, presque en bas de tableau sur le Code Index et l’Agentic Index. Les résultats sont particulièrement faibles sur SimpleQA Verified, qui mesure les réponses factuelles vérifiables, ainsi que sur OTIS Mock AIME et FrontierMath, où les mathématiques difficiles ne sont pas maîtrisées. Son statut propriétaire limite aussi l’audit des poids et la réutilisation indépendante. Avec une coupure de connaissances au 31 juillet 2024 et une ancienneté proche de 2 ans, il correspond davantage à un modèle historique de catalogue qu’à une option compétitive actuelle, souvent remplacée ou retirée dans les offres modernes.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.