Claude 3 Haiku
Claude 3 Haiku est un LLM propriétaire d’Anthropic, sorti le 13 mars 2024, avec des poids non ouverts. Environ deux ans après sa sortie, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles disponibles autour de 2024 plutôt qu’aux systèmes les…
Claude 3 Haiku est un LLM propriétaire d’Anthropic, sorti le 13 mars 2024, avec des poids non ouverts. Environ deux ans après sa sortie, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer surtout aux modèles disponibles autour de 2024 plutôt qu’aux systèmes les plus récents.
Son positionnement repose sur un coût très bas et une grande fenêtre de contexte de 200 000 tokens. À sa sortie, il se situait dans le top 33% de sa génération sur GPQA diamond, tandis que ses connaissances s’arrêtent au 31 août 2023.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 13 mars 2024 |
| Connaissances jusqu'à | 2023-08-31 |
| Multimodal | oui |
| Fenêtre de contexte | 200 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,5 % | 166ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 86,0 % | 168ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 72,0 % | 197ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 61,0 % | 134ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 58,0 % | 179ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 36,3 % | 108ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 36,0 % | 203ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 14,9 % | 73ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 1,8 % | 105ᵉ / 111 | epoch | ✅ Mesuré |
| ARC-C | 89,2 % | 12ᵉ / 34 | llm-stats | Auto-déclaré |
| GSM8k | 88,9 % | 28ᵉ / 47 | llm-stats | Auto-déclaré |
| HellaSwag | 85,9 % | 11ᵉ / 27 | llm-stats | Auto-déclaré |
| DROP | 78,4 % | 17ᵉ / 29 | llm-stats | Auto-déclaré |
| HumanEval | 75,9 % | 47ᵉ / 65 | llm-stats | Auto-déclaré |
| MMLU | 75,2 % | 73ᵉ / 98 | llm-stats | Auto-déclaré |
| MGSM | 75,1 % | 19ᵉ / 30 | llm-stats | Auto-déclaré |
| BIG-Bench Hard | 73,7 % | 9ᵉ / 20 | llm-stats | Auto-déclaré |
| MATH | 38,9 % | 66ᵉ / 70 | llm-stats | Auto-déclaré |
| GPQA | 33,3 % | 196ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Email Classification (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 1000 | 120ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Amazon Bedrock | 0,25 $ | 1,25 $ | 0,03 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 2 min 21 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Claude 3 Haiku ressort surtout comme un modèle économique, avec une tarification nettement inférieure à celle des LLM similaires et bien en dessous des modèles frontière. Ses meilleurs résultats Benchable concernent Ethics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), ce qui indique un profil solide pour des tâches de tri, de conformité générale et de questions de culture générale dans le contexte de sa génération. Sa fenêtre de 200 000 tokens reste un attribut distinctif pour traiter de longs documents ou de gros volumes de texte. À sa sortie, son classement sur GPQA diamond le plaçait dans le haut du panier des LLM de la même période.
Limites et points d'attention. Claude 3 Haiku est aujourd’hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent absent des catalogues actuels de l’éditeur. Ses résultats Benchable sont plus faibles en Coding (Baseline) et en Instruction Following (Baseline), deux domaines devenus centraux pour les usages techniques et agentiques. Le score Hallucinations (Baseline) le place plutôt en milieu de tableau, ce qui impose de vérifier les réponses factuelles. Ses performances en vision Arena restent modestes. Sa licence propriétaire limite l’audit indépendant et l’exécution locale, tandis que l’arrêt des connaissances au 31 août 2023 réduit sa pertinence sur les sujets récents.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).