Claude 2.1
Claude 2.1 est un LLM d’Anthropic, publié aux États-Unis le 21 novembre 2023. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA, où les modèles sont rapidement remplacés.
Claude 2.1 est un LLM d’Anthropic, publié aux États-Unis le 21 novembre 2023. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA, où les modèles sont rapidement remplacés.
Son intérêt est surtout historique : à sa sortie, Claude 2.1 se situait dans le haut d’une partie des LLM de sa période sur GPQA diamond, un test de questions scientifiques de niveau doctorat. La fiche permet donc de mesurer ce que représentait un modèle avancé fin 2023, avant l’arrivée de générations plus performantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Anthropic |
| Date de sortie | 21 novembre 2023 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 33,0 % | 114ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 1,9 % | 103ᵉ / 111 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: OTIS Mock AIME 2024-2025
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Claude 2.1 ressort principalement par son positionnement à sa sortie. Sur GPQA diamond, il figurait dans le top 38% des LLM de sa génération, parmi les modèles publiés dans une fenêtre comparable. Ce résultat indique une tenue correcte, pour l’époque, sur des questions scientifiques exigeantes. Le modèle reste donc utile comme point de comparaison historique pour situer l’évolution des LLM d’Anthropic et le niveau atteint par les systèmes généralistes fin 2023.
Limites et points d'attention. Les résultats disponibles montrent un modèle aujourd’hui largement dépassé. Sur GPQA diamond, son rang global le place très loin des meilleurs modèles recensés, malgré un score qui pouvait rester compétitif à son époque. Sur OTIS Mock AIME 2024-2025, qui mesure des problèmes d’olympiades de mathématiques de niveau lycée, sa performance est très faible et le situe en bas de classement. Son ancienneté pèse fortement : à l’échelle de l’IA, près de trois ans représentent un écart majeur, et ce type de modèle est souvent retiré du catalogue de l’éditeur. Les données reposent aussi sur une seule source concordante, ce qui limite la profondeur de comparaison.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.