Claude 2.1

Claude 2.1 est un LLM d’Anthropic, publié aux États-Unis le 21 novembre 2023. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA, où les modèles sont rapidement remplacés.

Claude 2.1 est un LLM d’Anthropic, publié aux États-Unis le 21 novembre 2023. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA, où les modèles sont rapidement remplacés.

Son intérêt est surtout historique : à sa sortie, Claude 2.1 se situait dans le haut d’une partie des LLM de sa période sur GPQA diamond, un test de questions scientifiques de niveau doctorat. La fiche permet donc de mesurer ce que représentait un modèle avancé fin 2023, avant l’arrivée de générations plus performantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
Date de sortie21 novembre 2023

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond33,0 %114ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20251,9 %103ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %
Gemini 3.1 Pro Preview94 %
Qwen3.7 Max92 %
Phi 456 %
▶ Claude 2.133 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
Claude Fable 5100 %
DeepSeek V4 Pro97 %
Phi 414 %
▶ Claude 2.12 %

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. Claude 2.1 ressort principalement par son positionnement à sa sortie. Sur GPQA diamond, il figurait dans le top 38% des LLM de sa génération, parmi les modèles publiés dans une fenêtre comparable. Ce résultat indique une tenue correcte, pour l’époque, sur des questions scientifiques exigeantes. Le modèle reste donc utile comme point de comparaison historique pour situer l’évolution des LLM d’Anthropic et le niveau atteint par les systèmes généralistes fin 2023.

Limites et points d'attention. Les résultats disponibles montrent un modèle aujourd’hui largement dépassé. Sur GPQA diamond, son rang global le place très loin des meilleurs modèles recensés, malgré un score qui pouvait rester compétitif à son époque. Sur OTIS Mock AIME 2024-2025, qui mesure des problèmes d’olympiades de mathématiques de niveau lycée, sa performance est très faible et le situe en bas de classement. Son ancienneté pèse fortement : à l’échelle de l’IA, près de trois ans représentent un écart majeur, et ce type de modèle est souvent retiré du catalogue de l’éditeur. Les données reposent aussi sur une seule source concordante, ce qui limite la profondeur de comparaison.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.