Anthropic

Claude 2.1

Claude 2.1 est un LLM d’Anthropic, publié aux États-Unis le 21 novembre 2023. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA, où les modèles sont rapidement remplacés.

Son intérêt est surtout historique : à sa sortie, Claude 2.1 se situait dans le haut d’une partie des LLM de sa période sur GPQA diamond, un test de questions scientifiques de niveau doctorat. La fiche permet donc de mesurer ce que représentait un modèle avancé fin 2023, avant l’arrivée de générations plus performantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Date de sortie	21 novembre 2023

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	33,0 %	114ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	1,9 %	103ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Claude 2.133 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Phi 414 %

▶ Claude 2.12 %

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. Claude 2.1 ressort principalement par son positionnement à sa sortie. Sur GPQA diamond, il figurait dans le top 38% des LLM de sa génération, parmi les modèles publiés dans une fenêtre comparable. Ce résultat indique une tenue correcte, pour l’époque, sur des questions scientifiques exigeantes. Le modèle reste donc utile comme point de comparaison historique pour situer l’évolution des LLM d’Anthropic et le niveau atteint par les systèmes généralistes fin 2023.

Limites et points d'attention. Les résultats disponibles montrent un modèle aujourd’hui largement dépassé. Sur GPQA diamond, son rang global le place très loin des meilleurs modèles recensés, malgré un score qui pouvait rester compétitif à son époque. Sur OTIS Mock AIME 2024-2025, qui mesure des problèmes d’olympiades de mathématiques de niveau lycée, sa performance est très faible et le situe en bas de classement. Son ancienneté pèse fortement : à l’échelle de l’IA, près de trois ans représentent un écart majeur, et ce type de modèle est souvent retiré du catalogue de l’éditeur. Les données reposent aussi sur une seule source concordante, ce qui limite la profondeur de comparaison.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Claude 2.1

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast