Claude 2

Claude 2 est un LLM publié par Anthropic le 11 juillet 2023 aux États-Unis. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA générative, ce qui le situe surtout comme un jalon historique de l’écosystème Claude.

Claude 2 est un LLM publié par Anthropic le 11 juillet 2023 aux États-Unis. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA générative, ce qui le situe surtout comme un jalon historique de l’écosystème Claude.

Son entraînement reste l’élément le plus marquant de la fiche : 3,9 × 10²⁴ FLOP, soit environ 1,1 million d’heures-GPU H100, l’équivalent d’environ 500 GPU H100 pendant trois mois. Le coût estimé atteint ~4,9 millions de dollars (USD 2023), un ordre de grandeur notable pour un modèle de sa période.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurAnthropic
Date de sortie11 juillet 2023

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond34,7 %110ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 511,7 %75ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20252,5 %99ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %
Gemini 3.1 Pro Preview94 %
Qwen3.7 Max92 %
Phi 456 %
▶ Claude 235 %

Epoch: MATH level 5

GPT-598 %
Claude Sonnet 4.598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Claude 212 %

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement3,9 × 10²⁴ FLOP
Jeu de donnéesUnspecified unreleased
Coût d'entraînement estimé≈ 4 902 644 $ (USD 2023)
PaysUnited States of America

Notre analyse

Forces. À sa sortie, Claude 2 s’inscrivait dans le haut du panier des LLM de sa génération, avec un effort d’entraînement massif pour 2023. Parmi les mesures disponibles, GPQA diamond (questions scientifiques niveau doctorat) constitue son point de comparaison le moins défavorable, même si le résultat reste loin des meilleurs modèles évalués dans le même cadre. La fiche a aussi un intérêt documentaire : elle associe une date de sortie précise, un éditeur identifié, un pays d’origine et une estimation chiffrée du compute, ce qui en fait un repère utile pour situer l’évolution rapide des coûts et des performances des grands modèles.

Limites et points d’attention. Claude 2 est aujourd’hui un modèle ancien à l’échelle de l’IA, probablement dépassé par les modèles frontière et souvent retiré du catalogue de son éditeur. Ses résultats sur MATH level 5 et OTIS Mock AIME 2024-2025 indiquent de fortes limites sur les mathématiques difficiles, en particulier les problèmes d’olympiades de niveau lycée. La couverture repose sur 1 source de données concordante, ce qui invite à traiter les comparaisons comme un instantané plutôt que comme une mesure exhaustive. Ce qui reste marquant n’est donc pas sa compétitivité actuelle, mais l’ampleur de son entraînement : 3,9 × 10²⁴ FLOP et ~4,9 millions de dollars estimés.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.