Anthropic

Claude 2

Claude 2 est un LLM publié par Anthropic le 11 juillet 2023 aux États-Unis. Avec près de trois ans d’ancienneté, il appartient à une génération déjà très éloignée du rythme actuel de l’IA générative, ce qui le situe surtout comme un jalon historique de l’écosystème Claude.

Son entraînement reste l’élément le plus marquant de la fiche : 3,9 × 10²⁴ FLOP, soit environ 1,1 million d’heures-GPU H100, l’équivalent d’environ 500 GPU H100 pendant trois mois. Le coût estimé atteint ~4,9 millions de dollars (USD 2023), un ordre de grandeur notable pour un modèle de sa période.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Anthropic
Date de sortie	11 juillet 2023

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	34,7 %	110ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	11,7 %	75ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	2,5 %	99ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Claude 235 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Claude 212 %

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	3,9 × 10²⁴ FLOP
Jeu de données	Unspecified unreleased
Coût d'entraînement estimé	≈ 4 902 644 $ (USD 2023)
Pays	United States of America

Notre analyse

Forces. À sa sortie, Claude 2 s’inscrivait dans le haut du panier des LLM de sa génération, avec un effort d’entraînement massif pour 2023. Parmi les mesures disponibles, GPQA diamond (questions scientifiques niveau doctorat) constitue son point de comparaison le moins défavorable, même si le résultat reste loin des meilleurs modèles évalués dans le même cadre. La fiche a aussi un intérêt documentaire : elle associe une date de sortie précise, un éditeur identifié, un pays d’origine et une estimation chiffrée du compute, ce qui en fait un repère utile pour situer l’évolution rapide des coûts et des performances des grands modèles.

Limites et points d’attention. Claude 2 est aujourd’hui un modèle ancien à l’échelle de l’IA, probablement dépassé par les modèles frontière et souvent retiré du catalogue de son éditeur. Ses résultats sur MATH level 5 et OTIS Mock AIME 2024-2025 indiquent de fortes limites sur les mathématiques difficiles, en particulier les problèmes d’olympiades de niveau lycée. La couverture repose sur 1 source de données concordante, ce qui invite à traiter les comparaisons comme un instantané plutôt que comme une mesure exhaustive. Ce qui reste marquant n’est donc pas sa compétitivité actuelle, mais l’ampleur de son entraînement : 3,9 × 10²⁴ FLOP et ~4,9 millions de dollars estimés.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Claude 2

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast