ARC-AGI v2

ARC-AGI v2 est un benchmark conçu pour évaluer le raisonnement abstrait des systèmes d’IA à partir de tâches visuelles de transformation de grilles. Créé par ARC Prize Foundation, avec François Chollet, Mike Knoop, Gregory Kamradt et d’autres contributeurs, il prolonge l’approche ARC…

ARC-AGI v2 est un benchmark conçu pour évaluer le raisonnement abstrait des systèmes d’IA à partir de tâches visuelles de transformation de grilles. Créé par ARC Prize Foundation, avec François Chollet, Mike Knoop, Gregory Kamradt et d’autres contributeurs, il prolonge l’approche ARC autour de problèmes simples à comprendre pour les humains mais difficiles à généraliser pour les modèles.

Le test mesure l’intelligence fluide, la reconnaissance de motifs, le raisonnement spatial et la généralisation compositionnelle à partir de très peu d’exemples. Son rôle est d’isoler une forme de résolution de problèmes moins dépendante du langage ou de la mémorisation textuelle.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkARC Prize Foundation (François Chollet, Mike Knoop, Gregory Kamradt et al.)
Capacités mesuréesIntelligence fluide et raisonnement abstrait : généralisation à partir de très peu d'exemples sur des transformations de grilles inédites.
ModalitéMultimodal
Type de questionsTâches de raisonnement abstrait sur grilles visuelles (paires entrée-sortie)
Métrique d'évaluationExactitude : grille de sortie exacte sur toutes les entrées de test, jusqu'à 2 essais (pass@2)
AccèsPublic
LicenceApache-2.0
LanguesN/A (grilles visuelles, sans langage)
Taille du jeu1000 tâches d'entraînement, 120 tâches d'évaluation publique (+ ensemble de test privé)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5OpenAI85,0 %23 avril 2026Auto-déclaré
2Gemini 3.1 Pro PreviewGoogle77,1 %19 février 2026Auto-déclaré
3GPT-5.4OpenAI73,3 %5 mars 2026Auto-déclaré
4Gemini 3.5 FlashGoogle72,1 %19 mai 2026Auto-déclaré
5Claude Opus 4.6Anthropic68,8 %7 avril 2026Auto-déclaré
6Claude Sonnet 4.6Anthropic58,3 %17 février 2026Auto-déclaré
7GPT-5.2 ProOpenAI54,2 %11 décembre 2025Auto-déclaré
8GPT-5.2OpenAI52,9 %11 décembre 2025Auto-déclaré
9Muse SparkMeta42,5 %8 avril 2026Auto-déclaré
10Claude Opus 4.5Anthropic37,6 %24 novembre 2025Auto-déclaré
11Gemini 3 FlashGoogle33,6 %17 décembre 2025Auto-déclaré
12Gemini 3 ProGoogle31,1 %18 novembre 2025Auto-déclaré
13Grok-4xAI15,9 %9 juillet 2025Auto-déclaré
14Claude Opus 4Anthropic8,6 %22 mai 2025n.d.
15o3OpenAI6,5 %16 avril 2025n.d.
16Gemini 2.5 ProGoogle4,9 %20 mai 2025n.d.

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 47,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ARC-AGI v2 indique qu’un modèle parvient à inférer des règles de transformation inédites à partir de paires entrée-sortie limitées, puis à produire exactement la bonne grille sur les cas de test, avec jusqu’à deux essais. Dans la base, l’écart entre un score médian de 48 % et le meilleur résultat, GPT-5.5 (OpenAI) à 85 %, suggère une hiérarchie nette entre modèles, sans saturation complète du classement observé.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. L’existence d’un ensemble de test privé renforce l’intérêt du benchmark, mais l’accès public à une partie des tâches impose de surveiller les risques de contamination et d’optimisation spécifique. ARC-AGI v2 couvre une compétence précise, le raisonnement abstrait sur grilles visuelles, et ne mesure ni les capacités langagières, ni l’usage d’outils, ni la robustesse en contexte applicatif réel.


Sources des scores : llm-stats.