ARC-AGI v2
ARC-AGI v2 est un benchmark conçu pour évaluer le raisonnement abstrait des systèmes d’IA à partir de tâches visuelles de transformation de grilles. Créé par ARC Prize Foundation, avec François Chollet, Mike Knoop, Gregory Kamradt et d’autres contributeurs, il prolonge l’approche ARC…
ARC-AGI v2 est un benchmark conçu pour évaluer le raisonnement abstrait des systèmes d’IA à partir de tâches visuelles de transformation de grilles. Créé par ARC Prize Foundation, avec François Chollet, Mike Knoop, Gregory Kamradt et d’autres contributeurs, il prolonge l’approche ARC autour de problèmes simples à comprendre pour les humains mais difficiles à généraliser pour les modèles.
Le test mesure l’intelligence fluide, la reconnaissance de motifs, le raisonnement spatial et la généralisation compositionnelle à partir de très peu d’exemples. Son rôle est d’isoler une forme de résolution de problèmes moins dépendante du langage ou de la mémorisation textuelle.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | ARC Prize Foundation (François Chollet, Mike Knoop, Gregory Kamradt et al.) |
| Capacités mesurées | Intelligence fluide et raisonnement abstrait : généralisation à partir de très peu d'exemples sur des transformations de grilles inédites. |
| Modalité | Multimodal |
| Type de questions | Tâches de raisonnement abstrait sur grilles visuelles (paires entrée-sortie) |
| Métrique d'évaluation | Exactitude : grille de sortie exacte sur toutes les entrées de test, jusqu'à 2 essais (pass@2) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | N/A (grilles visuelles, sans langage) |
| Taille du jeu | 1000 tâches d'entraînement, 120 tâches d'évaluation publique (+ ensemble de test privé) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | 85,0 % | 23 avril 2026 | Auto-déclaré |
| 2 | Gemini 3.1 Pro Preview | 77,1 % | 19 février 2026 | Auto-déclaré | |
| 3 | GPT-5.4 | OpenAI | 73,3 % | 5 mars 2026 | Auto-déclaré |
| 4 | Gemini 3.5 Flash | 72,1 % | 19 mai 2026 | Auto-déclaré | |
| 5 | Claude Opus 4.6 | Anthropic | 68,8 % | 7 avril 2026 | Auto-déclaré |
| 6 | Claude Sonnet 4.6 | Anthropic | 58,3 % | 17 février 2026 | Auto-déclaré |
| 7 | GPT-5.2 Pro | OpenAI | 54,2 % | 11 décembre 2025 | Auto-déclaré |
| 8 | GPT-5.2 | OpenAI | 52,9 % | 11 décembre 2025 | Auto-déclaré |
| 9 | Muse Spark | Meta | 42,5 % | 8 avril 2026 | Auto-déclaré |
| 10 | Claude Opus 4.5 | Anthropic | 37,6 % | 24 novembre 2025 | Auto-déclaré |
| 11 | Gemini 3 Flash | 33,6 % | 17 décembre 2025 | Auto-déclaré | |
| 12 | Gemini 3 Pro | 31,1 % | 18 novembre 2025 | Auto-déclaré | |
| 13 | Grok-4 | xAI | 15,9 % | 9 juillet 2025 | Auto-déclaré |
| 14 | Claude Opus 4 | Anthropic | 8,6 % | 22 mai 2025 | n.d. |
| 15 | o3 | OpenAI | 6,5 % | 16 avril 2025 | n.d. |
| 16 | Gemini 2.5 Pro | 4,9 % | 20 mai 2025 | n.d. |
Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 47,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ARC-AGI v2 indique qu’un modèle parvient à inférer des règles de transformation inédites à partir de paires entrée-sortie limitées, puis à produire exactement la bonne grille sur les cas de test, avec jusqu’à deux essais. Dans la base, l’écart entre un score médian de 48 % et le meilleur résultat, GPT-5.5 (OpenAI) à 85 %, suggère une hiérarchie nette entre modèles, sans saturation complète du classement observé.
La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. L’existence d’un ensemble de test privé renforce l’intérêt du benchmark, mais l’accès public à une partie des tâches impose de surveiller les risques de contamination et d’optimisation spécifique. ARC-AGI v2 couvre une compétence précise, le raisonnement abstrait sur grilles visuelles, et ne mesure ni les capacités langagières, ni l’usage d’outils, ni la robustesse en contexte applicatif réel.
Sources des scores : llm-stats.