ARC-AGI
ARC-AGI est un benchmark d’abstraction et de raisonnement créé par François Chollet. Il évalue la capacité d’un système à déduire une règle générale à partir de quelques exemples, puis à l’appliquer à de nouvelles grilles visuelles.
ARC-AGI est un benchmark d’abstraction et de raisonnement créé par François Chollet. Il évalue la capacité d’un système à déduire une règle générale à partir de quelques exemples, puis à l’appliquer à de nouvelles grilles visuelles.
Le test repose sur des transformations spatiales de grilles colorées, sans recours à la langue naturelle. Il occupe une place particulière dans l’évaluation des modèles d’IA, car il cible la généralisation, l’inférence de règles et l’efficacité d’apprentissage avec très peu de démonstrations.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | François Chollet |
| Capacités mesurées | raisonnement, raisonnement spatial, vision |
| Modalité | Image |
| Type de questions | tâches de transformation de grilles visuelles à partir de quelques exemples entrée-sortie |
| Métrique d'évaluation | accuracy / exact match des grilles de sortie |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | Apache-2.0 |
| Langues | sans langue naturelle ; grilles visuelles avec couleurs/symboles |
| Taille du jeu | environ 800 tâches publiques, avec un ensemble de test privé utilisé pour l’évaluation |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | 95,0 % | 23 avril 2026 | Auto-déclaré |
| 2 | GPT-5.4 | OpenAI | 93,7 % | 5 mars 2026 | Auto-déclaré |
| 3 | GPT-5.2 Pro | OpenAI | 90,5 % | 11 décembre 2025 | Auto-déclaré |
| 4 | o3 | OpenAI | 88,0 % | 16 avril 2025 | Auto-déclaré |
| 5 | GPT-5.2 | OpenAI | 86,2 % | 11 décembre 2025 | Auto-déclaré |
| 6 | LongCat-Flash-Thinking | Meituan | 50,3 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 41,8 % | 22 juillet 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 88,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ARC-AGI indique qu’un modèle parvient souvent à produire exactement la grille attendue après avoir inféré la transformation sous-jacente. Cette exigence d’exact match rend la métrique stricte: une solution partiellement correcte n’est pas comptabilisée comme réussite. Dans la base, le score médian atteint 88% et le meilleur résultat déclaré est celui de GPT-5.5 (OpenAI) à 95%, ce qui suggère une forte progression des systèmes évalués sur ce type de raisonnement visuel.
La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, tandis que le jeu de test privé limite la vérification indépendante des réponses. Le benchmark mesure un champ précis, l’abstraction à partir de grilles visuelles, et ne résume donc pas l’ensemble des capacités d’un modèle. Des scores élevés peuvent aussi réduire le pouvoir discriminant si plusieurs systèmes se rapprochent du plafond, même si ARC-AGI conserve un intérêt pour comparer la capacité à généraliser hors des exemples fournis.
Sources des scores : llm-stats.