ARC-AGI

ARC-AGI est un benchmark d’abstraction et de raisonnement créé par François Chollet. Il évalue la capacité d’un système à déduire une règle générale à partir de quelques exemples, puis à l’appliquer à de nouvelles grilles visuelles.

ARC-AGI est un benchmark d’abstraction et de raisonnement créé par François Chollet. Il évalue la capacité d’un système à déduire une règle générale à partir de quelques exemples, puis à l’appliquer à de nouvelles grilles visuelles.

Le test repose sur des transformations spatiales de grilles colorées, sans recours à la langue naturelle. Il occupe une place particulière dans l’évaluation des modèles d’IA, car il cible la généralisation, l’inférence de règles et l’efficacité d’apprentissage avec très peu de démonstrations.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkFrançois Chollet
Capacités mesuréesraisonnement, raisonnement spatial, vision
ModalitéImage
Type de questionstâches de transformation de grilles visuelles à partir de quelques exemples entrée-sortie
Métrique d'évaluationaccuracy / exact match des grilles de sortie
AccèsJeu de test privé (réponses non divulguées)
LicenceApache-2.0
Languessans langue naturelle ; grilles visuelles avec couleurs/symboles
Taille du jeuenviron 800 tâches publiques, avec un ensemble de test privé utilisé pour l’évaluation
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5OpenAI95,0 %23 avril 2026Auto-déclaré
2GPT-5.4OpenAI93,7 %5 mars 2026Auto-déclaré
3GPT-5.2 ProOpenAI90,5 %11 décembre 2025Auto-déclaré
4o3OpenAI88,0 %16 avril 2025Auto-déclaré
5GPT-5.2OpenAI86,2 %11 décembre 2025Auto-déclaré
6LongCat-Flash-ThinkingMeituan50,3 %22 septembre 2025Auto-déclaré
7Qwen3-235B-A22B-Instruct-2507Qwen41,8 %22 juillet 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 88,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ARC-AGI indique qu’un modèle parvient souvent à produire exactement la grille attendue après avoir inféré la transformation sous-jacente. Cette exigence d’exact match rend la métrique stricte: une solution partiellement correcte n’est pas comptabilisée comme réussite. Dans la base, le score médian atteint 88% et le meilleur résultat déclaré est celui de GPT-5.5 (OpenAI) à 95%, ce qui suggère une forte progression des systèmes évalués sur ce type de raisonnement visuel.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, tandis que le jeu de test privé limite la vérification indépendante des réponses. Le benchmark mesure un champ précis, l’abstraction à partir de grilles visuelles, et ne résume donc pas l’ensemble des capacités d’un modèle. Des scores élevés peuvent aussi réduire le pouvoir discriminant si plusieurs systèmes se rapprochent du plafond, même si ARC-AGI conserve un intérêt pour comparer la capacité à généraliser hors des exemples fournis.


Sources des scores : llm-stats.