Vision & multimodal

ARC-AGI

ARC-AGI est un benchmark d’abstraction et de raisonnement créé par François Chollet. Il évalue la capacité d’un système à déduire une règle générale à partir de quelques exemples, puis à l’appliquer à de nouvelles grilles visuelles.

Le test repose sur des transformations spatiales de grilles colorées, sans recours à la langue naturelle. Il occupe une place particulière dans l’évaluation des modèles d’IA, car il cible la généralisation, l’inférence de règles et l’efficacité d’apprentissage avec très peu de démonstrations.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	François Chollet
Capacités mesurées	raisonnement, raisonnement spatial, vision
Modalité	Image
Type de questions	tâches de transformation de grilles visuelles à partir de quelques exemples entrée-sortie
Métrique d'évaluation	accuracy / exact match des grilles de sortie
Accès	Jeu de test privé (réponses non divulguées)
Licence	Apache-2.0
Langues	sans langue naturelle ; grilles visuelles avec couleurs/symboles
Taille du jeu	environ 800 tâches publiques, avec un ensemble de test privé utilisé pour l’évaluation
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5	OpenAI	95,0 %	23 avril 2026	Auto-déclaré
2	GPT-5.4	OpenAI	93,7 %	5 mars 2026	Auto-déclaré
3	GPT-5.2 Pro	OpenAI	90,5 %	11 décembre 2025	Auto-déclaré
4	o3	OpenAI	88,0 %	16 avril 2025	Auto-déclaré
5	GPT-5.2	OpenAI	86,2 %	11 décembre 2025	Auto-déclaré
6	LongCat-Flash-Thinking	Meituan	50,3 %	22 septembre 2025	Auto-déclaré
7	Qwen3-235B-A22B-Instruct-2507	Qwen	41,8 %	22 juillet 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 88,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ARC-AGI indique qu’un modèle parvient souvent à produire exactement la grille attendue après avoir inféré la transformation sous-jacente. Cette exigence d’exact match rend la métrique stricte: une solution partiellement correcte n’est pas comptabilisée comme réussite. Dans la base, le score médian atteint 88% et le meilleur résultat déclaré est celui de GPT-5.5 (OpenAI) à 95%, ce qui suggère une forte progression des systèmes évalués sur ce type de raisonnement visuel.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, tandis que le jeu de test privé limite la vérification indépendante des réponses. Le benchmark mesure un champ précis, l’abstraction à partir de grilles visuelles, et ne résume donc pas l’ensemble des capacités d’un modèle. Des scores élevés peuvent aussi réduire le pouvoir discriminant si plusieurs systèmes se rapprochent du plafond, même si ARC-AGI conserve un intérêt pour comparer la capacité à généraliser hors des exemples fournis.

Sources des scores : llm-stats.

ARC-AGI

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench