Vision & multimodal

ARC-AGI v2

ARC-AGI v2 est un benchmark conçu pour évaluer le raisonnement abstrait des systèmes d’IA à partir de tâches visuelles de transformation de grilles. Créé par ARC Prize Foundation, avec François Chollet, Mike Knoop, Gregory Kamradt et d’autres contributeurs, il prolonge l’approche ARC…

Le test mesure l’intelligence fluide, la reconnaissance de motifs, le raisonnement spatial et la généralisation compositionnelle à partir de très peu d’exemples. Son rôle est d’isoler une forme de résolution de problèmes moins dépendante du langage ou de la mémorisation textuelle.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	ARC Prize Foundation (François Chollet, Mike Knoop, Gregory Kamradt et al.)
Capacités mesurées	Intelligence fluide et raisonnement abstrait : généralisation à partir de très peu d'exemples sur des transformations de grilles inédites.
Modalité	Multimodal
Type de questions	Tâches de raisonnement abstrait sur grilles visuelles (paires entrée-sortie)
Métrique d'évaluation	Exactitude : grille de sortie exacte sur toutes les entrées de test, jusqu'à 2 essais (pass@2)
Accès	Public
Licence	Apache-2.0
Langues	N/A (grilles visuelles, sans langage)
Taille du jeu	1000 tâches d'entraînement, 120 tâches d'évaluation publique (+ ensemble de test privé)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5	OpenAI	85,0 %	23 avril 2026	Auto-déclaré
2	Gemini 3.1 Pro Preview	Google	77,1 %	19 février 2026	Auto-déclaré
3	GPT-5.4	OpenAI	73,3 %	5 mars 2026	Auto-déclaré
4	Gemini 3.5 Flash	Google	72,1 %	19 mai 2026	Auto-déclaré
5	Claude Opus 4.6	Anthropic	68,8 %	7 avril 2026	Auto-déclaré
6	Claude Sonnet 4.6	Anthropic	58,3 %	17 février 2026	Auto-déclaré
7	GPT-5.2 Pro	OpenAI	54,2 %	11 décembre 2025	Auto-déclaré
8	GPT-5.2	OpenAI	52,9 %	11 décembre 2025	Auto-déclaré
9	Muse Spark	Meta	42,5 %	8 avril 2026	Auto-déclaré
10	Claude Opus 4.5	Anthropic	37,6 %	24 novembre 2025	Auto-déclaré
11	Gemini 3 Flash	Google	33,6 %	17 décembre 2025	Auto-déclaré
12	Gemini 3 Pro	Google	31,1 %	18 novembre 2025	Auto-déclaré
13	Grok-4	xAI	15,9 %	9 juillet 2025	Auto-déclaré
14	Claude Opus 4	Anthropic	8,6 %	22 mai 2025	n.d.
15	o3	OpenAI	6,5 %	16 avril 2025	n.d.
16	Gemini 2.5 Pro	Google	4,9 %	20 mai 2025	n.d.

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 47,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ARC-AGI v2 indique qu’un modèle parvient à inférer des règles de transformation inédites à partir de paires entrée-sortie limitées, puis à produire exactement la bonne grille sur les cas de test, avec jusqu’à deux essais. Dans la base, l’écart entre un score médian de 48 % et le meilleur résultat, GPT-5.5 (OpenAI) à 85 %, suggère une hiérarchie nette entre modèles, sans saturation complète du classement observé.

La lecture des résultats doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. L’existence d’un ensemble de test privé renforce l’intérêt du benchmark, mais l’accès public à une partie des tâches impose de surveiller les risques de contamination et d’optimisation spécifique. ARC-AGI v2 couvre une compétence précise, le raisonnement abstrait sur grilles visuelles, et ne mesure ni les capacités langagières, ni l’usage d’outils, ni la robustesse en contexte applicatif réel.

Sources des scores : llm-stats.

ARC-AGI v2

Carte d'identité

Classement des modèles (top 16)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench