ARC-C

ARC-C est le sous-ensemble Challenge de l’AI2 Reasoning Challenge, un benchmark de questions scientifiques de niveau scolaire au format QCM. Créé par AI2 (Allen Institute for AI) avec Peter Clark et al., il cible des questions conçues pour mettre en défaut les approches simples fondées…

ARC-C est le sous-ensemble Challenge de l’AI2 Reasoning Challenge, un benchmark de questions scientifiques de niveau scolaire au format QCM. Créé par AI2 (Allen Institute for AI) avec Peter Clark et al., il cible des questions conçues pour mettre en défaut les approches simples fondées sur la récupération d’information ou la cooccurrence de mots.

Le benchmark sert à évaluer la capacité des modèles à mobiliser un raisonnement scientifique, du bon sens et des inférences robustes face à des questions difficiles. Il occupe ainsi un rôle utile pour distinguer la simple reconnaissance de motifs d’une compréhension plus structurée.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAI2 (Allen Institute for AI), Peter Clark et al.
Capacités mesuréesgénéraliste, raisonnement
ModalitéTexte
Type de questionsQCM
Métrique d'évaluationaccuracy
AccèsPublic
LicenceCC-BY-SA-4.0
Languesanglais
Taille du jeu2 590 questions pour ARC-Challenge (1 119 train, 299 validation, 1 172 test)
Année de publication2018
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1MiMo-V2.5-ProXiaomi97,2 %27 avril 2026Auto-déclaré
2Llama 3.1 405B InstructMeta96,9 %23 juillet 2024Auto-déclaré
3Claude 3 OpusAnthropic96,4 %29 février 2024Auto-déclaré
4Llama 3.1 70B InstructMeta94,8 %23 juillet 2024Auto-déclaré
5Nova ProAmazon94,8 %20 novembre 2024Auto-déclaré
6Claude 3 SonnetAnthropic93,2 %29 février 2024Auto-déclaré
7Jamba 1.5 LargeAI2193,0 %22 août 2024Auto-déclaré
8Nova LiteAmazon92,4 %20 novembre 2024Auto-déclaré
9Mistral Small 3 24B BaseMistral AI91,3 %30 janvier 2025Auto-déclaré
10Phi-3.5-MoE-instructMicrosoft91,0 %23 août 2024Auto-déclaré
11Nova MicroAmazon90,2 %20 novembre 2024Auto-déclaré
12Claude 3 HaikuAnthropic89,2 %13 mars 2024Auto-déclaré
13Jamba 1.5 MiniAI2185,7 %22 août 2024Auto-déclaré
14Phi-3.5-mini-instructMicrosoft84,6 %23 août 2024Auto-déclaré
15Phi 4 MiniMicrosoft83,7 %30 avril 2025Auto-déclaré
16Llama 3.1 8B InstructMeta83,4 %23 juillet 2024Auto-déclaré
17Llama 3.2 3B InstructMeta78,6 %25 septembre 2024Auto-déclaré
18Ministral 8B InstructMistral AI71,9 %16 octobre 2024Auto-déclaré
19Gemma 2 27BGoogle71,4 %27 juin 2024Auto-déclaré
20Cohere: Command R (08-2024)cohere71,0 %30 août 2024Auto-déclaré

Classement établi sur 34 modèles évalués, dont 27 de grands éditeurs. Score médian de l'ensemble : 75,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ARC-C indique qu’un modèle répond correctement à une forte proportion de questions à choix multiples réputées difficiles, avec une mesure fondée sur l’accuracy. Dans la base, le score médian atteint 75 %, tandis que le meilleur résultat recensé est celui de MiMo-V2.5-Pro (Xiaomi) à 97 %, ce qui suggère une forte progression des modèles les plus performants sur ce benchmark. Cette avance doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs et ne relèvent donc pas toujours d’une évaluation indépendante et homogène. ARC-C reste également limité à des questions en anglais, dans un format QCM, et à un domaine centré sur les sciences de niveau scolaire et le raisonnement de bon sens. Les résultats élevés peuvent signaler une forme de saturation partielle, ainsi qu’un risque de contamination des données d’entraînement pour des modèles récents. Le classement révèle surtout la capacité relative des systèmes à traiter ce type précis de raisonnement contraint.


Sources des scores : llm-stats.