ARC-C
ARC-C est le sous-ensemble Challenge de l’AI2 Reasoning Challenge, un benchmark de questions scientifiques de niveau scolaire au format QCM. Créé par AI2 (Allen Institute for AI) avec Peter Clark et al., il cible des questions conçues pour mettre en défaut les approches simples fondées…
ARC-C est le sous-ensemble Challenge de l’AI2 Reasoning Challenge, un benchmark de questions scientifiques de niveau scolaire au format QCM. Créé par AI2 (Allen Institute for AI) avec Peter Clark et al., il cible des questions conçues pour mettre en défaut les approches simples fondées sur la récupération d’information ou la cooccurrence de mots.
Le benchmark sert à évaluer la capacité des modèles à mobiliser un raisonnement scientifique, du bon sens et des inférences robustes face à des questions difficiles. Il occupe ainsi un rôle utile pour distinguer la simple reconnaissance de motifs d’une compréhension plus structurée.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | AI2 (Allen Institute for AI), Peter Clark et al. |
| Capacités mesurées | généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | CC-BY-SA-4.0 |
| Langues | anglais |
| Taille du jeu | 2 590 questions pour ARC-Challenge (1 119 train, 299 validation, 1 172 test) |
| Année de publication | 2018 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | MiMo-V2.5-Pro | Xiaomi | 97,2 % | 27 avril 2026 | Auto-déclaré |
| 2 | Llama 3.1 405B Instruct | Meta | 96,9 % | 23 juillet 2024 | Auto-déclaré |
| 3 | Claude 3 Opus | Anthropic | 96,4 % | 29 février 2024 | Auto-déclaré |
| 4 | Llama 3.1 70B Instruct | Meta | 94,8 % | 23 juillet 2024 | Auto-déclaré |
| 5 | Nova Pro | Amazon | 94,8 % | 20 novembre 2024 | Auto-déclaré |
| 6 | Claude 3 Sonnet | Anthropic | 93,2 % | 29 février 2024 | Auto-déclaré |
| 7 | Jamba 1.5 Large | AI21 | 93,0 % | 22 août 2024 | Auto-déclaré |
| 8 | Nova Lite | Amazon | 92,4 % | 20 novembre 2024 | Auto-déclaré |
| 9 | Mistral Small 3 24B Base | Mistral AI | 91,3 % | 30 janvier 2025 | Auto-déclaré |
| 10 | Phi-3.5-MoE-instruct | Microsoft | 91,0 % | 23 août 2024 | Auto-déclaré |
| 11 | Nova Micro | Amazon | 90,2 % | 20 novembre 2024 | Auto-déclaré |
| 12 | Claude 3 Haiku | Anthropic | 89,2 % | 13 mars 2024 | Auto-déclaré |
| 13 | Jamba 1.5 Mini | AI21 | 85,7 % | 22 août 2024 | Auto-déclaré |
| 14 | Phi-3.5-mini-instruct | Microsoft | 84,6 % | 23 août 2024 | Auto-déclaré |
| 15 | Phi 4 Mini | Microsoft | 83,7 % | 30 avril 2025 | Auto-déclaré |
| 16 | Llama 3.1 8B Instruct | Meta | 83,4 % | 23 juillet 2024 | Auto-déclaré |
| 17 | Llama 3.2 3B Instruct | Meta | 78,6 % | 25 septembre 2024 | Auto-déclaré |
| 18 | Ministral 8B Instruct | Mistral AI | 71,9 % | 16 octobre 2024 | Auto-déclaré |
| 19 | Gemma 2 27B | 71,4 % | 27 juin 2024 | Auto-déclaré | |
| 20 | Cohere: Command R (08-2024) | cohere | 71,0 % | 30 août 2024 | Auto-déclaré |
Classement établi sur 34 modèles évalués, dont 27 de grands éditeurs. Score médian de l'ensemble : 75,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ARC-C indique qu’un modèle répond correctement à une forte proportion de questions à choix multiples réputées difficiles, avec une mesure fondée sur l’accuracy. Dans la base, le score médian atteint 75 %, tandis que le meilleur résultat recensé est celui de MiMo-V2.5-Pro (Xiaomi) à 97 %, ce qui suggère une forte progression des modèles les plus performants sur ce benchmark. Cette avance doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs et ne relèvent donc pas toujours d’une évaluation indépendante et homogène. ARC-C reste également limité à des questions en anglais, dans un format QCM, et à un domaine centré sur les sciences de niveau scolaire et le raisonnement de bon sens. Les résultats élevés peuvent signaler une forme de saturation partielle, ainsi qu’un risque de contamination des données d’entraînement pour des modèles récents. Le classement révèle surtout la capacité relative des systèmes à traiter ce type précis de raisonnement contraint.
Sources des scores : llm-stats.