Connaissances & sciences

ARC-C

ARC-C est le sous-ensemble Challenge de l’AI2 Reasoning Challenge, un benchmark de questions scientifiques de niveau scolaire au format QCM. Créé par AI2 (Allen Institute for AI) avec Peter Clark et al., il cible des questions conçues pour mettre en défaut les approches simples fondées…

Le benchmark sert à évaluer la capacité des modèles à mobiliser un raisonnement scientifique, du bon sens et des inférences robustes face à des questions difficiles. Il occupe ainsi un rôle utile pour distinguer la simple reconnaissance de motifs d’une compréhension plus structurée.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	AI2 (Allen Institute for AI), Peter Clark et al.
Capacités mesurées	généraliste, raisonnement
Modalité	Texte
Type de questions	QCM
Métrique d'évaluation	accuracy
Accès	Public
Licence	CC-BY-SA-4.0
Langues	anglais
Taille du jeu	2 590 questions pour ARC-Challenge (1 119 train, 299 validation, 1 172 test)
Année de publication	2018
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	MiMo-V2.5-Pro	Xiaomi	97,2 %	27 avril 2026	Auto-déclaré
2	Llama 3.1 405B Instruct	Meta	96,9 %	23 juillet 2024	Auto-déclaré
3	Claude 3 Opus	Anthropic	96,4 %	29 février 2024	Auto-déclaré
4	Llama 3.1 70B Instruct	Meta	94,8 %	23 juillet 2024	Auto-déclaré
5	Nova Pro	Amazon	94,8 %	20 novembre 2024	Auto-déclaré
6	Claude 3 Sonnet	Anthropic	93,2 %	29 février 2024	Auto-déclaré
7	Jamba 1.5 Large	AI21	93,0 %	22 août 2024	Auto-déclaré
8	Nova Lite	Amazon	92,4 %	20 novembre 2024	Auto-déclaré
9	Mistral Small 3 24B Base	Mistral AI	91,3 %	30 janvier 2025	Auto-déclaré
10	Phi-3.5-MoE-instruct	Microsoft	91,0 %	23 août 2024	Auto-déclaré
11	Nova Micro	Amazon	90,2 %	20 novembre 2024	Auto-déclaré
12	Claude 3 Haiku	Anthropic	89,2 %	13 mars 2024	Auto-déclaré
13	Jamba 1.5 Mini	AI21	85,7 %	22 août 2024	Auto-déclaré
14	Phi-3.5-mini-instruct	Microsoft	84,6 %	23 août 2024	Auto-déclaré
15	Phi 4 Mini	Microsoft	83,7 %	30 avril 2025	Auto-déclaré
16	Llama 3.1 8B Instruct	Meta	83,4 %	23 juillet 2024	Auto-déclaré
17	Llama 3.2 3B Instruct	Meta	78,6 %	25 septembre 2024	Auto-déclaré
18	Ministral 8B Instruct	Mistral AI	71,9 %	16 octobre 2024	Auto-déclaré
19	Gemma 2 27B	Google	71,4 %	27 juin 2024	Auto-déclaré
20	Cohere: Command R (08-2024)	cohere	71,0 %	30 août 2024	Auto-déclaré

Classement établi sur 34 modèles évalués, dont 27 de grands éditeurs. Score médian de l'ensemble : 75,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ARC-C indique qu’un modèle répond correctement à une forte proportion de questions à choix multiples réputées difficiles, avec une mesure fondée sur l’accuracy. Dans la base, le score médian atteint 75 %, tandis que le meilleur résultat recensé est celui de MiMo-V2.5-Pro (Xiaomi) à 97 %, ce qui suggère une forte progression des modèles les plus performants sur ce benchmark. Cette avance doit toutefois être interprétée avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs et ne relèvent donc pas toujours d’une évaluation indépendante et homogène. ARC-C reste également limité à des questions en anglais, dans un format QCM, et à un domaine centré sur les sciences de niveau scolaire et le raisonnement de bon sens. Les résultats élevés peuvent signaler une forme de saturation partielle, ainsi qu’un risque de contamination des données d’entraînement pour des modèles récents. Le classement révèle surtout la capacité relative des systèmes à traiter ce type précis de raisonnement contraint.

Sources des scores : llm-stats.

ARC-C

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench