ARC-E
ARC-E est la partie « Easy Set » de AI2 Reasoning Challenge, un benchmark conçu par Allen Institute for Artificial Intelligence (AI2) avec Peter Clark et al. Il regroupe des questions scientifiques de niveau scolaire sous forme de QCM, en anglais, afin d’évaluer la capacité des modèles à…
ARC-E est la partie « Easy Set » de AI2 Reasoning Challenge, un benchmark conçu par Allen Institute for Artificial Intelligence (AI2) avec Peter Clark et al. Il regroupe des questions scientifiques de niveau scolaire sous forme de QCM, en anglais, afin d’évaluer la capacité des modèles à mobiliser des connaissances factuelles et un raisonnement élémentaire.
Dans une modelothèque, ARC-E sert d’indicateur de performance sur des tâches de compréhension scientifique accessibles. Il renseigne surtout sur la capacité à retrouver et combiner des informations simples dans un contexte guidé par des choix de réponse.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Allen Institute for Artificial Intelligence (AI2), Peter Clark et al. |
| Capacités mesurées | généraliste, raisonnement |
| Modalité | Texte |
| Type de questions | QCM |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | CC BY-SA 4.0 |
| Langues | anglais |
| Taille du jeu | 5 197 questions |
| Année de publication | 2018 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemma 2 27B | 88,6 % | 27 juin 2024 | Auto-déclaré | |
| 2 | Gemma 2 9B | 88,0 % | 27 juin 2024 | Auto-déclaré | |
| 3 | Hermes 3 70B | Nous Research | 83,0 % | 15 août 2024 | Auto-déclaré |
| 4 | Gemma 3n E4B | 81,6 % | 26 juin 2025 | Auto-déclaré | |
| 5 | Gemma 3n E4B Instructed LiteRT Preview | 81,6 % | 20 mai 2025 | Auto-déclaré | |
| 6 | Gemma 3n E2B | 75,8 % | 26 juin 2025 | Auto-déclaré | |
| 7 | Gemma 3n E2B Instructed LiteRT (Preview) | 75,8 % | 20 mai 2025 | Auto-déclaré | |
| 8 | ERNIE 4.5 | Baidu | 60,7 % | 25 juin 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 6 de grands éditeurs. Score médian de l'ensemble : 81,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ARC-E indique une bonne maîtrise des questions scientifiques scolaires les plus accessibles du jeu AI2 Reasoning Challenge, avec une capacité à associer connaissances factuelles, compréhension de l’énoncé et sélection de la bonne réponse. Comme l’Easy Set contient des questions pouvant être résolues par des approches fondées sur la recherche d’information ou la cooccurrence de mots, le benchmark distingue moins fortement les modèles avancés que des tests plus difficiles. Dans la base considérée, le score médian atteint 82 %, et le meilleur résultat recensé est celui de Gemma 2 27B (Google), à 89 %, ce qui suggère un classement relativement resserré sur cette tâche. La lecture des écarts doit rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs. Les limites principales tiennent donc à une possible saturation, au risque de contamination des données d’entraînement et à une portée centrée sur des QCM scientifiques scolaires en anglais, plutôt que sur un raisonnement scientifique ouvert ou expert.
Sources des scores : llm-stats.