AGIEval

AGIEval est un benchmark conçu par Microsoft Research et Wanjun Zhong et al. pour évaluer des modèles de fondation à partir d’examens standardisés. Son approche se veut centrée sur des tâches proches de contextes académiques et professionnels réels, avec des épreuves issues notamment…

AGIEval est un benchmark conçu par Microsoft Research et Wanjun Zhong et al. pour évaluer des modèles de fondation à partir d’examens standardisés. Son approche se veut centrée sur des tâches proches de contextes académiques et professionnels réels, avec des épreuves issues notamment d’examens d’entrée à l’université, de tests juridiques, de compétitions de mathématiques et de concours administratifs.

Le benchmark mesure la compréhension, les connaissances, le raisonnement logique et mathématique, ainsi que la capacité à résoudre des questions structurées. Il sert ainsi de repère pour comparer la robustesse générale des modèles face à des formats d’évaluation exigeants.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMicrosoft Research / Wanjun Zhong et al.
Capacités mesuréesgénéraliste, juridique, mathématiques, raisonnement
ModalitéTexte
Type de questionsQCM et tâches de cloze
Métrique d'évaluationaccuracy
AccèsPublic
Languesanglais et chinois
Taille du jeuenviron 8 062 questions
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1Mistral Small 3 24B BaseMistral AI65,8 %30 janvier 2025Auto-déclaré
2Ministral 3 (14B Base 2512)Mistral AI64,8 %4 décembre 2025Auto-déclaré
3Ministral 3 (8B Base 2512)Mistral AI59,1 %4 décembre 2025Auto-déclaré
4Hermes 3 70BNous Research56,2 %15 août 2024Auto-déclaré
5Gemma 2 27BGoogle55,1 %27 juin 2024Auto-déclaré
6Gemma 2 9BGoogle52,8 %27 juin 2024Auto-déclaré
7Ministral 3 (3B Base 2512)Mistral AI51,1 %4 décembre 2025Auto-déclaré
8Granite 3.3 8B BaseIBM49,3 %16 avril 2025Auto-déclaré
9Ministral 8B InstructMistral AI48,3 %16 octobre 2024Auto-déclaré
10ERNIE 4.5Baidu28,5 %25 juin 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 54,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AGIEval indique une bonne capacité à traiter des questions d’examen, à mobiliser des connaissances et à appliquer des raisonnements logiques ou mathématiques dans des formats contraints comme les QCM et les tâches de cloze. Dans la base considérée, l’écart entre le score médian de 54 % et le meilleur résultat, Mistral Small 3 24B Base à 66 %, suggère une marge de progression notable, y compris pour les modèles les mieux classés. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité de la mesure par rapport à une évaluation entièrement indépendante. Les limites tiennent aussi au caractère public du benchmark, qui peut exposer certaines tâches à des risques de contamination, ainsi qu’à sa portée centrée sur des examens standardisés en anglais et en chinois. Une saturation progressive serait possible si les modèles s’optimisent spécifiquement sur ce type de tests.


Sources des scores : llm-stats.