AGIEval
AGIEval est un benchmark conçu par Microsoft Research et Wanjun Zhong et al. pour évaluer des modèles de fondation à partir d’examens standardisés. Son approche se veut centrée sur des tâches proches de contextes académiques et professionnels réels, avec des épreuves issues notamment…
AGIEval est un benchmark conçu par Microsoft Research et Wanjun Zhong et al. pour évaluer des modèles de fondation à partir d’examens standardisés. Son approche se veut centrée sur des tâches proches de contextes académiques et professionnels réels, avec des épreuves issues notamment d’examens d’entrée à l’université, de tests juridiques, de compétitions de mathématiques et de concours administratifs.
Le benchmark mesure la compréhension, les connaissances, le raisonnement logique et mathématique, ainsi que la capacité à résoudre des questions structurées. Il sert ainsi de repère pour comparer la robustesse générale des modèles face à des formats d’évaluation exigeants.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Microsoft Research / Wanjun Zhong et al. |
| Capacités mesurées | généraliste, juridique, mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | QCM et tâches de cloze |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Langues | anglais et chinois |
| Taille du jeu | environ 8 062 questions |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Mistral Small 3 24B Base | Mistral AI | 65,8 % | 30 janvier 2025 | Auto-déclaré |
| 2 | Ministral 3 (14B Base 2512) | Mistral AI | 64,8 % | 4 décembre 2025 | Auto-déclaré |
| 3 | Ministral 3 (8B Base 2512) | Mistral AI | 59,1 % | 4 décembre 2025 | Auto-déclaré |
| 4 | Hermes 3 70B | Nous Research | 56,2 % | 15 août 2024 | Auto-déclaré |
| 5 | Gemma 2 27B | 55,1 % | 27 juin 2024 | Auto-déclaré | |
| 6 | Gemma 2 9B | 52,8 % | 27 juin 2024 | Auto-déclaré | |
| 7 | Ministral 3 (3B Base 2512) | Mistral AI | 51,1 % | 4 décembre 2025 | Auto-déclaré |
| 8 | Granite 3.3 8B Base | IBM | 49,3 % | 16 avril 2025 | Auto-déclaré |
| 9 | Ministral 8B Instruct | Mistral AI | 48,3 % | 16 octobre 2024 | Auto-déclaré |
| 10 | ERNIE 4.5 | Baidu | 28,5 % | 25 juin 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 54,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur AGIEval indique une bonne capacité à traiter des questions d’examen, à mobiliser des connaissances et à appliquer des raisonnements logiques ou mathématiques dans des formats contraints comme les QCM et les tâches de cloze. Dans la base considérée, l’écart entre le score médian de 54 % et le meilleur résultat, Mistral Small 3 24B Base à 66 %, suggère une marge de progression notable, y compris pour les modèles les mieux classés. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité de la mesure par rapport à une évaluation entièrement indépendante. Les limites tiennent aussi au caractère public du benchmark, qui peut exposer certaines tâches à des risques de contamination, ainsi qu’à sa portée centrée sur des examens standardisés en anglais et en chinois. Une saturation progressive serait possible si les modèles s’optimisent spécifiquement sur ce type de tests.
Sources des scores : llm-stats.