Mathématiques

AGIEval

AGIEval est un benchmark conçu par Microsoft Research et Wanjun Zhong et al. pour évaluer des modèles de fondation à partir d’examens standardisés. Son approche se veut centrée sur des tâches proches de contextes académiques et professionnels réels, avec des épreuves issues notamment…

Le benchmark mesure la compréhension, les connaissances, le raisonnement logique et mathématique, ainsi que la capacité à résoudre des questions structurées. Il sert ainsi de repère pour comparer la robustesse générale des modèles face à des formats d’évaluation exigeants.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Microsoft Research / Wanjun Zhong et al.
Capacités mesurées	généraliste, juridique, mathématiques, raisonnement
Modalité	Texte
Type de questions	QCM et tâches de cloze
Métrique d'évaluation	accuracy
Accès	Public
Langues	anglais et chinois
Taille du jeu	environ 8 062 questions
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Mistral Small 3 24B Base	Mistral AI	65,8 %	30 janvier 2025	Auto-déclaré
2	Ministral 3 (14B Base 2512)	Mistral AI	64,8 %	4 décembre 2025	Auto-déclaré
3	Ministral 3 (8B Base 2512)	Mistral AI	59,1 %	4 décembre 2025	Auto-déclaré
4	Hermes 3 70B	Nous Research	56,2 %	15 août 2024	Auto-déclaré
5	Gemma 2 27B	Google	55,1 %	27 juin 2024	Auto-déclaré
6	Gemma 2 9B	Google	52,8 %	27 juin 2024	Auto-déclaré
7	Ministral 3 (3B Base 2512)	Mistral AI	51,1 %	4 décembre 2025	Auto-déclaré
8	Granite 3.3 8B Base	IBM	49,3 %	16 avril 2025	Auto-déclaré
9	Ministral 8B Instruct	Mistral AI	48,3 %	16 octobre 2024	Auto-déclaré
10	ERNIE 4.5	Baidu	28,5 %	25 juin 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 54,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur AGIEval indique une bonne capacité à traiter des questions d’examen, à mobiliser des connaissances et à appliquer des raisonnements logiques ou mathématiques dans des formats contraints comme les QCM et les tâches de cloze. Dans la base considérée, l’écart entre le score médian de 54 % et le meilleur résultat, Mistral Small 3 24B Base à 66 %, suggère une marge de progression notable, y compris pour les modèles les mieux classés. La lecture du classement doit toutefois rester prudente, car les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité de la mesure par rapport à une évaluation entièrement indépendante. Les limites tiennent aussi au caractère public du benchmark, qui peut exposer certaines tâches à des risques de contamination, ainsi qu’à sa portée centrée sur des examens standardisés en anglais et en chinois. Une saturation progressive serait possible si les modèles s’optimisent spécifiquement sur ce type de tests.

Sources des scores : llm-stats.

AGIEval

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench