Mathématiques

LiveBench 20241125

LiveBench 20241125 est un benchmark public pour grands modèles de langage conçu par Abacus.AI, NYU et NVIDIA, notamment Colin White, Samuel Dooley et leurs coauteurs. Il vise une évaluation limitée en contamination grâce à des questions renouvelées mensuellement, issues de sources…

Le benchmark mesure des capacités en mathématiques, code, raisonnement, langage, suivi d’instructions et analyse de données. Son rôle est de comparer les modèles sur des réponses vérifiables automatiquement, sans recours à un juge LLM.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Abacus.AI, NYU et NVIDIA (Colin White, Samuel Dooley et al.)
Capacités mesurées	Évaluation contamination-limitée sur math, code, raisonnement, langage, suivi d'instructions et analyse de données, avec scores objectifs et automatiques.
Modalité	Texte
Type de questions	Tâches variées à vérité-terrain objective (math, code, raisonnement, langage, suivi d'instructions, analyse de données)
Métrique d'évaluation	Exactitude automatique sur réponses vérifiables (sans juge LLM)
Accès	Public
Langues	anglais
Taille du jeu	18 tâches sur 6 catégories ; questions renouvelées mensuellement (snapshot 2024-11-25)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 14)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3 VL 235B A22B Thinking	Qwen	79,6 %	22 septembre 2025	Auto-déclaré
2	Qwen3-235B-A22B-Thinking-2507	Qwen	78,4 %	25 juillet 2025	Auto-déclaré
3	Qwen3-Next-80B-A3B-Thinking	Qwen	76,6 %	10 septembre 2025	Auto-déclaré
4	Qwen3-Next-80B-A3B-Instruct	Qwen	75,8 %	10 septembre 2025	Auto-déclaré
5	Qwen3-235B-A22B-Instruct-2507	Qwen	75,4 %	22 juillet 2025	Auto-déclaré
6	Qwen3 VL 235B A22B Instruct	Qwen	74,8 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 32B Thinking	Qwen	74,7 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 32B Instruct	Qwen	72,2 %	22 septembre 2025	Auto-déclaré
9	Qwen3 VL 30B A3B Thinking	Qwen	72,1 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 8B Thinking	Qwen	69,8 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 4B Thinking	Qwen	68,4 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 30B A3B Instruct	Qwen	65,4 %	22 septembre 2025	Auto-déclaré
13	Qwen3 VL 8B Instruct	Qwen	62,0 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 4B Instruct	Qwen	60,9 %	22 septembre 2025	Auto-déclaré

Classement établi sur 14 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 73,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveBench 20241125 indique une bonne capacité à résoudre des tâches variées dont la réponse attendue est objectivement vérifiable. La métrique repose sur l’exactitude automatique, ce qui renforce la reproductibilité par rapport à des évaluations fondées sur un juge LLM. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans cette base sont majoritairement auto-déclarés par les éditeurs, et non tous mesurés de manière indépendante. Le renouvellement mensuel des questions réduit le risque de contamination, sans l’éliminer totalement. La portée reste aussi limitée à des tâches en anglais et à des formats disposant d’une vérité-terrain objective, ce qui ne couvre pas toute la qualité conversationnelle ou créative d’un modèle. Dans la base, 14 modèles sont évalués, avec un score médian de 73 %. Le meilleur résultat recensé, Qwen3 VL 235B A22B Thinking à 80 %, suggère un benchmark encore discriminant, même si l’écart avec la médiane appelle une analyse par catégorie pour comprendre les forces réelles des modèles.

Sources des scores : llm-stats.

LiveBench 20241125

Carte d'identité

Classement des modèles (top 14)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench