LiveBench 20241125

LiveBench 20241125 est un benchmark public pour grands modèles de langage conçu par Abacus.AI, NYU et NVIDIA, notamment Colin White, Samuel Dooley et leurs coauteurs. Il vise une évaluation limitée en contamination grâce à des questions renouvelées mensuellement, issues de sources…

LiveBench 20241125 est un benchmark public pour grands modèles de langage conçu par Abacus.AI, NYU et NVIDIA, notamment Colin White, Samuel Dooley et leurs coauteurs. Il vise une évaluation limitée en contamination grâce à des questions renouvelées mensuellement, issues de sources récentes comme des jeux de données, des articles arXiv, des actualités et des synopsis IMDb.

Le benchmark mesure des capacités en mathématiques, code, raisonnement, langage, suivi d’instructions et analyse de données. Son rôle est de comparer les modèles sur des réponses vérifiables automatiquement, sans recours à un juge LLM.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAbacus.AI, NYU et NVIDIA (Colin White, Samuel Dooley et al.)
Capacités mesuréesÉvaluation contamination-limitée sur math, code, raisonnement, langage, suivi d'instructions et analyse de données, avec scores objectifs et automatiques.
ModalitéTexte
Type de questionsTâches variées à vérité-terrain objective (math, code, raisonnement, langage, suivi d'instructions, analyse de données)
Métrique d'évaluationExactitude automatique sur réponses vérifiables (sans juge LLM)
AccèsPublic
Languesanglais
Taille du jeu18 tâches sur 6 catégories ; questions renouvelées mensuellement (snapshot 2024-11-25)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 14)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3 VL 235B A22B ThinkingQwen79,6 %22 septembre 2025Auto-déclaré
2Qwen3-235B-A22B-Thinking-2507Qwen78,4 %25 juillet 2025Auto-déclaré
3Qwen3-Next-80B-A3B-ThinkingQwen76,6 %10 septembre 2025Auto-déclaré
4Qwen3-Next-80B-A3B-InstructQwen75,8 %10 septembre 2025Auto-déclaré
5Qwen3-235B-A22B-Instruct-2507Qwen75,4 %22 juillet 2025Auto-déclaré
6Qwen3 VL 235B A22B InstructQwen74,8 %22 septembre 2025Auto-déclaré
7Qwen3 VL 32B ThinkingQwen74,7 %22 septembre 2025Auto-déclaré
8Qwen3 VL 32B InstructQwen72,2 %22 septembre 2025Auto-déclaré
9Qwen3 VL 30B A3B ThinkingQwen72,1 %22 septembre 2025Auto-déclaré
10Qwen3 VL 8B ThinkingQwen69,8 %22 septembre 2025Auto-déclaré
11Qwen3 VL 4B ThinkingQwen68,4 %22 septembre 2025Auto-déclaré
12Qwen3 VL 30B A3B InstructQwen65,4 %22 septembre 2025Auto-déclaré
13Qwen3 VL 8B InstructQwen62,0 %22 septembre 2025Auto-déclaré
14Qwen3 VL 4B InstructQwen60,9 %22 septembre 2025Auto-déclaré

Classement établi sur 14 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 73,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur LiveBench 20241125 indique une bonne capacité à résoudre des tâches variées dont la réponse attendue est objectivement vérifiable. La métrique repose sur l’exactitude automatique, ce qui renforce la reproductibilité par rapport à des évaluations fondées sur un juge LLM. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans cette base sont majoritairement auto-déclarés par les éditeurs, et non tous mesurés de manière indépendante. Le renouvellement mensuel des questions réduit le risque de contamination, sans l’éliminer totalement. La portée reste aussi limitée à des tâches en anglais et à des formats disposant d’une vérité-terrain objective, ce qui ne couvre pas toute la qualité conversationnelle ou créative d’un modèle. Dans la base, 14 modèles sont évalués, avec un score médian de 73 %. Le meilleur résultat recensé, Qwen3 VL 235B A22B Thinking à 80 %, suggère un benchmark encore discriminant, même si l’écart avec la médiane appelle une analyse par catégorie pour comprendre les forces réelles des modèles.


Sources des scores : llm-stats.