LiveBench 20241125
LiveBench 20241125 est un benchmark public pour grands modèles de langage conçu par Abacus.AI, NYU et NVIDIA, notamment Colin White, Samuel Dooley et leurs coauteurs. Il vise une évaluation limitée en contamination grâce à des questions renouvelées mensuellement, issues de sources…
LiveBench 20241125 est un benchmark public pour grands modèles de langage conçu par Abacus.AI, NYU et NVIDIA, notamment Colin White, Samuel Dooley et leurs coauteurs. Il vise une évaluation limitée en contamination grâce à des questions renouvelées mensuellement, issues de sources récentes comme des jeux de données, des articles arXiv, des actualités et des synopsis IMDb.
Le benchmark mesure des capacités en mathématiques, code, raisonnement, langage, suivi d’instructions et analyse de données. Son rôle est de comparer les modèles sur des réponses vérifiables automatiquement, sans recours à un juge LLM.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Abacus.AI, NYU et NVIDIA (Colin White, Samuel Dooley et al.) |
| Capacités mesurées | Évaluation contamination-limitée sur math, code, raisonnement, langage, suivi d'instructions et analyse de données, avec scores objectifs et automatiques. |
| Modalité | Texte |
| Type de questions | Tâches variées à vérité-terrain objective (math, code, raisonnement, langage, suivi d'instructions, analyse de données) |
| Métrique d'évaluation | Exactitude automatique sur réponses vérifiables (sans juge LLM) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 18 tâches sur 6 catégories ; questions renouvelées mensuellement (snapshot 2024-11-25) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 14)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3 VL 235B A22B Thinking | Qwen | 79,6 % | 22 septembre 2025 | Auto-déclaré |
| 2 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 78,4 % | 25 juillet 2025 | Auto-déclaré |
| 3 | Qwen3-Next-80B-A3B-Thinking | Qwen | 76,6 % | 10 septembre 2025 | Auto-déclaré |
| 4 | Qwen3-Next-80B-A3B-Instruct | Qwen | 75,8 % | 10 septembre 2025 | Auto-déclaré |
| 5 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 75,4 % | 22 juillet 2025 | Auto-déclaré |
| 6 | Qwen3 VL 235B A22B Instruct | Qwen | 74,8 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 32B Thinking | Qwen | 74,7 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 32B Instruct | Qwen | 72,2 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 30B A3B Thinking | Qwen | 72,1 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 8B Thinking | Qwen | 69,8 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 4B Thinking | Qwen | 68,4 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 30B A3B Instruct | Qwen | 65,4 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 VL 8B Instruct | Qwen | 62,0 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 4B Instruct | Qwen | 60,9 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 14 modèles évalués, dont 14 de grands éditeurs. Score médian de l'ensemble : 73,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur LiveBench 20241125 indique une bonne capacité à résoudre des tâches variées dont la réponse attendue est objectivement vérifiable. La métrique repose sur l’exactitude automatique, ce qui renforce la reproductibilité par rapport à des évaluations fondées sur un juge LLM. La lecture du classement doit toutefois rester prudente, car les scores disponibles dans cette base sont majoritairement auto-déclarés par les éditeurs, et non tous mesurés de manière indépendante. Le renouvellement mensuel des questions réduit le risque de contamination, sans l’éliminer totalement. La portée reste aussi limitée à des tâches en anglais et à des formats disposant d’une vérité-terrain objective, ce qui ne couvre pas toute la qualité conversationnelle ou créative d’un modèle. Dans la base, 14 modèles sont évalués, avec un score médian de 73 %. Le meilleur résultat recensé, Qwen3 VL 235B A22B Thinking à 80 %, suggère un benchmark encore discriminant, même si l’écart avec la médiane appelle une analyse par catégorie pour comprendre les forces réelles des modèles.
Sources des scores : llm-stats.