Language

LiveBench: Language est la catégorie consacrée à la compréhension du langage au sein de LiveBench, un benchmark créé par l’équipe LiveBench réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California.

LiveBench: Language est la catégorie consacrée à la compréhension du langage au sein de LiveBench, un benchmark créé par l’équipe LiveBench réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California.

Il évalue des modèles sur des tâches ancrées dans des sources récentes, comme des articles ou des synopsis, avec des exercices de réorganisation de texte, de correction d’erreurs ou de déduction. Son rôle est de mesurer des compétences linguistiques pratiques au moyen de réponses vérifiables, sans recours à un juge LLM.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAbacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesuréesComprehension du langage : ex. reorganisation de texte, correction de fautes, deductions a partir d'articles ou de synopsis recents
ModalitéTexte
Type de questionsTaches de comprehension du langage (ex. synopsis de films, articles recents, completion de connexions)
Métrique d'évaluationScoring automatique sur verite-terrain objective et verifiable, sans juge LLM
AccèsPublic
LicenceApache-2.0 (depot avec composants sous MIT)
Languesanglais
Taille du jeu40-100 questions par tache (plusieurs taches par categorie)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Claude Fable 5Anthropic88,5 %9 juin 2026✅ Mesuré
2GPT-5.5OpenAI87,7 %23 avril 2026✅ Mesuré
3Gemini 3.1 Pro PreviewGoogle85,4 %19 février 2026✅ Mesuré
4gemini-3-pro-preview-11-2025-highGoogle84,6 %✅ Mesuré
5Gemini 3.5 FlashGoogle84,6 %19 mai 2026✅ Mesuré
6Gemini 3 FlashGoogle84,6 %17 décembre 2025✅ Mesuré
7Claude Opus 4.6Anthropic83,3 %7 avril 2026✅ Mesuré
8GPT-5.4OpenAI82,6 %5 mars 2026✅ Mesuré
9Claude Opus 4.8Anthropic81,4 %28 mai 2026✅ Mesuré
10OpenAI: GPT-5 ProOpenAI80,7 %6 octobre 2025✅ Mesuré
11GPT-5.3 CodexOpenAI80,1 %5 février 2026✅ Mesuré
12GPT-5.2OpenAI79,8 %11 décembre 2025✅ Mesuré
13Qwen3.7 MaxQwen79,7 %19 mai 2026✅ Mesuré
14GPT-5.1OpenAI79,3 %13 novembre 2025✅ Mesuré
15Claude Opus 4.5Anthropic78,7 %24 novembre 2025✅ Mesuré
16DeepSeek V4 ProDeepSeek78,1 %24 avril 2026✅ Mesuré
17Claude Opus 4.7Anthropic77,9 %12 mai 2026✅ Mesuré
18Kimi K2.7 CodeMoonshot AI77,9 %12 juin 2026✅ Mesuré
19xAI: Grok 4.20 BetaxAI77,7 %12 mars 2026✅ Mesuré
20Kimi K2.5Moonshot AI77,7 %✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 71,6 %.

Notre analyse

Un score élevé sur LiveBench: Language indique une bonne capacité à extraire, réorganiser et exploiter des informations textuelles récentes dans des tâches à vérité-terrain objective. Le meilleur score recensé dans la base, Claude Fable 5 à 88 %, se situe au-dessus d’une médiane de 72 % observée sur 76 modèles, ce qui suggère un écart encore visible entre les systèmes les plus performants et le niveau central du classement.

  • Rigueur : la notation automatique sur réponses vérifiables limite la subjectivité et évite les variations liées à un juge LLM.
  • Fiabilité : les scores étant majoritairement auto-déclarés par les éditeurs, leur comparaison dépend de la qualité du reporting et de conditions d’évaluation cohérentes.
  • Limites : le benchmark reste centré sur l’anglais et sur la compréhension du langage. Les sources récentes réduisent certains risques de contamination, sans les exclure totalement. Une saturation peut apparaître si les meilleurs modèles convergent vers des scores proches.

Sources des scores : livebench.