Language
LiveBench: Language est la catégorie consacrée à la compréhension du langage au sein de LiveBench, un benchmark créé par l’équipe LiveBench réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California.
LiveBench: Language est la catégorie consacrée à la compréhension du langage au sein de LiveBench, un benchmark créé par l’équipe LiveBench réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California.
Il évalue des modèles sur des tâches ancrées dans des sources récentes, comme des articles ou des synopsis, avec des exercices de réorganisation de texte, de correction d’erreurs ou de déduction. Son rôle est de mesurer des compétences linguistiques pratiques au moyen de réponses vérifiables, sans recours à un juge LLM.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench) |
| Capacités mesurées | Comprehension du langage : ex. reorganisation de texte, correction de fautes, deductions a partir d'articles ou de synopsis recents |
| Modalité | Texte |
| Type de questions | Taches de comprehension du langage (ex. synopsis de films, articles recents, completion de connexions) |
| Métrique d'évaluation | Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM |
| Accès | Public |
| Licence | Apache-2.0 (depot avec composants sous MIT) |
| Langues | anglais |
| Taille du jeu | 40-100 questions par tache (plusieurs taches par categorie) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Fable 5 | Anthropic | 88,5 % | 9 juin 2026 | ✅ Mesuré |
| 2 | GPT-5.5 | OpenAI | 87,7 % | 23 avril 2026 | ✅ Mesuré |
| 3 | Gemini 3.1 Pro Preview | 85,4 % | 19 février 2026 | ✅ Mesuré | |
| 4 | gemini-3-pro-preview-11-2025-high | 84,6 % | — | ✅ Mesuré | |
| 5 | Gemini 3.5 Flash | 84,6 % | 19 mai 2026 | ✅ Mesuré | |
| 6 | Gemini 3 Flash | 84,6 % | 17 décembre 2025 | ✅ Mesuré | |
| 7 | Claude Opus 4.6 | Anthropic | 83,3 % | 7 avril 2026 | ✅ Mesuré |
| 8 | GPT-5.4 | OpenAI | 82,6 % | 5 mars 2026 | ✅ Mesuré |
| 9 | Claude Opus 4.8 | Anthropic | 81,4 % | 28 mai 2026 | ✅ Mesuré |
| 10 | OpenAI: GPT-5 Pro | OpenAI | 80,7 % | 6 octobre 2025 | ✅ Mesuré |
| 11 | GPT-5.3 Codex | OpenAI | 80,1 % | 5 février 2026 | ✅ Mesuré |
| 12 | GPT-5.2 | OpenAI | 79,8 % | 11 décembre 2025 | ✅ Mesuré |
| 13 | Qwen3.7 Max | Qwen | 79,7 % | 19 mai 2026 | ✅ Mesuré |
| 14 | GPT-5.1 | OpenAI | 79,3 % | 13 novembre 2025 | ✅ Mesuré |
| 15 | Claude Opus 4.5 | Anthropic | 78,7 % | 24 novembre 2025 | ✅ Mesuré |
| 16 | DeepSeek V4 Pro | DeepSeek | 78,1 % | 24 avril 2026 | ✅ Mesuré |
| 17 | Claude Opus 4.7 | Anthropic | 77,9 % | 12 mai 2026 | ✅ Mesuré |
| 18 | Kimi K2.7 Code | Moonshot AI | 77,9 % | 12 juin 2026 | ✅ Mesuré |
| 19 | xAI: Grok 4.20 Beta | xAI | 77,7 % | 12 mars 2026 | ✅ Mesuré |
| 20 | Kimi K2.5 | Moonshot AI | 77,7 % | — | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 71,6 %.
Notre analyse
Un score élevé sur LiveBench: Language indique une bonne capacité à extraire, réorganiser et exploiter des informations textuelles récentes dans des tâches à vérité-terrain objective. Le meilleur score recensé dans la base, Claude Fable 5 à 88 %, se situe au-dessus d’une médiane de 72 % observée sur 76 modèles, ce qui suggère un écart encore visible entre les systèmes les plus performants et le niveau central du classement.
- Rigueur : la notation automatique sur réponses vérifiables limite la subjectivité et évite les variations liées à un juge LLM.
- Fiabilité : les scores étant majoritairement auto-déclarés par les éditeurs, leur comparaison dépend de la qualité du reporting et de conditions d’évaluation cohérentes.
- Limites : le benchmark reste centré sur l’anglais et sur la compréhension du langage. Les sources récentes réduisent certains risques de contamination, sans les exclure totalement. Une saturation peut apparaître si les meilleurs modèles convergent vers des scores proches.
Sources des scores : livebench.