Autres benchmarks

Language

LiveBench: Language est la catégorie consacrée à la compréhension du langage au sein de LiveBench, un benchmark créé par l’équipe LiveBench réunissant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California.

Il évalue des modèles sur des tâches ancrées dans des sources récentes, comme des articles ou des synopsis, avec des exercices de réorganisation de texte, de correction d’erreurs ou de déduction. Son rôle est de mesurer des compétences linguistiques pratiques au moyen de réponses vérifiables, sans recours à un juge LLM.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesurées	Comprehension du langage : ex. reorganisation de texte, correction de fautes, deductions a partir d'articles ou de synopsis recents
Modalité	Texte
Type de questions	Taches de comprehension du langage (ex. synopsis de films, articles recents, completion de connexions)
Métrique d'évaluation	Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM
Accès	Public
Licence	Apache-2.0 (depot avec composants sous MIT)
Langues	anglais
Taille du jeu	40-100 questions par tache (plusieurs taches par categorie)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Fable 5	Anthropic	88,5 %	9 juin 2026	✅ Mesuré
2	GPT-5.5	OpenAI	87,7 %	23 avril 2026	✅ Mesuré
3	Gemini 3.1 Pro Preview	Google	85,4 %	19 février 2026	✅ Mesuré
4	gemini-3-pro-preview-11-2025-high	Google	84,6 %	—	✅ Mesuré
5	Gemini 3.5 Flash	Google	84,6 %	19 mai 2026	✅ Mesuré
6	Gemini 3 Flash	Google	84,6 %	17 décembre 2025	✅ Mesuré
7	Claude Opus 4.6	Anthropic	83,3 %	7 avril 2026	✅ Mesuré
8	GPT-5.4	OpenAI	82,6 %	5 mars 2026	✅ Mesuré
9	Claude Opus 4.8	Anthropic	81,4 %	28 mai 2026	✅ Mesuré
10	OpenAI: GPT-5 Pro	OpenAI	80,7 %	6 octobre 2025	✅ Mesuré
11	GPT-5.3 Codex	OpenAI	80,1 %	5 février 2026	✅ Mesuré
12	GPT-5.2	OpenAI	79,8 %	11 décembre 2025	✅ Mesuré
13	Qwen3.7 Max	Qwen	79,7 %	19 mai 2026	✅ Mesuré
14	GPT-5.1	OpenAI	79,3 %	13 novembre 2025	✅ Mesuré
15	Claude Opus 4.5	Anthropic	78,7 %	24 novembre 2025	✅ Mesuré
16	DeepSeek V4 Pro	DeepSeek	78,1 %	24 avril 2026	✅ Mesuré
17	Claude Opus 4.7	Anthropic	77,9 %	12 mai 2026	✅ Mesuré
18	Kimi K2.7 Code	Moonshot AI	77,9 %	12 juin 2026	✅ Mesuré
19	xAI: Grok 4.20 Beta	xAI	77,7 %	12 mars 2026	✅ Mesuré
20	Kimi K2.5	Moonshot AI	77,7 %	—	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 71,6 %.

Notre analyse

Un score élevé sur LiveBench: Language indique une bonne capacité à extraire, réorganiser et exploiter des informations textuelles récentes dans des tâches à vérité-terrain objective. Le meilleur score recensé dans la base, Claude Fable 5 à 88 %, se situe au-dessus d’une médiane de 72 % observée sur 76 modèles, ce qui suggère un écart encore visible entre les systèmes les plus performants et le niveau central du classement.

Rigueur : la notation automatique sur réponses vérifiables limite la subjectivité et évite les variations liées à un juge LLM.
Fiabilité : les scores étant majoritairement auto-déclarés par les éditeurs, leur comparaison dépend de la qualité du reporting et de conditions d’évaluation cohérentes.
Limites : le benchmark reste centré sur l’anglais et sur la compréhension du langage. Les sources récentes réduisent certains risques de contamination, sans les exclure totalement. Une saturation peut apparaître si les meilleurs modèles convergent vers des scores proches.

Sources des scores : livebench.

Language

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench