Global average
LiveBench: Global average est un benchmark public conçu par la LiveBench team / Abacus.AI pour évaluer les capacités générales des modèles de langage. Sa particularité est d’être dynamique, avec l’ajout régulier de questions récentes afin de réduire le risque de contamination des données…
LiveBench: Global average est un benchmark public conçu par la LiveBench team / Abacus.AI pour évaluer les capacités générales des modèles de langage. Sa particularité est d’être dynamique, avec l’ajout régulier de questions récentes afin de réduire le risque de contamination des données d’entraînement.
Le score agrège des performances normalisées sur plusieurs familles de tâches, couvrant notamment le raisonnement, les mathématiques, le codage, la compréhension linguistique, le suivi d’instructions et l’analyse de données. Il sert ainsi d’indicateur synthétique pour comparer des modèles sur un ensemble varié d’usages.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | LiveBench team / Abacus.AI |
| Capacités mesurées | Mesure les capacités générales des modèles de langage sur des tâches récentes et variées, notamment raisonnement, mathématiques, codage, compréhension linguistique, suivi d’instructions et analyse de données. |
| Modalité | Texte |
| Type de questions | mélange de questions ouvertes à réponse courte, problèmes de mathématiques et de raisonnement, génération de code, instruction following et tâches évaluées automatiquement ou par juge |
| Métrique d'évaluation | moyenne globale des scores normalisés sur 100 |
| Accès | Public |
| Langues | anglais |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | 80,7 % | 23 avril 2026 | ✅ Mesuré |
| 2 | GPT-5.4 | OpenAI | 80,3 % | 5 mars 2026 | ✅ Mesuré |
| 3 | Gemini 3.1 Pro Preview | 79,9 % | 19 février 2026 | ✅ Mesuré | |
| 4 | Claude Opus 4.8 | Anthropic | 78,8 % | 28 mai 2026 | ✅ Mesuré |
| 5 | Claude Fable 5 | Anthropic | 78,3 % | 9 juin 2026 | ✅ Mesuré |
| 6 | Claude Opus 4.7 | Anthropic | 76,9 % | 12 mai 2026 | ✅ Mesuré |
| 7 | Claude Opus 4.6 | Anthropic | 76,3 % | 7 avril 2026 | ✅ Mesuré |
| 8 | GLM-5.2 | Zhipu AI | 76,2 % | 16 juin 2026 | ✅ Mesuré |
| 9 | Claude Sonnet 4.6 | Anthropic | 75,5 % | 17 février 2026 | ✅ Mesuré |
| 10 | Gemini 3.5 Flash | 75,0 % | 19 mai 2026 | ✅ Mesuré | |
| 11 | GPT-5.2 | OpenAI | 74,8 % | 11 décembre 2025 | ✅ Mesuré |
| 12 | GPT-5.2 Codex | OpenAI | 74,3 % | 14 janvier 2026 | ✅ Mesuré |
| 13 | Qwen3.7 Max | Qwen | 74,3 % | 19 mai 2026 | ✅ Mesuré |
| 14 | GPT-5.1 Codex | OpenAI | 74,0 % | 19 novembre 2025 | ✅ Mesuré |
| 15 | DeepSeek V4 Pro | DeepSeek | 73,6 % | 24 avril 2026 | ✅ Mesuré |
| 16 | gemini-3-pro-preview-11-2025-high | 73,4 % | — | ✅ Mesuré | |
| 17 | GPT-5.3 Codex | OpenAI | 72,8 % | 5 février 2026 | ✅ Mesuré |
| 18 | Gemini 3 Flash | 72,4 % | 17 décembre 2025 | ✅ Mesuré | |
| 19 | Kimi K2.6 | Moonshot AI | 72,2 % | — | ✅ Mesuré |
| 20 | GPT-5.1 | OpenAI | 72,0 % | 13 novembre 2025 | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 61,9 %.
Notre analyse
Un score élevé sur LiveBench: Global average indique une performance solide et relativement équilibrée sur des tâches récentes et diversifiées, plutôt qu’une spécialisation sur un seul domaine. Le meilleur modèle recensé dans la base, GPT-5.5 (OpenAI), atteint 81 %, tandis que le score médian des 84 modèles évalués est de 62 %, ce qui suggère un écart encore net entre les modèles de tête et le reste du classement.
La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui peut limiter l’homogénéité de l’évaluation par rapport à une mesure entièrement indépendante. Le caractère dynamique du benchmark vise à limiter la contamination, sans l’exclure totalement. Sa portée reste aussi centrée sur l’anglais et sur les catégories retenues par LiveBench. Le niveau du meilleur score ne suggère pas une saturation complète, mais le Global average peut masquer des forces et faiblesses propres à chaque sous-tâche.
Sources des scores : livebench.