Global average

LiveBench: Global average est un benchmark public conçu par la LiveBench team / Abacus.AI pour évaluer les capacités générales des modèles de langage. Sa particularité est d’être dynamique, avec l’ajout régulier de questions récentes afin de réduire le risque de contamination des données…

LiveBench: Global average est un benchmark public conçu par la LiveBench team / Abacus.AI pour évaluer les capacités générales des modèles de langage. Sa particularité est d’être dynamique, avec l’ajout régulier de questions récentes afin de réduire le risque de contamination des données d’entraînement.

Le score agrège des performances normalisées sur plusieurs familles de tâches, couvrant notamment le raisonnement, les mathématiques, le codage, la compréhension linguistique, le suivi d’instructions et l’analyse de données. Il sert ainsi d’indicateur synthétique pour comparer des modèles sur un ensemble varié d’usages.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkLiveBench team / Abacus.AI
Capacités mesuréesMesure les capacités générales des modèles de langage sur des tâches récentes et variées, notamment raisonnement, mathématiques, codage, compréhension linguistique, suivi d’instructions et analyse de données.
ModalitéTexte
Type de questionsmélange de questions ouvertes à réponse courte, problèmes de mathématiques et de raisonnement, génération de code, instruction following et tâches évaluées automatiquement ou par juge
Métrique d'évaluationmoyenne globale des scores normalisés sur 100
AccèsPublic
Languesanglais
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5OpenAI80,7 %23 avril 2026✅ Mesuré
2GPT-5.4OpenAI80,3 %5 mars 2026✅ Mesuré
3Gemini 3.1 Pro PreviewGoogle79,9 %19 février 2026✅ Mesuré
4Claude Opus 4.8Anthropic78,8 %28 mai 2026✅ Mesuré
5Claude Fable 5Anthropic78,3 %9 juin 2026✅ Mesuré
6Claude Opus 4.7Anthropic76,9 %12 mai 2026✅ Mesuré
7Claude Opus 4.6Anthropic76,3 %7 avril 2026✅ Mesuré
8GLM-5.2Zhipu AI76,2 %16 juin 2026✅ Mesuré
9Claude Sonnet 4.6Anthropic75,5 %17 février 2026✅ Mesuré
10Gemini 3.5 FlashGoogle75,0 %19 mai 2026✅ Mesuré
11GPT-5.2OpenAI74,8 %11 décembre 2025✅ Mesuré
12GPT-5.2 CodexOpenAI74,3 %14 janvier 2026✅ Mesuré
13Qwen3.7 MaxQwen74,3 %19 mai 2026✅ Mesuré
14GPT-5.1 CodexOpenAI74,0 %19 novembre 2025✅ Mesuré
15DeepSeek V4 ProDeepSeek73,6 %24 avril 2026✅ Mesuré
16gemini-3-pro-preview-11-2025-highGoogle73,4 %✅ Mesuré
17GPT-5.3 CodexOpenAI72,8 %5 février 2026✅ Mesuré
18Gemini 3 FlashGoogle72,4 %17 décembre 2025✅ Mesuré
19Kimi K2.6Moonshot AI72,2 %✅ Mesuré
20GPT-5.1OpenAI72,0 %13 novembre 2025✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 61,9 %.

Notre analyse

Un score élevé sur LiveBench: Global average indique une performance solide et relativement équilibrée sur des tâches récentes et diversifiées, plutôt qu’une spécialisation sur un seul domaine. Le meilleur modèle recensé dans la base, GPT-5.5 (OpenAI), atteint 81 %, tandis que le score médian des 84 modèles évalués est de 62 %, ce qui suggère un écart encore net entre les modèles de tête et le reste du classement.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui peut limiter l’homogénéité de l’évaluation par rapport à une mesure entièrement indépendante. Le caractère dynamique du benchmark vise à limiter la contamination, sans l’exclure totalement. Sa portée reste aussi centrée sur l’anglais et sur les catégories retenues par LiveBench. Le niveau du meilleur score ne suggère pas une saturation complète, mais le Global average peut masquer des forces et faiblesses propres à chaque sous-tâche.


Sources des scores : livebench.