Autres benchmarks

Global average

LiveBench: Global average est un benchmark public conçu par la LiveBench team / Abacus.AI pour évaluer les capacités générales des modèles de langage. Sa particularité est d’être dynamique, avec l’ajout régulier de questions récentes afin de réduire le risque de contamination des données…

Le score agrège des performances normalisées sur plusieurs familles de tâches, couvrant notamment le raisonnement, les mathématiques, le codage, la compréhension linguistique, le suivi d’instructions et l’analyse de données. Il sert ainsi d’indicateur synthétique pour comparer des modèles sur un ensemble varié d’usages.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	LiveBench team / Abacus.AI
Capacités mesurées	Mesure les capacités générales des modèles de langage sur des tâches récentes et variées, notamment raisonnement, mathématiques, codage, compréhension linguistique, suivi d’instructions et analyse de données.
Modalité	Texte
Type de questions	mélange de questions ouvertes à réponse courte, problèmes de mathématiques et de raisonnement, génération de code, instruction following et tâches évaluées automatiquement ou par juge
Métrique d'évaluation	moyenne globale des scores normalisés sur 100
Accès	Public
Langues	anglais
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5	OpenAI	80,7 %	23 avril 2026	✅ Mesuré
2	GPT-5.4	OpenAI	80,3 %	5 mars 2026	✅ Mesuré
3	Gemini 3.1 Pro Preview	Google	79,9 %	19 février 2026	✅ Mesuré
4	Claude Opus 4.8	Anthropic	78,8 %	28 mai 2026	✅ Mesuré
5	Claude Fable 5	Anthropic	78,3 %	9 juin 2026	✅ Mesuré
6	Claude Opus 4.7	Anthropic	76,9 %	12 mai 2026	✅ Mesuré
7	Claude Opus 4.6	Anthropic	76,3 %	7 avril 2026	✅ Mesuré
8	GLM-5.2	Zhipu AI	76,2 %	16 juin 2026	✅ Mesuré
9	Claude Sonnet 4.6	Anthropic	75,5 %	17 février 2026	✅ Mesuré
10	Gemini 3.5 Flash	Google	75,0 %	19 mai 2026	✅ Mesuré
11	GPT-5.2	OpenAI	74,8 %	11 décembre 2025	✅ Mesuré
12	GPT-5.2 Codex	OpenAI	74,3 %	14 janvier 2026	✅ Mesuré
13	Qwen3.7 Max	Qwen	74,3 %	19 mai 2026	✅ Mesuré
14	GPT-5.1 Codex	OpenAI	74,0 %	19 novembre 2025	✅ Mesuré
15	DeepSeek V4 Pro	DeepSeek	73,6 %	24 avril 2026	✅ Mesuré
16	gemini-3-pro-preview-11-2025-high	Google	73,4 %	—	✅ Mesuré
17	GPT-5.3 Codex	OpenAI	72,8 %	5 février 2026	✅ Mesuré
18	Gemini 3 Flash	Google	72,4 %	17 décembre 2025	✅ Mesuré
19	Kimi K2.6	Moonshot AI	72,2 %	—	✅ Mesuré
20	GPT-5.1	OpenAI	72,0 %	13 novembre 2025	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 61,9 %.

Notre analyse

Un score élevé sur LiveBench: Global average indique une performance solide et relativement équilibrée sur des tâches récentes et diversifiées, plutôt qu’une spécialisation sur un seul domaine. Le meilleur modèle recensé dans la base, GPT-5.5 (OpenAI), atteint 81 %, tandis que le score médian des 84 modèles évalués est de 62 %, ce qui suggère un écart encore net entre les modèles de tête et le reste du classement.

La lecture des résultats doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui peut limiter l’homogénéité de l’évaluation par rapport à une mesure entièrement indépendante. Le caractère dynamique du benchmark vise à limiter la contamination, sans l’exclure totalement. Sa portée reste aussi centrée sur l’anglais et sur les catégories retenues par LiveBench. Le niveau du meilleur score ne suggère pas une saturation complète, mais le Global average peut masquer des forces et faiblesses propres à chaque sous-tâche.

Sources des scores : livebench.

Global average

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench