Autres benchmarks

Data Analysis

LiveBench: Data Analysis est une catégorie du benchmark LiveBench consacrée à l’évaluation des capacités d’analyse de données des modèles d’IA. Créé par l’équipe LiveBench associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, il…

Le benchmark mesure la capacité à manipuler, transformer, reformater et interpréter des tableaux ou jeux de données, avec des tâches incluant notamment la prédiction de colonnes. Il sert à comparer les modèles sur des opérations de données vérifiables, proches de cas d’usage analytiques structurés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesurées	Analyse de donnees : manipulation et interpretation de tableaux et jeux de donnees recents (ex. transformation, reformatage, predictions de colonnes)
Modalité	Texte
Type de questions	Taches de manipulation et d'interpretation de donnees (basees sur des jeux de donnees recents)
Métrique d'évaluation	Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM
Accès	Public
Licence	Apache-2.0 (depot avec composants sous MIT)
Langues	anglais
Taille du jeu	40-100 questions par tache (plusieurs taches par categorie)
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.5	OpenAI	81,1 %	23 avril 2026	✅ Mesuré
2	Claude Fable 5	Anthropic	80,0 %	9 juin 2026	✅ Mesuré
3	GPT-5.4	OpenAI	79,3 %	5 mars 2026	✅ Mesuré
4	Gemini 3.1 Pro Preview	Google	78,5 %	19 février 2026	✅ Mesuré
5	Claude Opus 4.8	Anthropic	78,3 %	28 mai 2026	✅ Mesuré
6	Claude Opus 4.7	Anthropic	78,3 %	12 mai 2026	✅ Mesuré
7	GPT-5.2 Codex	OpenAI	78,2 %	14 janvier 2026	✅ Mesuré
8	GPT-5.2	OpenAI	78,2 %	11 décembre 2025	✅ Mesuré
9	Claude Sonnet 4.6	Anthropic	77,9 %	17 février 2026	✅ Mesuré
10	MiniMax M3	MiniMax	76,2 %	1 juin 2026	✅ Mesuré
11	Gemini 3 Flash	Google	74,8 %	17 décembre 2025	✅ Mesuré
12	DeepSeek V4 Pro	DeepSeek	74,5 %	24 avril 2026	✅ Mesuré
13	gemini-3-pro-preview-11-2025-high	Google	74,4 %	—	✅ Mesuré
14	GLM-5.2	Zhipu AI	73,7 %	16 juin 2026	✅ Mesuré
15	Qwen3.7 Max	Qwen	71,8 %	19 mai 2026	✅ Mesuré
16	GPT-5.4 mini	OpenAI	70,9 %	17 mars 2026	✅ Mesuré
17	xAI: Grok Build 0.1	xAI	70,8 %	20 mai 2026	✅ Mesuré
18	Qwen3.6-27B	Qwen	70,4 %	21 avril 2026	✅ Mesuré
19	GPT-5.1 Codex	OpenAI	70,1 %	19 novembre 2025	✅ Mesuré
20	Qwen3.6 Plus	Qwen	69,9 %	31 mars 2026	✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 56,1 %.

Notre analyse

Un score élevé sur LiveBench: Data Analysis indique qu’un modèle parvient à produire des réponses correctes sur des tâches de manipulation et d’interprétation de données dont la vérité-terrain est objective. La notation automatique, sans juge LLM, renforce la reproductibilité de l’évaluation et limite les biais d’appréciation subjective. La prudence reste toutefois nécessaire, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui peut introduire des écarts de protocole ou de reporting. La portée du benchmark reste centrée sur des jeux de données en anglais et sur des tâches structurées, sans couvrir toute la diversité de l’analyse de données réelle. L’usage de jeux récents vise à réduire la contamination, mais ne l’élimine pas nécessairement. Dans la base, le classement montre une dispersion notable autour d’un score médian de 56 %, avec GPT-5.5 en tête à 81 %, ce qui suggère une marge de progression importante pour de nombreux modèles évalués.

Sources des scores : livebench.

Data Analysis

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench