Data Analysis

LiveBench: Data Analysis est une catégorie du benchmark LiveBench consacrée à l’évaluation des capacités d’analyse de données des modèles d’IA. Créé par l’équipe LiveBench associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, il…

LiveBench: Data Analysis est une catégorie du benchmark LiveBench consacrée à l’évaluation des capacités d’analyse de données des modèles d’IA. Créé par l’équipe LiveBench associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, il s’appuie sur des jeux de données récents pour limiter l’obsolescence des tests.

Le benchmark mesure la capacité à manipuler, transformer, reformater et interpréter des tableaux ou jeux de données, avec des tâches incluant notamment la prédiction de colonnes. Il sert à comparer les modèles sur des opérations de données vérifiables, proches de cas d’usage analytiques structurés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAbacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench)
Capacités mesuréesAnalyse de donnees : manipulation et interpretation de tableaux et jeux de donnees recents (ex. transformation, reformatage, predictions de colonnes)
ModalitéTexte
Type de questionsTaches de manipulation et d'interpretation de donnees (basees sur des jeux de donnees recents)
Métrique d'évaluationScoring automatique sur verite-terrain objective et verifiable, sans juge LLM
AccèsPublic
LicenceApache-2.0 (depot avec composants sous MIT)
Languesanglais
Taille du jeu40-100 questions par tache (plusieurs taches par categorie)
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.5OpenAI81,1 %23 avril 2026✅ Mesuré
2Claude Fable 5Anthropic80,0 %9 juin 2026✅ Mesuré
3GPT-5.4OpenAI79,3 %5 mars 2026✅ Mesuré
4Gemini 3.1 Pro PreviewGoogle78,5 %19 février 2026✅ Mesuré
5Claude Opus 4.8Anthropic78,3 %28 mai 2026✅ Mesuré
6Claude Opus 4.7Anthropic78,3 %12 mai 2026✅ Mesuré
7GPT-5.2 CodexOpenAI78,2 %14 janvier 2026✅ Mesuré
8GPT-5.2OpenAI78,2 %11 décembre 2025✅ Mesuré
9Claude Sonnet 4.6Anthropic77,9 %17 février 2026✅ Mesuré
10MiniMax M3MiniMax76,2 %1 juin 2026✅ Mesuré
11Gemini 3 FlashGoogle74,8 %17 décembre 2025✅ Mesuré
12DeepSeek V4 ProDeepSeek74,5 %24 avril 2026✅ Mesuré
13gemini-3-pro-preview-11-2025-highGoogle74,4 %✅ Mesuré
14GLM-5.2Zhipu AI73,7 %16 juin 2026✅ Mesuré
15Qwen3.7 MaxQwen71,8 %19 mai 2026✅ Mesuré
16GPT-5.4 miniOpenAI70,9 %17 mars 2026✅ Mesuré
17xAI: Grok Build 0.1xAI70,8 %20 mai 2026✅ Mesuré
18Qwen3.6-27BQwen70,4 %21 avril 2026✅ Mesuré
19GPT-5.1 CodexOpenAI70,1 %19 novembre 2025✅ Mesuré
20Qwen3.6 PlusQwen69,9 %31 mars 2026✅ Mesuré

Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 56,1 %.

Notre analyse

Un score élevé sur LiveBench: Data Analysis indique qu’un modèle parvient à produire des réponses correctes sur des tâches de manipulation et d’interprétation de données dont la vérité-terrain est objective. La notation automatique, sans juge LLM, renforce la reproductibilité de l’évaluation et limite les biais d’appréciation subjective. La prudence reste toutefois nécessaire, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui peut introduire des écarts de protocole ou de reporting. La portée du benchmark reste centrée sur des jeux de données en anglais et sur des tâches structurées, sans couvrir toute la diversité de l’analyse de données réelle. L’usage de jeux récents vise à réduire la contamination, mais ne l’élimine pas nécessairement. Dans la base, le classement montre une dispersion notable autour d’un score médian de 56 %, avec GPT-5.5 en tête à 81 %, ce qui suggère une marge de progression importante pour de nombreux modèles évalués.


Sources des scores : livebench.