Data Analysis
LiveBench: Data Analysis est une catégorie du benchmark LiveBench consacrée à l’évaluation des capacités d’analyse de données des modèles d’IA. Créé par l’équipe LiveBench associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, il…
LiveBench: Data Analysis est une catégorie du benchmark LiveBench consacrée à l’évaluation des capacités d’analyse de données des modèles d’IA. Créé par l’équipe LiveBench associant Abacus.AI, New York University, NVIDIA, University of Maryland et University of Southern California, il s’appuie sur des jeux de données récents pour limiter l’obsolescence des tests.
Le benchmark mesure la capacité à manipuler, transformer, reformater et interpréter des tableaux ou jeux de données, avec des tâches incluant notamment la prédiction de colonnes. Il sert à comparer les modèles sur des opérations de données vérifiables, proches de cas d’usage analytiques structurés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Abacus.AI, New York University, NVIDIA, University of Maryland, University of Southern California (equipe LiveBench) |
| Capacités mesurées | Analyse de donnees : manipulation et interpretation de tableaux et jeux de donnees recents (ex. transformation, reformatage, predictions de colonnes) |
| Modalité | Texte |
| Type de questions | Taches de manipulation et d'interpretation de donnees (basees sur des jeux de donnees recents) |
| Métrique d'évaluation | Scoring automatique sur verite-terrain objective et verifiable, sans juge LLM |
| Accès | Public |
| Licence | Apache-2.0 (depot avec composants sous MIT) |
| Langues | anglais |
| Taille du jeu | 40-100 questions par tache (plusieurs taches par categorie) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.5 | OpenAI | 81,1 % | 23 avril 2026 | ✅ Mesuré |
| 2 | Claude Fable 5 | Anthropic | 80,0 % | 9 juin 2026 | ✅ Mesuré |
| 3 | GPT-5.4 | OpenAI | 79,3 % | 5 mars 2026 | ✅ Mesuré |
| 4 | Gemini 3.1 Pro Preview | 78,5 % | 19 février 2026 | ✅ Mesuré | |
| 5 | Claude Opus 4.8 | Anthropic | 78,3 % | 28 mai 2026 | ✅ Mesuré |
| 6 | Claude Opus 4.7 | Anthropic | 78,3 % | 12 mai 2026 | ✅ Mesuré |
| 7 | GPT-5.2 Codex | OpenAI | 78,2 % | 14 janvier 2026 | ✅ Mesuré |
| 8 | GPT-5.2 | OpenAI | 78,2 % | 11 décembre 2025 | ✅ Mesuré |
| 9 | Claude Sonnet 4.6 | Anthropic | 77,9 % | 17 février 2026 | ✅ Mesuré |
| 10 | MiniMax M3 | MiniMax | 76,2 % | 1 juin 2026 | ✅ Mesuré |
| 11 | Gemini 3 Flash | 74,8 % | 17 décembre 2025 | ✅ Mesuré | |
| 12 | DeepSeek V4 Pro | DeepSeek | 74,5 % | 24 avril 2026 | ✅ Mesuré |
| 13 | gemini-3-pro-preview-11-2025-high | 74,4 % | — | ✅ Mesuré | |
| 14 | GLM-5.2 | Zhipu AI | 73,7 % | 16 juin 2026 | ✅ Mesuré |
| 15 | Qwen3.7 Max | Qwen | 71,8 % | 19 mai 2026 | ✅ Mesuré |
| 16 | GPT-5.4 mini | OpenAI | 70,9 % | 17 mars 2026 | ✅ Mesuré |
| 17 | xAI: Grok Build 0.1 | xAI | 70,8 % | 20 mai 2026 | ✅ Mesuré |
| 18 | Qwen3.6-27B | Qwen | 70,4 % | 21 avril 2026 | ✅ Mesuré |
| 19 | GPT-5.1 Codex | OpenAI | 70,1 % | 19 novembre 2025 | ✅ Mesuré |
| 20 | Qwen3.6 Plus | Qwen | 69,9 % | 31 mars 2026 | ✅ Mesuré |
Classement établi sur 76 modèles évalués, dont 58 de grands éditeurs. Score médian de l'ensemble : 56,1 %.
Notre analyse
Un score élevé sur LiveBench: Data Analysis indique qu’un modèle parvient à produire des réponses correctes sur des tâches de manipulation et d’interprétation de données dont la vérité-terrain est objective. La notation automatique, sans juge LLM, renforce la reproductibilité de l’évaluation et limite les biais d’appréciation subjective. La prudence reste toutefois nécessaire, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui peut introduire des écarts de protocole ou de reporting. La portée du benchmark reste centrée sur des jeux de données en anglais et sur des tâches structurées, sans couvrir toute la diversité de l’analyse de données réelle. L’usage de jeux récents vise à réduire la contamination, mais ne l’élimine pas nécessairement. Dans la base, le classement montre une dispersion notable autour d’un score médian de 56 %, avec GPT-5.5 en tête à 81 %, ce qui suggère une marge de progression importante pour de nombreux modèles évalués.
Sources des scores : livebench.