Bird-SQL (dev)

Bird-SQL (dev) est le split de développement du benchmark BIRD, conçu par Jinyang Li et al. au sein de la BIRD team. Il évalue la génération de requêtes SQL à partir de questions en anglais formulées en langage naturel, dans des contextes de bases de données réalistes.

Bird-SQL (dev) est le split de développement du benchmark BIRD, conçu par Jinyang Li et al. au sein de la BIRD team. Il évalue la génération de requêtes SQL à partir de questions en anglais formulées en langage naturel, dans des contextes de bases de données réalistes.

Le benchmark mesure la capacité d’un modèle à interpréter une demande, à raisonner sur des schémas complexes et à produire une requête SQL exécutable correcte. Il sert ainsi de test spécialisé pour l’évaluation des modèles sur les tâches text-to-SQL proches d’usages professionnels.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkJinyang Li et al. (BIRD team)
Capacités mesuréesraisonnement
ModalitéTexte
Type de questionsgénération de requêtes SQL à partir de questions en langage naturel
Métrique d'évaluationexecution accuracy
AccèsPublic
Languesanglais
Taille du jeu1 534 questions pour le split dev ; 12 751 paires question-SQL au total
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.0 Flash-LiteGoogle57,4 %5 février 2025Auto-déclaré
2Gemini 2.0 FlashGoogle56,9 %21 janvier 2025Auto-déclaré
3Gemma 3 27BGoogle54,4 %12 mars 2025Auto-déclaré
4Gemma 3 12BGoogle47,9 %12 mars 2025Auto-déclaré
5Nemotron 3 Super (120B A12B)NVIDIA41,8 %11 mars 2026Auto-déclaré
6Gemma 3 4BGoogle36,3 %12 mars 2025Auto-déclaré
7Gemma 3 1BGoogle6,4 %12 mars 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 47,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Bird-SQL (dev) indique qu’un modèle parvient plus souvent à produire une requête SQL dont l’exécution donne le bon résultat, ce qui reflète à la fois la compréhension linguistique, le raisonnement sur les relations entre tables et la robustesse face à des schémas ou des données imparfaits. La métrique execution accuracy rend l’évaluation concrète, car elle vérifie le résultat exécuté plutôt qu’une simple similarité avec une requête de référence. La lecture du classement doit toutefois rester prudente : dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité des conditions de mesure. Le caractère public du benchmark expose aussi à un risque de contamination, et sa portée reste centrée sur des questions en anglais et sur la génération SQL. Avec une médiane à 48 % et un meilleur score à 57 % pour Gemini 2.0 Flash-Lite, le classement suggère une tâche encore discriminante, sans saturation nette parmi les modèles suivis.


Sources des scores : llm-stats.