Bird-SQL (dev)
Bird-SQL (dev) est le split de développement du benchmark BIRD, conçu par Jinyang Li et al. au sein de la BIRD team. Il évalue la génération de requêtes SQL à partir de questions en anglais formulées en langage naturel, dans des contextes de bases de données réalistes.
Bird-SQL (dev) est le split de développement du benchmark BIRD, conçu par Jinyang Li et al. au sein de la BIRD team. Il évalue la génération de requêtes SQL à partir de questions en anglais formulées en langage naturel, dans des contextes de bases de données réalistes.
Le benchmark mesure la capacité d’un modèle à interpréter une demande, à raisonner sur des schémas complexes et à produire une requête SQL exécutable correcte. Il sert ainsi de test spécialisé pour l’évaluation des modèles sur les tâches text-to-SQL proches d’usages professionnels.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Jinyang Li et al. (BIRD team) |
| Capacités mesurées | raisonnement |
| Modalité | Texte |
| Type de questions | génération de requêtes SQL à partir de questions en langage naturel |
| Métrique d'évaluation | execution accuracy |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1 534 questions pour le split dev ; 12 751 paires question-SQL au total |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.0 Flash-Lite | 57,4 % | 5 février 2025 | Auto-déclaré | |
| 2 | Gemini 2.0 Flash | 56,9 % | 21 janvier 2025 | Auto-déclaré | |
| 3 | Gemma 3 27B | 54,4 % | 12 mars 2025 | Auto-déclaré | |
| 4 | Gemma 3 12B | 47,9 % | 12 mars 2025 | Auto-déclaré | |
| 5 | Nemotron 3 Super (120B A12B) | NVIDIA | 41,8 % | 11 mars 2026 | Auto-déclaré |
| 6 | Gemma 3 4B | 36,3 % | 12 mars 2025 | Auto-déclaré | |
| 7 | Gemma 3 1B | 6,4 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 47,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Bird-SQL (dev) indique qu’un modèle parvient plus souvent à produire une requête SQL dont l’exécution donne le bon résultat, ce qui reflète à la fois la compréhension linguistique, le raisonnement sur les relations entre tables et la robustesse face à des schémas ou des données imparfaits. La métrique execution accuracy rend l’évaluation concrète, car elle vérifie le résultat exécuté plutôt qu’une simple similarité avec une requête de référence. La lecture du classement doit toutefois rester prudente : dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité des conditions de mesure. Le caractère public du benchmark expose aussi à un risque de contamination, et sa portée reste centrée sur des questions en anglais et sur la génération SQL. Avec une médiane à 48 % et un meilleur score à 57 % pour Gemini 2.0 Flash-Lite, le classement suggère une tâche encore discriminante, sans saturation nette parmi les modèles suivis.
Sources des scores : llm-stats.