Raisonnement

Bird-SQL (dev)

Bird-SQL (dev) est le split de développement du benchmark BIRD, conçu par Jinyang Li et al. au sein de la BIRD team. Il évalue la génération de requêtes SQL à partir de questions en anglais formulées en langage naturel, dans des contextes de bases de données réalistes.

Le benchmark mesure la capacité d’un modèle à interpréter une demande, à raisonner sur des schémas complexes et à produire une requête SQL exécutable correcte. Il sert ainsi de test spécialisé pour l’évaluation des modèles sur les tâches text-to-SQL proches d’usages professionnels.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Jinyang Li et al. (BIRD team)
Capacités mesurées	raisonnement
Modalité	Texte
Type de questions	génération de requêtes SQL à partir de questions en langage naturel
Métrique d'évaluation	execution accuracy
Accès	Public
Langues	anglais
Taille du jeu	1 534 questions pour le split dev ; 12 751 paires question-SQL au total
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.0 Flash-Lite	Google	57,4 %	5 février 2025	Auto-déclaré
2	Gemini 2.0 Flash	Google	56,9 %	21 janvier 2025	Auto-déclaré
3	Gemma 3 27B	Google	54,4 %	12 mars 2025	Auto-déclaré
4	Gemma 3 12B	Google	47,9 %	12 mars 2025	Auto-déclaré
5	Nemotron 3 Super (120B A12B)	NVIDIA	41,8 %	11 mars 2026	Auto-déclaré
6	Gemma 3 4B	Google	36,3 %	12 mars 2025	Auto-déclaré
7	Gemma 3 1B	Google	6,4 %	12 mars 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 47,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Bird-SQL (dev) indique qu’un modèle parvient plus souvent à produire une requête SQL dont l’exécution donne le bon résultat, ce qui reflète à la fois la compréhension linguistique, le raisonnement sur les relations entre tables et la robustesse face à des schémas ou des données imparfaits. La métrique execution accuracy rend l’évaluation concrète, car elle vérifie le résultat exécuté plutôt qu’une simple similarité avec une requête de référence. La lecture du classement doit toutefois rester prudente : dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui réduit l’homogénéité des conditions de mesure. Le caractère public du benchmark expose aussi à un risque de contamination, et sa portée reste centrée sur des questions en anglais et sur la génération SQL. Avec une médiane à 48 % et un meilleur score à 57 % pour Gemini 2.0 Flash-Lite, le classement suggère une tâche encore discriminante, sans saturation nette parmi les modèles suivis.

Sources des scores : llm-stats.

Bird-SQL (dev)

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23