BFCL
BFCL, pour Berkeley Function Calling Leaderboard, est un benchmark conçu par UC Berkeley et l’équipe Gorilla LLM afin d’évaluer l’appel de fonctions par les grands modèles de langage. Il se concentre sur la capacité à comprendre une instruction en langage naturel, à choisir l’outil…
BFCL, pour Berkeley Function Calling Leaderboard, est un benchmark conçu par UC Berkeley et l’équipe Gorilla LLM afin d’évaluer l’appel de fonctions par les grands modèles de langage. Il se concentre sur la capacité à comprendre une instruction en langage naturel, à choisir l’outil pertinent et à produire un appel conforme au schéma attendu.
Le test occupe une place importante pour mesurer l’usage opérationnel des modèles avec des outils externes. Il couvre des scénarios simples, multiples, parallèles et multi-tours, avec une évaluation exécutable fondée notamment sur la structure des appels générés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | UC Berkeley / Gorilla LLM team |
| Capacités mesurées | généraliste, raisonnement, appels d'outils |
| Modalité | Texte |
| Type de questions | tâches de tool/function calling avec génération d'appels de fonctions, y compris appels simples, multiples, parallèles et multi-tours |
| Métrique d'évaluation | accuracy |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais, avec fonctions/APIs en Python, Java, JavaScript et REST |
| Taille du jeu | plus de 2 000 paires question-fonction-réponse |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Llama 3.1 405B Instruct | Meta | 88,5 % | 23 juillet 2024 | Auto-déclaré |
| 2 | Llama 3.1 70B Instruct | Meta | 84,8 % | 23 juillet 2024 | Auto-déclaré |
| 3 | Llama 3.1 8B Instruct | Meta | 76,1 % | 23 juillet 2024 | Auto-déclaré |
| 4 | Nova 2 Sonic | Amazon | 74,5 % | 2 décembre 2025 | Auto-déclaré |
| 5 | Qwen3 235B A22B | Qwen | 70,8 % | 25 juillet 2025 | Auto-déclaré |
| 6 | Qwen3 32B | Qwen | 70,3 % | 29 avril 2025 | Auto-déclaré |
| 7 | Qwen3 30B A3B | Qwen | 69,1 % | 29 avril 2025 | Auto-déclaré |
| 8 | Nova Pro | Amazon | 68,4 % | 20 novembre 2024 | Auto-déclaré |
| 9 | Nova Lite | Amazon | 66,6 % | 20 novembre 2024 | Auto-déclaré |
| 10 | QwQ-32B | Qwen | 66,4 % | 5 mars 2025 | Auto-déclaré |
| 11 | Nova Micro | Amazon | 56,2 % | 20 novembre 2024 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 70,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BFCL indique qu’un modèle sait transformer des consignes en appels de fonctions structurés, cohérents et exécutables, y compris lorsque plusieurs outils doivent être combinés ou appelés en parallèle. Dans la base considérée, l’écart entre le score médian et le meilleur résultat, Llama 3.1 405B Instruct à 88 %, suggère que le benchmark reste discriminant pour comparer les modèles sur cette compétence spécialisée.
La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. BFCL étant public, un risque de contamination des données d’évaluation existe en principe, comme pour tout benchmark largement diffusé. Sa portée est aussi ciblée : il mesure l’appel de fonctions et d’outils, principalement en anglais avec des API ou fonctions dans plusieurs langages, mais ne résume pas à lui seul les capacités générales d’un modèle.
Sources des scores : llm-stats.