BFCL

BFCL, pour Berkeley Function Calling Leaderboard, est un benchmark conçu par UC Berkeley et l’équipe Gorilla LLM afin d’évaluer l’appel de fonctions par les grands modèles de langage. Il se concentre sur la capacité à comprendre une instruction en langage naturel, à choisir l’outil…

BFCL, pour Berkeley Function Calling Leaderboard, est un benchmark conçu par UC Berkeley et l’équipe Gorilla LLM afin d’évaluer l’appel de fonctions par les grands modèles de langage. Il se concentre sur la capacité à comprendre une instruction en langage naturel, à choisir l’outil pertinent et à produire un appel conforme au schéma attendu.

Le test occupe une place importante pour mesurer l’usage opérationnel des modèles avec des outils externes. Il couvre des scénarios simples, multiples, parallèles et multi-tours, avec une évaluation exécutable fondée notamment sur la structure des appels générés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkUC Berkeley / Gorilla LLM team
Capacités mesuréesgénéraliste, raisonnement, appels d'outils
ModalitéTexte
Type de questionstâches de tool/function calling avec génération d'appels de fonctions, y compris appels simples, multiples, parallèles et multi-tours
Métrique d'évaluationaccuracy
AccèsPublic
LicenceApache-2.0
Languesanglais, avec fonctions/APIs en Python, Java, JavaScript et REST
Taille du jeuplus de 2 000 paires question-fonction-réponse
Année de publication2024
RessourcesSite / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Llama 3.1 405B InstructMeta88,5 %23 juillet 2024Auto-déclaré
2Llama 3.1 70B InstructMeta84,8 %23 juillet 2024Auto-déclaré
3Llama 3.1 8B InstructMeta76,1 %23 juillet 2024Auto-déclaré
4Nova 2 SonicAmazon74,5 %2 décembre 2025Auto-déclaré
5Qwen3 235B A22BQwen70,8 %25 juillet 2025Auto-déclaré
6Qwen3 32BQwen70,3 %29 avril 2025Auto-déclaré
7Qwen3 30B A3BQwen69,1 %29 avril 2025Auto-déclaré
8Nova ProAmazon68,4 %20 novembre 2024Auto-déclaré
9Nova LiteAmazon66,6 %20 novembre 2024Auto-déclaré
10QwQ-32BQwen66,4 %5 mars 2025Auto-déclaré
11Nova MicroAmazon56,2 %20 novembre 2024Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 70,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL indique qu’un modèle sait transformer des consignes en appels de fonctions structurés, cohérents et exécutables, y compris lorsque plusieurs outils doivent être combinés ou appelés en parallèle. Dans la base considérée, l’écart entre le score médian et le meilleur résultat, Llama 3.1 405B Instruct à 88 %, suggère que le benchmark reste discriminant pour comparer les modèles sur cette compétence spécialisée.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. BFCL étant public, un risque de contamination des données d’évaluation existe en principe, comme pour tout benchmark largement diffusé. Sa portée est aussi ciblée : il mesure l’appel de fonctions et d’outils, principalement en anglais avec des API ou fonctions dans plusieurs langages, mais ne résume pas à lui seul les capacités générales d’un modèle.


Sources des scores : llm-stats.