Agents & outils

BFCL

BFCL, pour Berkeley Function Calling Leaderboard, est un benchmark conçu par UC Berkeley et l’équipe Gorilla LLM afin d’évaluer l’appel de fonctions par les grands modèles de langage. Il se concentre sur la capacité à comprendre une instruction en langage naturel, à choisir l’outil…

Le test occupe une place importante pour mesurer l’usage opérationnel des modèles avec des outils externes. Il couvre des scénarios simples, multiples, parallèles et multi-tours, avec une évaluation exécutable fondée notamment sur la structure des appels générés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	UC Berkeley / Gorilla LLM team
Capacités mesurées	généraliste, raisonnement, appels d'outils
Modalité	Texte
Type de questions	tâches de tool/function calling avec génération d'appels de fonctions, y compris appels simples, multiples, parallèles et multi-tours
Métrique d'évaluation	accuracy
Accès	Public
Licence	Apache-2.0
Langues	anglais, avec fonctions/APIs en Python, Java, JavaScript et REST
Taille du jeu	plus de 2 000 paires question-fonction-réponse
Année de publication	2024
Ressources	Site / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Llama 3.1 405B Instruct	Meta	88,5 %	23 juillet 2024	Auto-déclaré
2	Llama 3.1 70B Instruct	Meta	84,8 %	23 juillet 2024	Auto-déclaré
3	Llama 3.1 8B Instruct	Meta	76,1 %	23 juillet 2024	Auto-déclaré
4	Nova 2 Sonic	Amazon	74,5 %	2 décembre 2025	Auto-déclaré
5	Qwen3 235B A22B	Qwen	70,8 %	25 juillet 2025	Auto-déclaré
6	Qwen3 32B	Qwen	70,3 %	29 avril 2025	Auto-déclaré
7	Qwen3 30B A3B	Qwen	69,1 %	29 avril 2025	Auto-déclaré
8	Nova Pro	Amazon	68,4 %	20 novembre 2024	Auto-déclaré
9	Nova Lite	Amazon	66,6 %	20 novembre 2024	Auto-déclaré
10	QwQ-32B	Qwen	66,4 %	5 mars 2025	Auto-déclaré
11	Nova Micro	Amazon	56,2 %	20 novembre 2024	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 70,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL indique qu’un modèle sait transformer des consignes en appels de fonctions structurés, cohérents et exécutables, y compris lorsque plusieurs outils doivent être combinés ou appelés en parallèle. Dans la base considérée, l’écart entre le score médian et le meilleur résultat, Llama 3.1 405B Instruct à 88 %, suggère que le benchmark reste discriminant pour comparer les modèles sur cette compétence spécialisée.

La lecture du classement doit toutefois rester prudente. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites par un tiers. BFCL étant public, un risque de contamination des données d’évaluation existe en principe, comme pour tout benchmark largement diffusé. Sa portée est aussi ciblée : il mesure l’appel de fonctions et d’outils, principalement en anglais avec des API ou fonctions dans plusieurs langages, mais ne résume pas à lui seul les capacités générales d’un modèle.

Sources des scores : llm-stats.

BFCL

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench