BFCL-v3

BFCL-v3, pour Berkeley Function Calling Leaderboard v3, est un benchmark public conçu par la Gorilla LLM team de l’UC Berkeley. Il évalue la capacité des grands modèles de langage à utiliser des fonctions dans des interactions complexes, multi-tours et multi-étapes, au-delà d’un simple…

BFCL-v3, pour Berkeley Function Calling Leaderboard v3, est un benchmark public conçu par la Gorilla LLM team de l’UC Berkeley. Il évalue la capacité des grands modèles de langage à utiliser des fonctions dans des interactions complexes, multi-tours et multi-étapes, au-delà d’un simple appel isolé.

Le test cible des comportements proches d’agents logiciels: conserver le contexte conversationnel, décider quand et comment appeler des fonctions, enchaîner ou imbriquer des appels, puis produire un résultat cohérent avec l’état du système. Il sert ainsi à comparer les modèles sur une compétence centrale pour l’automatisation outillée.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGorilla LLM team, UC Berkeley
Capacités mesuréesMaintien du contexte conversationnel sur plusieurs tours, décisions dynamiques sur quand/comment appeler des fonctions, gestion d'appels séquentiels et imbriqués.
ModalitéTexte
Type de questionsAppels de fonction multi-tours et multi-étapes (function calling agentique)
Métrique d'évaluationExactitude (vérification AST + évaluation basée sur l'état du système)
AccèsPublic
LicenceApache-2.0
Languesanglais (+ code/JSON)
Taille du jeu~1000 cas de test, dont 800 tâches multi-tours (~200 par type)
Année de publication2024
RessourcesSite / dépôt officiel

Classement des modèles (top 19)

#ModèleÉditeurScoreSortieFiabilité
1GLM-4.5Zhipu AI77,8 %28 juillet 2025Auto-déclaré
2GLM-4.5-AirZhipu AI76,4 %28 juillet 2025Auto-déclaré
3LongCat-Flash-ThinkingMeituan74,4 %22 septembre 2025Auto-déclaré
4MAI-Thinking-1Microsoft72,0 %2 juin 2026Auto-déclaré
5Qwen3-Next-80B-A3B-ThinkingQwen72,0 %10 septembre 2025Auto-déclaré
6Qwen3 VL 235B A22B ThinkingQwen71,9 %22 septembre 2025Auto-déclaré
7Qwen3-235B-A22B-Thinking-2507Qwen71,9 %25 juillet 2025Auto-déclaré
8Qwen3 VL 32B ThinkingQwen71,7 %22 septembre 2025Auto-déclaré
9Qwen3-235B-A22B-Instruct-2507Qwen70,9 %22 juillet 2025Auto-déclaré
10Qwen3-Next-80B-A3B-InstructQwen70,3 %10 septembre 2025Auto-déclaré
11Qwen3 VL 32B InstructQwen70,2 %22 septembre 2025Auto-déclaré
12Qwen3-Coder 480B A35B InstructQwen68,7 %31 janvier 2025Auto-déclaré
13Qwen3 VL 30B A3B ThinkingQwen68,6 %22 septembre 2025Auto-déclaré
14Qwen3 VL 235B A22B InstructQwen67,7 %22 septembre 2025Auto-déclaré
15Qwen3 VL 4B ThinkingQwen67,3 %22 septembre 2025Auto-déclaré
16Qwen3 VL 30B A3B InstructQwen66,3 %22 septembre 2025Auto-déclaré
17Qwen3 VL 8B InstructQwen66,3 %22 septembre 2025Auto-déclaré
18Qwen3 VL 4B InstructQwen63,3 %22 septembre 2025Auto-déclaré
19Qwen3 VL 8B ThinkingQwen63,0 %22 septembre 2025Auto-déclaré

Classement établi sur 19 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 70,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL-v3 indique qu’un modèle gère correctement des demandes où plusieurs décisions d’appel de fonctions doivent être prises au fil d’un dialogue. L’évaluation combine une vérification AST et une évaluation fondée sur l’état du système, ce qui renforce la rigueur par rapport à une simple comparaison textuelle: le benchmark vérifie à la fois la forme des appels et leurs effets attendus. La lecture du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée reste aussi spécialisée: BFCL-v3 mesure surtout le function calling agentique en anglais, avec code et JSON, dans des scénarios tels que contrôle de véhicule, trading bots, réservation de voyage ou gestion de fichiers. Le classement de la base, avec 19 modèles évalués, montre un niveau médian déjà élevé et un écart modéré jusqu’au meilleur score observé, GLM-4.5 à 78%, ce qui suggère une compétition serrée mais pas nécessairement une maîtrise complète de ces interactions complexes.


Sources des scores : llm-stats.