Agents & outils

BFCL-v3

BFCL-v3, pour Berkeley Function Calling Leaderboard v3, est un benchmark public conçu par la Gorilla LLM team de l’UC Berkeley. Il évalue la capacité des grands modèles de langage à utiliser des fonctions dans des interactions complexes, multi-tours et multi-étapes, au-delà d’un simple…

Le test cible des comportements proches d’agents logiciels: conserver le contexte conversationnel, décider quand et comment appeler des fonctions, enchaîner ou imbriquer des appels, puis produire un résultat cohérent avec l’état du système. Il sert ainsi à comparer les modèles sur une compétence centrale pour l’automatisation outillée.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Gorilla LLM team, UC Berkeley
Capacités mesurées	Maintien du contexte conversationnel sur plusieurs tours, décisions dynamiques sur quand/comment appeler des fonctions, gestion d'appels séquentiels et imbriqués.
Modalité	Texte
Type de questions	Appels de fonction multi-tours et multi-étapes (function calling agentique)
Métrique d'évaluation	Exactitude (vérification AST + évaluation basée sur l'état du système)
Accès	Public
Licence	Apache-2.0
Langues	anglais (+ code/JSON)
Taille du jeu	~1000 cas de test, dont 800 tâches multi-tours (~200 par type)
Année de publication	2024
Ressources	Site / dépôt officiel

Classement des modèles (top 19)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GLM-4.5	Zhipu AI	77,8 %	28 juillet 2025	Auto-déclaré
2	GLM-4.5-Air	Zhipu AI	76,4 %	28 juillet 2025	Auto-déclaré
3	LongCat-Flash-Thinking	Meituan	74,4 %	22 septembre 2025	Auto-déclaré
4	MAI-Thinking-1	Microsoft	72,0 %	2 juin 2026	Auto-déclaré
5	Qwen3-Next-80B-A3B-Thinking	Qwen	72,0 %	10 septembre 2025	Auto-déclaré
6	Qwen3 VL 235B A22B Thinking	Qwen	71,9 %	22 septembre 2025	Auto-déclaré
7	Qwen3-235B-A22B-Thinking-2507	Qwen	71,9 %	25 juillet 2025	Auto-déclaré
8	Qwen3 VL 32B Thinking	Qwen	71,7 %	22 septembre 2025	Auto-déclaré
9	Qwen3-235B-A22B-Instruct-2507	Qwen	70,9 %	22 juillet 2025	Auto-déclaré
10	Qwen3-Next-80B-A3B-Instruct	Qwen	70,3 %	10 septembre 2025	Auto-déclaré
11	Qwen3 VL 32B Instruct	Qwen	70,2 %	22 septembre 2025	Auto-déclaré
12	Qwen3-Coder 480B A35B Instruct	Qwen	68,7 %	31 janvier 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Thinking	Qwen	68,6 %	22 septembre 2025	Auto-déclaré
14	Qwen3 VL 235B A22B Instruct	Qwen	67,7 %	22 septembre 2025	Auto-déclaré
15	Qwen3 VL 4B Thinking	Qwen	67,3 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 30B A3B Instruct	Qwen	66,3 %	22 septembre 2025	Auto-déclaré
17	Qwen3 VL 8B Instruct	Qwen	66,3 %	22 septembre 2025	Auto-déclaré
18	Qwen3 VL 4B Instruct	Qwen	63,3 %	22 septembre 2025	Auto-déclaré
19	Qwen3 VL 8B Thinking	Qwen	63,0 %	22 septembre 2025	Auto-déclaré

Classement établi sur 19 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 70,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL-v3 indique qu’un modèle gère correctement des demandes où plusieurs décisions d’appel de fonctions doivent être prises au fil d’un dialogue. L’évaluation combine une vérification AST et une évaluation fondée sur l’état du système, ce qui renforce la rigueur par rapport à une simple comparaison textuelle: le benchmark vérifie à la fois la forme des appels et leurs effets attendus. La lecture du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée reste aussi spécialisée: BFCL-v3 mesure surtout le function calling agentique en anglais, avec code et JSON, dans des scénarios tels que contrôle de véhicule, trading bots, réservation de voyage ou gestion de fichiers. Le classement de la base, avec 19 modèles évalués, montre un niveau médian déjà élevé et un écart modéré jusqu’au meilleur score observé, GLM-4.5 à 78%, ce qui suggère une compétition serrée mais pas nécessairement une maîtrise complète de ces interactions complexes.

Sources des scores : llm-stats.

BFCL-v3

Carte d'identité

Classement des modèles (top 19)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench