BFCL-v3
BFCL-v3, pour Berkeley Function Calling Leaderboard v3, est un benchmark public conçu par la Gorilla LLM team de l’UC Berkeley. Il évalue la capacité des grands modèles de langage à utiliser des fonctions dans des interactions complexes, multi-tours et multi-étapes, au-delà d’un simple…
BFCL-v3, pour Berkeley Function Calling Leaderboard v3, est un benchmark public conçu par la Gorilla LLM team de l’UC Berkeley. Il évalue la capacité des grands modèles de langage à utiliser des fonctions dans des interactions complexes, multi-tours et multi-étapes, au-delà d’un simple appel isolé.
Le test cible des comportements proches d’agents logiciels: conserver le contexte conversationnel, décider quand et comment appeler des fonctions, enchaîner ou imbriquer des appels, puis produire un résultat cohérent avec l’état du système. Il sert ainsi à comparer les modèles sur une compétence centrale pour l’automatisation outillée.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Gorilla LLM team, UC Berkeley |
| Capacités mesurées | Maintien du contexte conversationnel sur plusieurs tours, décisions dynamiques sur quand/comment appeler des fonctions, gestion d'appels séquentiels et imbriqués. |
| Modalité | Texte |
| Type de questions | Appels de fonction multi-tours et multi-étapes (function calling agentique) |
| Métrique d'évaluation | Exactitude (vérification AST + évaluation basée sur l'état du système) |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais (+ code/JSON) |
| Taille du jeu | ~1000 cas de test, dont 800 tâches multi-tours (~200 par type) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 19)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GLM-4.5 | Zhipu AI | 77,8 % | 28 juillet 2025 | Auto-déclaré |
| 2 | GLM-4.5-Air | Zhipu AI | 76,4 % | 28 juillet 2025 | Auto-déclaré |
| 3 | LongCat-Flash-Thinking | Meituan | 74,4 % | 22 septembre 2025 | Auto-déclaré |
| 4 | MAI-Thinking-1 | Microsoft | 72,0 % | 2 juin 2026 | Auto-déclaré |
| 5 | Qwen3-Next-80B-A3B-Thinking | Qwen | 72,0 % | 10 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 235B A22B Thinking | Qwen | 71,9 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 71,9 % | 25 juillet 2025 | Auto-déclaré |
| 8 | Qwen3 VL 32B Thinking | Qwen | 71,7 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 70,9 % | 22 juillet 2025 | Auto-déclaré |
| 10 | Qwen3-Next-80B-A3B-Instruct | Qwen | 70,3 % | 10 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 32B Instruct | Qwen | 70,2 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3-Coder 480B A35B Instruct | Qwen | 68,7 % | 31 janvier 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Thinking | Qwen | 68,6 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3 VL 235B A22B Instruct | Qwen | 67,7 % | 22 septembre 2025 | Auto-déclaré |
| 15 | Qwen3 VL 4B Thinking | Qwen | 67,3 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 30B A3B Instruct | Qwen | 66,3 % | 22 septembre 2025 | Auto-déclaré |
| 17 | Qwen3 VL 8B Instruct | Qwen | 66,3 % | 22 septembre 2025 | Auto-déclaré |
| 18 | Qwen3 VL 4B Instruct | Qwen | 63,3 % | 22 septembre 2025 | Auto-déclaré |
| 19 | Qwen3 VL 8B Thinking | Qwen | 63,0 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 19 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 70,3 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BFCL-v3 indique qu’un modèle gère correctement des demandes où plusieurs décisions d’appel de fonctions doivent être prises au fil d’un dialogue. L’évaluation combine une vérification AST et une évaluation fondée sur l’état du système, ce qui renforce la rigueur par rapport à une simple comparaison textuelle: le benchmark vérifie à la fois la forme des appels et leurs effets attendus. La lecture du classement doit toutefois rester prudente, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée reste aussi spécialisée: BFCL-v3 mesure surtout le function calling agentique en anglais, avec code et JSON, dans des scénarios tels que contrôle de véhicule, trading bots, réservation de voyage ou gestion de fichiers. Le classement de la base, avec 19 modèles évalués, montre un niveau médian déjà élevé et un écart modéré jusqu’au meilleur score observé, GLM-4.5 à 78%, ce qui suggère une compétition serrée mais pas nécessairement une maîtrise complète de ces interactions complexes.
Sources des scores : llm-stats.