BFCL v2

BFCL v2, pour Berkeley Function Calling Leaderboard v2, est un benchmark public créé par Berkeley Gorilla / UC Berkeley afin d’évaluer les capacités de function calling des grands modèles de langage. Il porte sur la sélection d’outils pertinents, la production d’appels structurés et…

BFCL v2, pour Berkeley Function Calling Leaderboard v2, est un benchmark public créé par Berkeley Gorilla / UC Berkeley afin d’évaluer les capacités de function calling des grands modèles de langage. Il porte sur la sélection d’outils pertinents, la production d’appels structurés et exécutables, ainsi que la gestion de scénarios multi-tours.

Le benchmark occupe un rôle spécialisé dans l’évaluation des modèles orientés agents et automatisation. Il teste non seulement la formulation d’un appel de fonction, mais aussi la capacité à distinguer les requêtes pertinentes des cas où aucun outil ne devrait être mobilisé.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkBerkeley Gorilla / UC Berkeley
Capacités mesuréesgénéraliste, raisonnement, appels d'outils
ModalitéTexte
Type de questionstâches de génération et d’évaluation d’appels de fonctions/outils, incluant appels simples, parallèles, multi-tours et détection de fonctions pertinentes ou non pertinentes
Métrique d'évaluationaccuracy, notamment AST accuracy et executable accuracy
AccèsPublic
Languesanglais et prompts multilingues ; fonctions évaluées notamment en Python, Java et JavaScript
Taille du jeu2 251 paires question-fonction-réponse
Année de publication2024
RessourcesSite / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Llama 3.3 70B InstructMeta77,3 %6 décembre 2024Auto-déclaré
2Llama 3.1 Nemotron Ultra 253B v1NVIDIA74,1 %7 avril 2025Auto-déclaré
3Llama-3.3 Nemotron Super 49B v1NVIDIA73,7 %18 mars 2025Auto-déclaré
4Llama 3.2 3B InstructMeta67,0 %25 septembre 2024Auto-déclaré
5Llama 3.1 Nemotron Nano 8B V1NVIDIA63,6 %18 mars 2025Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 73,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL v2 indique qu’un modèle sait transformer une demande en appel d’outil exploitable, choisir la bonne fonction et maintenir cette logique dans des interactions plus complexes, y compris multi-tours ou parallèles. Les métriques comme AST accuracy et executable accuracy renforcent la rigueur de l’évaluation, car elles vérifient la structure de l’appel et son caractère exécutable, plutôt qu’une simple proximité textuelle. Le benchmark cherche aussi à limiter la contamination et certains biais grâce à des scénarios vivants et contribués par des utilisateurs, mais les scores disponibles dans cette base restent majoritairement auto-déclarés par les éditeurs, ce qui appelle une lecture prudente. La portée demeure centrée sur le function calling, avec des fonctions notamment en Python, Java et JavaScript, et ne résume pas les capacités générales d’un modèle. Le classement observé est resserré, avec une médiane à 74 % et Llama 3.3 70B Instruct en tête à 77 %, ce qui suggère une différenciation modérée entre les modèles évalués.


Sources des scores : llm-stats.