BFCL v2
BFCL v2, pour Berkeley Function Calling Leaderboard v2, est un benchmark public créé par Berkeley Gorilla / UC Berkeley afin d’évaluer les capacités de function calling des grands modèles de langage. Il porte sur la sélection d’outils pertinents, la production d’appels structurés et…
BFCL v2, pour Berkeley Function Calling Leaderboard v2, est un benchmark public créé par Berkeley Gorilla / UC Berkeley afin d’évaluer les capacités de function calling des grands modèles de langage. Il porte sur la sélection d’outils pertinents, la production d’appels structurés et exécutables, ainsi que la gestion de scénarios multi-tours.
Le benchmark occupe un rôle spécialisé dans l’évaluation des modèles orientés agents et automatisation. Il teste non seulement la formulation d’un appel de fonction, mais aussi la capacité à distinguer les requêtes pertinentes des cas où aucun outil ne devrait être mobilisé.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Berkeley Gorilla / UC Berkeley |
| Capacités mesurées | généraliste, raisonnement, appels d'outils |
| Modalité | Texte |
| Type de questions | tâches de génération et d’évaluation d’appels de fonctions/outils, incluant appels simples, parallèles, multi-tours et détection de fonctions pertinentes ou non pertinentes |
| Métrique d'évaluation | accuracy, notamment AST accuracy et executable accuracy |
| Accès | Public |
| Langues | anglais et prompts multilingues ; fonctions évaluées notamment en Python, Java et JavaScript |
| Taille du jeu | 2 251 paires question-fonction-réponse |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Llama 3.3 70B Instruct | Meta | 77,3 % | 6 décembre 2024 | Auto-déclaré |
| 2 | Llama 3.1 Nemotron Ultra 253B v1 | NVIDIA | 74,1 % | 7 avril 2025 | Auto-déclaré |
| 3 | Llama-3.3 Nemotron Super 49B v1 | NVIDIA | 73,7 % | 18 mars 2025 | Auto-déclaré |
| 4 | Llama 3.2 3B Instruct | Meta | 67,0 % | 25 septembre 2024 | Auto-déclaré |
| 5 | Llama 3.1 Nemotron Nano 8B V1 | NVIDIA | 63,6 % | 18 mars 2025 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 73,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BFCL v2 indique qu’un modèle sait transformer une demande en appel d’outil exploitable, choisir la bonne fonction et maintenir cette logique dans des interactions plus complexes, y compris multi-tours ou parallèles. Les métriques comme AST accuracy et executable accuracy renforcent la rigueur de l’évaluation, car elles vérifient la structure de l’appel et son caractère exécutable, plutôt qu’une simple proximité textuelle. Le benchmark cherche aussi à limiter la contamination et certains biais grâce à des scénarios vivants et contribués par des utilisateurs, mais les scores disponibles dans cette base restent majoritairement auto-déclarés par les éditeurs, ce qui appelle une lecture prudente. La portée demeure centrée sur le function calling, avec des fonctions notamment en Python, Java et JavaScript, et ne résume pas les capacités générales d’un modèle. Le classement observé est resserré, avec une médiane à 74 % et Llama 3.3 70B Instruct en tête à 77 %, ce qui suggère une différenciation modérée entre les modèles évalués.
Sources des scores : llm-stats.