Agents & outils

BFCL v2

BFCL v2, pour Berkeley Function Calling Leaderboard v2, est un benchmark public créé par Berkeley Gorilla / UC Berkeley afin d’évaluer les capacités de function calling des grands modèles de langage. Il porte sur la sélection d’outils pertinents, la production d’appels structurés et…

Le benchmark occupe un rôle spécialisé dans l’évaluation des modèles orientés agents et automatisation. Il teste non seulement la formulation d’un appel de fonction, mais aussi la capacité à distinguer les requêtes pertinentes des cas où aucun outil ne devrait être mobilisé.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Berkeley Gorilla / UC Berkeley
Capacités mesurées	généraliste, raisonnement, appels d'outils
Modalité	Texte
Type de questions	tâches de génération et d’évaluation d’appels de fonctions/outils, incluant appels simples, parallèles, multi-tours et détection de fonctions pertinentes ou non pertinentes
Métrique d'évaluation	accuracy, notamment AST accuracy et executable accuracy
Accès	Public
Langues	anglais et prompts multilingues ; fonctions évaluées notamment en Python, Java et JavaScript
Taille du jeu	2 251 paires question-fonction-réponse
Année de publication	2024
Ressources	Site / dépôt officiel

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Llama 3.3 70B Instruct	Meta	77,3 %	6 décembre 2024	Auto-déclaré
2	Llama 3.1 Nemotron Ultra 253B v1	NVIDIA	74,1 %	7 avril 2025	Auto-déclaré
3	Llama-3.3 Nemotron Super 49B v1	NVIDIA	73,7 %	18 mars 2025	Auto-déclaré
4	Llama 3.2 3B Instruct	Meta	67,0 %	25 septembre 2024	Auto-déclaré
5	Llama 3.1 Nemotron Nano 8B V1	NVIDIA	63,6 %	18 mars 2025	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 5 de grands éditeurs. Score médian de l'ensemble : 73,7 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL v2 indique qu’un modèle sait transformer une demande en appel d’outil exploitable, choisir la bonne fonction et maintenir cette logique dans des interactions plus complexes, y compris multi-tours ou parallèles. Les métriques comme AST accuracy et executable accuracy renforcent la rigueur de l’évaluation, car elles vérifient la structure de l’appel et son caractère exécutable, plutôt qu’une simple proximité textuelle. Le benchmark cherche aussi à limiter la contamination et certains biais grâce à des scénarios vivants et contribués par des utilisateurs, mais les scores disponibles dans cette base restent majoritairement auto-déclarés par les éditeurs, ce qui appelle une lecture prudente. La portée demeure centrée sur le function calling, avec des fonctions notamment en Python, Java et JavaScript, et ne résume pas les capacités générales d’un modèle. Le classement observé est resserré, avec une médiane à 74 % et Llama 3.3 70B Instruct en tête à 77 %, ce qui suggère une différenciation modérée entre les modèles évalués.

Sources des scores : llm-stats.

BFCL v2

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench