BFCL-V4

BFCL-V4, pour Berkeley Function Calling Leaderboard V4, est un benchmark conçu par la Gorilla LLM team de UC Berkeley pour évaluer la capacité des modèles à utiliser correctement des fonctions et des API. Il couvre des scénarios d’appels simples, multiples, parallèles et imbriqués, dans…

BFCL-V4, pour Berkeley Function Calling Leaderboard V4, est un benchmark conçu par la Gorilla LLM team de UC Berkeley pour évaluer la capacité des modèles à utiliser correctement des fonctions et des API. Il couvre des scénarios d’appels simples, multiples, parallèles et imbriqués, dans des contextes proches de tâches de programmation et d’orchestration d’outils.

Cette version met l’accent sur l’évaluation agentique, avec la recherche web, la gestion de mémoire en lecture, écriture et mise à jour, ainsi que la robustesse face aux variations de formats de prompts et de schémas d’API. BFCL-V4 sert ainsi à apprécier la fiabilité opérationnelle des modèles lorsqu’ils doivent agir via des outils structurés.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGorilla LLM team, UC Berkeley
Capacités mesuréesRecherche web agentique, gestion de mémoire (lecture/écriture/mise à jour), robustesse à la variation de format des prompts et schémas d'API.
ModalitéTexte
Type de questionsÉvaluation agentique : recherche web, gestion de mémoire et sensibilité au format (+ appels de fonction)
Métrique d'évaluationExactitude / métriques agentiques par composante
AccèsPublic
LicenceApache-2.0
Languesanglais (+ code/JSON)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen75,0 %19 mai 2026Auto-déclaré
2Qwen3.5-397B-A17BQwen72,9 %16 février 2026Auto-déclaré
3Qwen3.7-PlusQwen72,9 %31 mai 2026Auto-déclaré
4Qwen3.5-122B-A10BQwen72,2 %24 février 2026Auto-déclaré
5Qwen3.5-27BQwen68,5 %24 février 2026Auto-déclaré
6Qwen3.5-35B-A3BQwen67,3 %24 février 2026Auto-déclaré
7Qwen3.5-9BQwen66,1 %2 mars 2026Auto-déclaré
8Nova 2 ProAmazon61,6 %2 décembre 2025Auto-déclaré
9Nova 2 LiteAmazon60,3 %2 décembre 2025Auto-déclaré
10Nova 2 OmniAmazon58,3 %2 décembre 2025Auto-déclaré
11Qwen3.5-4BQwen50,3 %2 mars 2026Auto-déclaré
12Qwen3.5-2BQwen43,6 %2 mars 2026Auto-déclaré
13Qwen3.5-0.8BQwen25,3 %2 mars 2026Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 66,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL-V4 indique qu’un modèle parvient à sélectionner et structurer des appels de fonction avec précision, y compris dans des configurations complexes ou sensibles au format. Il suggère aussi une meilleure aptitude à gérer des tâches agentiques combinant recherche web, mémoire et interaction avec des interfaces d’API. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement mesurée dans un cadre indépendant.

Le classement montre un écart réel entre les modèles évalués, avec Qwen3.7 Max en tête parmi les entrées de la base et un score médian de 66% sur l’ensemble suivi. Cela indique que l’appel d’outils reste une compétence discriminante. Les limites habituelles demeurent : risque de saturation si les modèles convergent vers les formats testés, possibilité de contamination liée à la disponibilité publique du benchmark, et portée centrée sur l’anglais, le code et JSON plutôt que sur toutes les situations agentiques possibles.


Sources des scores : llm-stats.