Agents & outils

BFCL-V4

BFCL-V4, pour Berkeley Function Calling Leaderboard V4, est un benchmark conçu par la Gorilla LLM team de UC Berkeley pour évaluer la capacité des modèles à utiliser correctement des fonctions et des API. Il couvre des scénarios d’appels simples, multiples, parallèles et imbriqués, dans…

Cette version met l’accent sur l’évaluation agentique, avec la recherche web, la gestion de mémoire en lecture, écriture et mise à jour, ainsi que la robustesse face aux variations de formats de prompts et de schémas d’API. BFCL-V4 sert ainsi à apprécier la fiabilité opérationnelle des modèles lorsqu’ils doivent agir via des outils structurés.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Gorilla LLM team, UC Berkeley
Capacités mesurées	Recherche web agentique, gestion de mémoire (lecture/écriture/mise à jour), robustesse à la variation de format des prompts et schémas d'API.
Modalité	Texte
Type de questions	Évaluation agentique : recherche web, gestion de mémoire et sensibilité au format (+ appels de fonction)
Métrique d'évaluation	Exactitude / métriques agentiques par composante
Accès	Public
Licence	Apache-2.0
Langues	anglais (+ code/JSON)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	75,0 %	19 mai 2026	Auto-déclaré
2	Qwen3.5-397B-A17B	Qwen	72,9 %	16 février 2026	Auto-déclaré
3	Qwen3.7-Plus	Qwen	72,9 %	31 mai 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	72,2 %	24 février 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	68,5 %	24 février 2026	Auto-déclaré
6	Qwen3.5-35B-A3B	Qwen	67,3 %	24 février 2026	Auto-déclaré
7	Qwen3.5-9B	Qwen	66,1 %	2 mars 2026	Auto-déclaré
8	Nova 2 Pro	Amazon	61,6 %	2 décembre 2025	Auto-déclaré
9	Nova 2 Lite	Amazon	60,3 %	2 décembre 2025	Auto-déclaré
10	Nova 2 Omni	Amazon	58,3 %	2 décembre 2025	Auto-déclaré
11	Qwen3.5-4B	Qwen	50,3 %	2 mars 2026	Auto-déclaré
12	Qwen3.5-2B	Qwen	43,6 %	2 mars 2026	Auto-déclaré
13	Qwen3.5-0.8B	Qwen	25,3 %	2 mars 2026	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 66,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur BFCL-V4 indique qu’un modèle parvient à sélectionner et structurer des appels de fonction avec précision, y compris dans des configurations complexes ou sensibles au format. Il suggère aussi une meilleure aptitude à gérer des tâches agentiques combinant recherche web, mémoire et interaction avec des interfaces d’API. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement mesurée dans un cadre indépendant.

Le classement montre un écart réel entre les modèles évalués, avec Qwen3.7 Max en tête parmi les entrées de la base et un score médian de 66% sur l’ensemble suivi. Cela indique que l’appel d’outils reste une compétence discriminante. Les limites habituelles demeurent : risque de saturation si les modèles convergent vers les formats testés, possibilité de contamination liée à la disponibilité publique du benchmark, et portée centrée sur l’anglais, le code et JSON plutôt que sur toutes les situations agentiques possibles.

Sources des scores : llm-stats.

BFCL-V4

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench