BFCL-V4
BFCL-V4, pour Berkeley Function Calling Leaderboard V4, est un benchmark conçu par la Gorilla LLM team de UC Berkeley pour évaluer la capacité des modèles à utiliser correctement des fonctions et des API. Il couvre des scénarios d’appels simples, multiples, parallèles et imbriqués, dans…
BFCL-V4, pour Berkeley Function Calling Leaderboard V4, est un benchmark conçu par la Gorilla LLM team de UC Berkeley pour évaluer la capacité des modèles à utiliser correctement des fonctions et des API. Il couvre des scénarios d’appels simples, multiples, parallèles et imbriqués, dans des contextes proches de tâches de programmation et d’orchestration d’outils.
Cette version met l’accent sur l’évaluation agentique, avec la recherche web, la gestion de mémoire en lecture, écriture et mise à jour, ainsi que la robustesse face aux variations de formats de prompts et de schémas d’API. BFCL-V4 sert ainsi à apprécier la fiabilité opérationnelle des modèles lorsqu’ils doivent agir via des outils structurés.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Gorilla LLM team, UC Berkeley |
| Capacités mesurées | Recherche web agentique, gestion de mémoire (lecture/écriture/mise à jour), robustesse à la variation de format des prompts et schémas d'API. |
| Modalité | Texte |
| Type de questions | Évaluation agentique : recherche web, gestion de mémoire et sensibilité au format (+ appels de fonction) |
| Métrique d'évaluation | Exactitude / métriques agentiques par composante |
| Accès | Public |
| Licence | Apache-2.0 |
| Langues | anglais (+ code/JSON) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 75,0 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.5-397B-A17B | Qwen | 72,9 % | 16 février 2026 | Auto-déclaré |
| 3 | Qwen3.7-Plus | Qwen | 72,9 % | 31 mai 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 72,2 % | 24 février 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 68,5 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-35B-A3B | Qwen | 67,3 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-9B | Qwen | 66,1 % | 2 mars 2026 | Auto-déclaré |
| 8 | Nova 2 Pro | Amazon | 61,6 % | 2 décembre 2025 | Auto-déclaré |
| 9 | Nova 2 Lite | Amazon | 60,3 % | 2 décembre 2025 | Auto-déclaré |
| 10 | Nova 2 Omni | Amazon | 58,3 % | 2 décembre 2025 | Auto-déclaré |
| 11 | Qwen3.5-4B | Qwen | 50,3 % | 2 mars 2026 | Auto-déclaré |
| 12 | Qwen3.5-2B | Qwen | 43,6 % | 2 mars 2026 | Auto-déclaré |
| 13 | Qwen3.5-0.8B | Qwen | 25,3 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 13 de grands éditeurs. Score médian de l'ensemble : 66,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur BFCL-V4 indique qu’un modèle parvient à sélectionner et structurer des appels de fonction avec précision, y compris dans des configurations complexes ou sensibles au format. Il suggère aussi une meilleure aptitude à gérer des tâches agentiques combinant recherche web, mémoire et interaction avec des interfaces d’API. L’interprétation doit toutefois rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement mesurée dans un cadre indépendant.
Le classement montre un écart réel entre les modèles évalués, avec Qwen3.7 Max en tête parmi les entrées de la base et un score médian de 66% sur l’ensemble suivi. Cela indique que l’appel d’outils reste une compétence discriminante. Les limites habituelles demeurent : risque de saturation si les modèles convergent vers les formats testés, possibilité de contamination liée à la disponibilité publique du benchmark, et portée centrée sur l’anglais, le code et JSON plutôt que sur toutes les situations agentiques possibles.
Sources des scores : llm-stats.