ComplexFuncBench

ComplexFuncBench est un benchmark consacré à l’appel de fonctions complexe par les grands modèles de langage. Créé par Zhipu AI et l’Université Tsinghua (THUDM), il cible des situations où un modèle doit enchaîner plusieurs étapes de décision dans un seul tour, tout en respectant des…

ComplexFuncBench est un benchmark consacré à l’appel de fonctions complexe par les grands modèles de langage. Créé par Zhipu AI et l’Université Tsinghua (THUDM), il cible des situations où un modèle doit enchaîner plusieurs étapes de décision dans un seul tour, tout en respectant des contraintes explicites.

Le test évalue notamment le raisonnement sur les valeurs de paramètres, le remplissage de paramètres longs et la gestion de contextes pouvant atteindre 128k tokens. Il sert à mesurer la capacité pratique des modèles à orchestrer des appels d’outils dans des scénarios réalistes et contraints.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkZhipu AI / Université Tsinghua (THUDM)
Capacités mesuréesAppel de fonctions multi-étapes en un seul tour, raisonnement sur valeurs de paramètres, contraintes utilisateur, paramètres longs, contexte long 128k
ModalitéTexte
Type de questionsappel de fonctions complexe (multi-étapes, sous contraintes)
Métrique d'évaluationCall Accuracy / Success Rate via le framework ComplexEval
AccèsPublic
Languesanglais
Taille du jeu1000 échantillons d'appels de fonctions complexes
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1GPT-4oOpenAI66,5 %27 mars 2025Auto-déclaré
2GPT-4.1OpenAI65,5 %14 avril 2025Auto-déclaré
3Nova 2 SonicAmazon65,2 %2 décembre 2025Auto-déclaré
4GPT-5.4OpenAI63,0 %5 mars 2026Auto-déclaré
5GPT-4.1 miniOpenAI49,3 %14 avril 2025Auto-déclaré
6o3-miniOpenAI17,6 %30 janvier 2025Auto-déclaré
7GPT-4.1 nanoOpenAI5,7 %14 avril 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 63,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ComplexFuncBench indique qu’un modèle parvient plus souvent à produire des appels de fonctions corrects dans des tâches multi-étapes, avec des paramètres longs et des contraintes utilisateur à respecter. La métrique Call Accuracy, ou Success Rate, via ComplexEval, met l’accent sur la réussite opérationnelle plutôt que sur une simple compréhension textuelle. La lecture des résultats doit toutefois rester prudente, car les scores recensés sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les limites habituelles s’appliquent aussi : risque de contamination si les exemples ont circulé, portée centrée sur l’anglais et sur l’appel de fonctions, et possible saturation si les modèles progressent au-delà du niveau actuel du jeu. Dans la base suivie, GPT-4o atteint 66 %, tandis que le score médian est de 63 % sur sept modèles, ce qui suggère un classement encore resserré en tête plutôt qu’une domination très nette.


Sources des scores : llm-stats.