Agents & outils

ComplexFuncBench

ComplexFuncBench est un benchmark consacré à l’appel de fonctions complexe par les grands modèles de langage. Créé par Zhipu AI et l’Université Tsinghua (THUDM), il cible des situations où un modèle doit enchaîner plusieurs étapes de décision dans un seul tour, tout en respectant des…

Le test évalue notamment le raisonnement sur les valeurs de paramètres, le remplissage de paramètres longs et la gestion de contextes pouvant atteindre 128k tokens. Il sert à mesurer la capacité pratique des modèles à orchestrer des appels d’outils dans des scénarios réalistes et contraints.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Zhipu AI / Université Tsinghua (THUDM)
Capacités mesurées	Appel de fonctions multi-étapes en un seul tour, raisonnement sur valeurs de paramètres, contraintes utilisateur, paramètres longs, contexte long 128k
Modalité	Texte
Type de questions	appel de fonctions complexe (multi-étapes, sous contraintes)
Métrique d'évaluation	Call Accuracy / Success Rate via le framework ComplexEval
Accès	Public
Langues	anglais
Taille du jeu	1000 échantillons d'appels de fonctions complexes
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-4o	OpenAI	66,5 %	27 mars 2025	Auto-déclaré
2	GPT-4.1	OpenAI	65,5 %	14 avril 2025	Auto-déclaré
3	Nova 2 Sonic	Amazon	65,2 %	2 décembre 2025	Auto-déclaré
4	GPT-5.4	OpenAI	63,0 %	5 mars 2026	Auto-déclaré
5	GPT-4.1 mini	OpenAI	49,3 %	14 avril 2025	Auto-déclaré
6	o3-mini	OpenAI	17,6 %	30 janvier 2025	Auto-déclaré
7	GPT-4.1 nano	OpenAI	5,7 %	14 avril 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 63,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ComplexFuncBench indique qu’un modèle parvient plus souvent à produire des appels de fonctions corrects dans des tâches multi-étapes, avec des paramètres longs et des contraintes utilisateur à respecter. La métrique Call Accuracy, ou Success Rate, via ComplexEval, met l’accent sur la réussite opérationnelle plutôt que sur une simple compréhension textuelle. La lecture des résultats doit toutefois rester prudente, car les scores recensés sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les limites habituelles s’appliquent aussi : risque de contamination si les exemples ont circulé, portée centrée sur l’anglais et sur l’appel de fonctions, et possible saturation si les modèles progressent au-delà du niveau actuel du jeu. Dans la base suivie, GPT-4o atteint 66 %, tandis que le score médian est de 63 % sur sept modèles, ce qui suggère un classement encore resserré en tête plutôt qu’une domination très nette.

Sources des scores : llm-stats.

ComplexFuncBench

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench