ComplexFuncBench
ComplexFuncBench est un benchmark consacré à l’appel de fonctions complexe par les grands modèles de langage. Créé par Zhipu AI et l’Université Tsinghua (THUDM), il cible des situations où un modèle doit enchaîner plusieurs étapes de décision dans un seul tour, tout en respectant des…
ComplexFuncBench est un benchmark consacré à l’appel de fonctions complexe par les grands modèles de langage. Créé par Zhipu AI et l’Université Tsinghua (THUDM), il cible des situations où un modèle doit enchaîner plusieurs étapes de décision dans un seul tour, tout en respectant des contraintes explicites.
Le test évalue notamment le raisonnement sur les valeurs de paramètres, le remplissage de paramètres longs et la gestion de contextes pouvant atteindre 128k tokens. Il sert à mesurer la capacité pratique des modèles à orchestrer des appels d’outils dans des scénarios réalistes et contraints.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Zhipu AI / Université Tsinghua (THUDM) |
| Capacités mesurées | Appel de fonctions multi-étapes en un seul tour, raisonnement sur valeurs de paramètres, contraintes utilisateur, paramètres longs, contexte long 128k |
| Modalité | Texte |
| Type de questions | appel de fonctions complexe (multi-étapes, sous contraintes) |
| Métrique d'évaluation | Call Accuracy / Success Rate via le framework ComplexEval |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 1000 échantillons d'appels de fonctions complexes |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-4o | OpenAI | 66,5 % | 27 mars 2025 | Auto-déclaré |
| 2 | GPT-4.1 | OpenAI | 65,5 % | 14 avril 2025 | Auto-déclaré |
| 3 | Nova 2 Sonic | Amazon | 65,2 % | 2 décembre 2025 | Auto-déclaré |
| 4 | GPT-5.4 | OpenAI | 63,0 % | 5 mars 2026 | Auto-déclaré |
| 5 | GPT-4.1 mini | OpenAI | 49,3 % | 14 avril 2025 | Auto-déclaré |
| 6 | o3-mini | OpenAI | 17,6 % | 30 janvier 2025 | Auto-déclaré |
| 7 | GPT-4.1 nano | OpenAI | 5,7 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 63,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ComplexFuncBench indique qu’un modèle parvient plus souvent à produire des appels de fonctions corrects dans des tâches multi-étapes, avec des paramètres longs et des contraintes utilisateur à respecter. La métrique Call Accuracy, ou Success Rate, via ComplexEval, met l’accent sur la réussite opérationnelle plutôt que sur une simple compréhension textuelle. La lecture des résultats doit toutefois rester prudente, car les scores recensés sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Les limites habituelles s’appliquent aussi : risque de contamination si les exemples ont circulé, portée centrée sur l’anglais et sur l’appel de fonctions, et possible saturation si les modèles progressent au-delà du niveau actuel du jeu. Dans la base suivie, GPT-4o atteint 66 %, tandis que le score médian est de 63 % sur sept modèles, ce qui suggère un classement encore resserré en tête plutôt qu’une domination très nette.
Sources des scores : llm-stats.