Nexus

Nexus est un benchmark publié par Nexusflow pour évaluer la capacité des grands modèles de langage à produire des appels de fonctions et d’API en contexte zero-shot. Il se concentre sur des interactions avec des API réelles, notamment dans la cybersécurité, comme CVE/CPE et VirusTotal.

Nexus est un benchmark publié par Nexusflow pour évaluer la capacité des grands modèles de langage à produire des appels de fonctions et d’API en contexte zero-shot. Il se concentre sur des interactions avec des API réelles, notamment dans la cybersécurité, comme CVE/CPE et VirusTotal.

Son intérêt est de tester une compétence pratique des modèles : transformer une demande en appel d’outil exécutable, sans exemple préalable. Nexus sert ainsi à apprécier l’aptitude d’un modèle à agir dans des environnements logiciels structurés, au-delà de la simple génération de texte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkNexusflow
Capacités mesuréesAppel de fonctions et d'outils en zero-shot sur des API réelles, notamment des outils de cybersécurité (CVE/CPE, VirusTotal)
ModalitéTexte
Type de questionsappel de fonction / génération d'appels d'API en zero-shot
Métrique d'évaluationtaux de réussite de l'appel de fonction
AccèsPublic
Languesanglais + code (appels d'API)
Taille du jeu9 tâches (8 publiées, 1 gardée en interne), basées sur des API réelles
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#ModèleÉditeurScoreSortieFiabilité
1Llama 3.1 405B InstructMeta58,7 %23 juillet 2024Auto-déclaré
2Llama 3.1 70B InstructMeta56,7 %23 juillet 2024Auto-déclaré
3Llama 3.1 8B InstructMeta38,5 %23 juillet 2024Auto-déclaré
4Llama 3.2 3B InstructMeta34,3 %25 septembre 2024Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Nexus indique qu’un modèle parvient plus souvent à générer le bon appel de fonction ou d’API dès la première tentative, avec les paramètres attendus dans un cadre zero-shot. Cette capacité est particulièrement utile pour les usages agentiques, où le modèle doit sélectionner et invoquer des outils externes de manière fiable.

L’interprétation du classement doit toutefois rester prudente. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite et contrôlée. La portée du benchmark est aussi restreinte : le jeu repose sur un petit nombre de tâches issues d’API réelles, avec une orientation marquée vers la cybersécurité. Cela mesure une compétence ciblée, mais ne résume pas la qualité générale d’un modèle.

Le classement montre un niveau médian encore modéré, à 48%, tandis que Llama 3.1 405B Instruct atteint le meilleur score recensé, 59%. L’écart suggère une marge de progression importante pour l’appel d’outils fiable en conditions zero-shot.


Sources des scores : llm-stats.