Agents & outils

Nexus

Nexus est un benchmark publié par Nexusflow pour évaluer la capacité des grands modèles de langage à produire des appels de fonctions et d’API en contexte zero-shot. Il se concentre sur des interactions avec des API réelles, notamment dans la cybersécurité, comme CVE/CPE et VirusTotal.

Son intérêt est de tester une compétence pratique des modèles : transformer une demande en appel d’outil exécutable, sans exemple préalable. Nexus sert ainsi à apprécier l’aptitude d’un modèle à agir dans des environnements logiciels structurés, au-delà de la simple génération de texte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Nexusflow
Capacités mesurées	Appel de fonctions et d'outils en zero-shot sur des API réelles, notamment des outils de cybersécurité (CVE/CPE, VirusTotal)
Modalité	Texte
Type de questions	appel de fonction / génération d'appels d'API en zero-shot
Métrique d'évaluation	taux de réussite de l'appel de fonction
Accès	Public
Langues	anglais + code (appels d'API)
Taille du jeu	9 tâches (8 publiées, 1 gardée en interne), basées sur des API réelles
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Llama 3.1 405B Instruct	Meta	58,7 %	23 juillet 2024	Auto-déclaré
2	Llama 3.1 70B Instruct	Meta	56,7 %	23 juillet 2024	Auto-déclaré
3	Llama 3.1 8B Instruct	Meta	38,5 %	23 juillet 2024	Auto-déclaré
4	Llama 3.2 3B Instruct	Meta	34,3 %	25 septembre 2024	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 47,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Nexus indique qu’un modèle parvient plus souvent à générer le bon appel de fonction ou d’API dès la première tentative, avec les paramètres attendus dans un cadre zero-shot. Cette capacité est particulièrement utile pour les usages agentiques, où le modèle doit sélectionner et invoquer des outils externes de manière fiable.

L’interprétation du classement doit toutefois rester prudente. Les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement reproduite et contrôlée. La portée du benchmark est aussi restreinte : le jeu repose sur un petit nombre de tâches issues d’API réelles, avec une orientation marquée vers la cybersécurité. Cela mesure une compétence ciblée, mais ne résume pas la qualité générale d’un modèle.

Le classement montre un niveau médian encore modéré, à 48%, tandis que Llama 3.1 405B Instruct atteint le meilleur score recensé, 59%. L’écart suggère une marge de progression importante pour l’appel d’outils fiable en conditions zero-shot.

Sources des scores : llm-stats.

Nexus

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench