Langage & rédaction

Multi-Challenge

Multi-Challenge est un benchmark d’évaluation conversationnelle conçu par Scale AI, via l’équipe SEAL / Scale Labs. Il se concentre sur des dialogues multi-tours réalistes, dans lesquels un modèle doit répondre correctement au dernier tour tout en conservant le contexte accumulé.

Le test mesure des capacités centrales pour les assistants IA en usage prolongé : rétention d’instructions, mémoire d’inférence à partir d’informations utilisateur, édition versionnée fiable et auto-cohérence. Il sert ainsi à apprécier la robustesse des modèles dans des échanges suivis, plus proches d’interactions professionnelles ou collaboratives que de questions isolées.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Scale AI (equipe SEAL / Scale Labs)
Capacités mesurées	Conversations multi-tours realistes : retention d'instructions, memoire d'inference des informations utilisateur, edition versionnee fiable, auto-coherence
Modalité	Texte
Type de questions	conversations multi-tours (max 10 tours) avec reponse au dernier tour utilisateur, jugees par un LLM
Métrique d'évaluation	exactitude jugee par LLM (accuracy)
Langues	anglais
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Nova 2 Pro	Amazon	77,7 %	2 décembre 2025	Auto-déclaré
2	Nova 2 Lite	Amazon	76,6 %	2 décembre 2025	Auto-déclaré
3	Nova 2 Omni	Amazon	75,5 %	2 décembre 2025	Auto-déclaré
4	GPT-5	OpenAI	69,6 %	7 août 2025	Auto-déclaré
5	Qwen3.5-397B-A17B	Qwen	67,6 %	16 février 2026	Auto-déclaré
6	Nemotron 3 Ultra (550B A55B)	NVIDIA	63,8 %	4 juin 2026	Auto-déclaré
7	Step3-VL-10B	StepFun	62,6 %	15 janvier 2026	Auto-déclaré
8	Qwen3.5-122B-A10B	Qwen	61,5 %	24 février 2026	Auto-déclaré
9	Qwen3.5-27B	Qwen	60,8 %	24 février 2026	Auto-déclaré
10	o3	OpenAI	60,4 %	16 avril 2025	Auto-déclaré
11	Qwen3.5-35B-A3B	Qwen	60,0 %	24 février 2026	Auto-déclaré
12	Nemotron 3 Super (120B A12B)	NVIDIA	55,2 %	11 mars 2026	Auto-déclaré
13	Qwen3.5-9B	Qwen	54,5 %	2 mars 2026	Auto-déclaré
14	Kimi K2 Instruct	Moonshot AI	54,1 %	11 juillet 2025	Auto-déclaré
15	Kimi K2-Instruct-0905	Moonshot AI	54,1 %	5 septembre 2025	Auto-déclaré
16	MAI-Thinking-1	Microsoft	53,0 %	2 juin 2026	Auto-déclaré
17	Qwen3.5-4B	Qwen	49,0 %	2 mars 2026	Auto-déclaré
18	MiniMax M1	MiniMax	44,7 %	17 juin 2025	Auto-déclaré
19	GPT-5.4	OpenAI	43,8 %	5 mars 2026	Auto-déclaré
20	o4-mini	OpenAI	43,0 %	16 avril 2025	Auto-déclaré

Classement établi sur 28 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 54,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multi-Challenge indique qu’un modèle parvient à maintenir des consignes, relier des informations apparues plus tôt dans la conversation, adapter une production à des instructions évolutives et éviter les contradictions. Cette compétence est particulièrement importante pour les cas d’usage où la qualité dépend de la continuité du dialogue, comme la planification, la documentation technique ou la communication professionnelle. L’évaluation repose sur une exactitude jugée par un LLM, ce qui permet de traiter des réponses ouvertes, mais introduit aussi une dépendance au comportement du juge. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles. La médiane à 54 % et le meilleur score, Nova 2 Pro à 78 %, suggèrent que le benchmark reste discriminant et loin d’être saturé. Ses limites tiennent aussi à sa portée linguistique, centrée sur l’anglais, et aux risques généraux de contamination propres aux jeux d’évaluation publics.

Sources des scores : llm-stats.

Multi-Challenge

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench