Multi-Challenge

Multi-Challenge est un benchmark d’évaluation conversationnelle conçu par Scale AI, via l’équipe SEAL / Scale Labs. Il se concentre sur des dialogues multi-tours réalistes, dans lesquels un modèle doit répondre correctement au dernier tour tout en conservant le contexte accumulé.

Multi-Challenge est un benchmark d’évaluation conversationnelle conçu par Scale AI, via l’équipe SEAL / Scale Labs. Il se concentre sur des dialogues multi-tours réalistes, dans lesquels un modèle doit répondre correctement au dernier tour tout en conservant le contexte accumulé.

Le test mesure des capacités centrales pour les assistants IA en usage prolongé : rétention d’instructions, mémoire d’inférence à partir d’informations utilisateur, édition versionnée fiable et auto-cohérence. Il sert ainsi à apprécier la robustesse des modèles dans des échanges suivis, plus proches d’interactions professionnelles ou collaboratives que de questions isolées.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkScale AI (equipe SEAL / Scale Labs)
Capacités mesuréesConversations multi-tours realistes : retention d'instructions, memoire d'inference des informations utilisateur, edition versionnee fiable, auto-coherence
ModalitéTexte
Type de questionsconversations multi-tours (max 10 tours) avec reponse au dernier tour utilisateur, jugees par un LLM
Métrique d'évaluationexactitude jugee par LLM (accuracy)
Languesanglais
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Nova 2 ProAmazon77,7 %2 décembre 2025Auto-déclaré
2Nova 2 LiteAmazon76,6 %2 décembre 2025Auto-déclaré
3Nova 2 OmniAmazon75,5 %2 décembre 2025Auto-déclaré
4GPT-5OpenAI69,6 %7 août 2025Auto-déclaré
5Qwen3.5-397B-A17BQwen67,6 %16 février 2026Auto-déclaré
6Nemotron 3 Ultra (550B A55B)NVIDIA63,8 %4 juin 2026Auto-déclaré
7Step3-VL-10BStepFun62,6 %15 janvier 2026Auto-déclaré
8Qwen3.5-122B-A10BQwen61,5 %24 février 2026Auto-déclaré
9Qwen3.5-27BQwen60,8 %24 février 2026Auto-déclaré
10o3OpenAI60,4 %16 avril 2025Auto-déclaré
11Qwen3.5-35B-A3BQwen60,0 %24 février 2026Auto-déclaré
12Nemotron 3 Super (120B A12B)NVIDIA55,2 %11 mars 2026Auto-déclaré
13Qwen3.5-9BQwen54,5 %2 mars 2026Auto-déclaré
14Kimi K2 InstructMoonshot AI54,1 %11 juillet 2025Auto-déclaré
15Kimi K2-Instruct-0905Moonshot AI54,1 %5 septembre 2025Auto-déclaré
16MAI-Thinking-1Microsoft53,0 %2 juin 2026Auto-déclaré
17Qwen3.5-4BQwen49,0 %2 mars 2026Auto-déclaré
18MiniMax M1MiniMax44,7 %17 juin 2025Auto-déclaré
19GPT-5.4OpenAI43,8 %5 mars 2026Auto-déclaré
20o4-miniOpenAI43,0 %16 avril 2025Auto-déclaré

Classement établi sur 28 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 54,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multi-Challenge indique qu’un modèle parvient à maintenir des consignes, relier des informations apparues plus tôt dans la conversation, adapter une production à des instructions évolutives et éviter les contradictions. Cette compétence est particulièrement importante pour les cas d’usage où la qualité dépend de la continuité du dialogue, comme la planification, la documentation technique ou la communication professionnelle. L’évaluation repose sur une exactitude jugée par un LLM, ce qui permet de traiter des réponses ouvertes, mais introduit aussi une dépendance au comportement du juge. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles. La médiane à 54 % et le meilleur score, Nova 2 Pro à 78 %, suggèrent que le benchmark reste discriminant et loin d’être saturé. Ses limites tiennent aussi à sa portée linguistique, centrée sur l’anglais, et aux risques généraux de contamination propres aux jeux d’évaluation publics.


Sources des scores : llm-stats.