Multi-Challenge
Multi-Challenge est un benchmark d’évaluation conversationnelle conçu par Scale AI, via l’équipe SEAL / Scale Labs. Il se concentre sur des dialogues multi-tours réalistes, dans lesquels un modèle doit répondre correctement au dernier tour tout en conservant le contexte accumulé.
Multi-Challenge est un benchmark d’évaluation conversationnelle conçu par Scale AI, via l’équipe SEAL / Scale Labs. Il se concentre sur des dialogues multi-tours réalistes, dans lesquels un modèle doit répondre correctement au dernier tour tout en conservant le contexte accumulé.
Le test mesure des capacités centrales pour les assistants IA en usage prolongé : rétention d’instructions, mémoire d’inférence à partir d’informations utilisateur, édition versionnée fiable et auto-cohérence. Il sert ainsi à apprécier la robustesse des modèles dans des échanges suivis, plus proches d’interactions professionnelles ou collaboratives que de questions isolées.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Scale AI (equipe SEAL / Scale Labs) |
| Capacités mesurées | Conversations multi-tours realistes : retention d'instructions, memoire d'inference des informations utilisateur, edition versionnee fiable, auto-coherence |
| Modalité | Texte |
| Type de questions | conversations multi-tours (max 10 tours) avec reponse au dernier tour utilisateur, jugees par un LLM |
| Métrique d'évaluation | exactitude jugee par LLM (accuracy) |
| Langues | anglais |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Nova 2 Pro | Amazon | 77,7 % | 2 décembre 2025 | Auto-déclaré |
| 2 | Nova 2 Lite | Amazon | 76,6 % | 2 décembre 2025 | Auto-déclaré |
| 3 | Nova 2 Omni | Amazon | 75,5 % | 2 décembre 2025 | Auto-déclaré |
| 4 | GPT-5 | OpenAI | 69,6 % | 7 août 2025 | Auto-déclaré |
| 5 | Qwen3.5-397B-A17B | Qwen | 67,6 % | 16 février 2026 | Auto-déclaré |
| 6 | Nemotron 3 Ultra (550B A55B) | NVIDIA | 63,8 % | 4 juin 2026 | Auto-déclaré |
| 7 | Step3-VL-10B | StepFun | 62,6 % | 15 janvier 2026 | Auto-déclaré |
| 8 | Qwen3.5-122B-A10B | Qwen | 61,5 % | 24 février 2026 | Auto-déclaré |
| 9 | Qwen3.5-27B | Qwen | 60,8 % | 24 février 2026 | Auto-déclaré |
| 10 | o3 | OpenAI | 60,4 % | 16 avril 2025 | Auto-déclaré |
| 11 | Qwen3.5-35B-A3B | Qwen | 60,0 % | 24 février 2026 | Auto-déclaré |
| 12 | Nemotron 3 Super (120B A12B) | NVIDIA | 55,2 % | 11 mars 2026 | Auto-déclaré |
| 13 | Qwen3.5-9B | Qwen | 54,5 % | 2 mars 2026 | Auto-déclaré |
| 14 | Kimi K2 Instruct | Moonshot AI | 54,1 % | 11 juillet 2025 | Auto-déclaré |
| 15 | Kimi K2-Instruct-0905 | Moonshot AI | 54,1 % | 5 septembre 2025 | Auto-déclaré |
| 16 | MAI-Thinking-1 | Microsoft | 53,0 % | 2 juin 2026 | Auto-déclaré |
| 17 | Qwen3.5-4B | Qwen | 49,0 % | 2 mars 2026 | Auto-déclaré |
| 18 | MiniMax M1 | MiniMax | 44,7 % | 17 juin 2025 | Auto-déclaré |
| 19 | GPT-5.4 | OpenAI | 43,8 % | 5 mars 2026 | Auto-déclaré |
| 20 | o4-mini | OpenAI | 43,0 % | 16 avril 2025 | Auto-déclaré |
Classement établi sur 28 modèles évalués, dont 24 de grands éditeurs. Score médian de l'ensemble : 54,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Multi-Challenge indique qu’un modèle parvient à maintenir des consignes, relier des informations apparues plus tôt dans la conversation, adapter une production à des instructions évolutives et éviter les contradictions. Cette compétence est particulièrement importante pour les cas d’usage où la qualité dépend de la continuité du dialogue, comme la planification, la documentation technique ou la communication professionnelle. L’évaluation repose sur une exactitude jugée par un LLM, ce qui permet de traiter des réponses ouvertes, mais introduit aussi une dépendance au comportement du juge. Dans la base considérée, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité stricte entre modèles. La médiane à 54 % et le meilleur score, Nova 2 Pro à 78 %, suggèrent que le benchmark reste discriminant et loin d’être saturé. Ses limites tiennent aussi à sa portée linguistique, centrée sur l’anglais, et aux risques généraux de contamination propres aux jeux d’évaluation publics.
Sources des scores : llm-stats.