MAXIFE
MAXIFE est un benchmark multilingue publié en 2025 par Waseda University et OPPO AI Center. Il évalue la capacité des modèles de langage à suivre et exécuter des instructions dans plusieurs langues, avec une attention particulière aux situations cross-lingues et aux variations de…
MAXIFE est un benchmark multilingue publié en 2025 par Waseda University et OPPO AI Center. Il évalue la capacité des modèles de langage à suivre et exécuter des instructions dans plusieurs langues, avec une attention particulière aux situations cross-lingues et aux variations de contexte culturel.
Le test repose sur des questions de base associées à des instructions vérifiables et composables. Il sert à mesurer si un modèle comprend précisément une consigne, respecte ses contraintes et reste robuste lorsque la langue ou le contexte culturel change.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Waseda University & OPPO AI Center |
| Capacités mesurées | Suivi d'instructions multilingue et cross-lingue, robustesse interculturelle |
| Modalité | Texte |
| Type de questions | Suivi d'instructions vérifiables (questions de base + instructions composables) |
| Métrique d'évaluation | Précision (évaluation hybride : règles + modèle juge) |
| Accès | Public |
| Langues | multilingue |
| Taille du jeu | 795 questions de base et 1667 instructions (1-3 instructions par question) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 11)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.7 Max | Qwen | 89,2 % | 19 mai 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 88,8 % | 31 mai 2026 | Auto-déclaré |
| 3 | Qwen3.5-397B-A17B | Qwen | 88,2 % | 16 février 2026 | Auto-déclaré |
| 4 | Qwen3.6 Plus | Qwen | 88,2 % | 31 mars 2026 | Auto-déclaré |
| 5 | Qwen3.5-27B | Qwen | 88,0 % | 24 février 2026 | Auto-déclaré |
| 6 | Qwen3.5-122B-A10B | Qwen | 87,9 % | 24 février 2026 | Auto-déclaré |
| 7 | Qwen3.5-35B-A3B | Qwen | 86,6 % | 24 février 2026 | Auto-déclaré |
| 8 | Qwen3.5-9B | Qwen | 83,4 % | 2 mars 2026 | Auto-déclaré |
| 9 | Qwen3.5-4B | Qwen | 78,0 % | 2 mars 2026 | Auto-déclaré |
| 10 | Qwen3.5-2B | Qwen | 60,6 % | 2 mars 2026 | Auto-déclaré |
| 11 | Qwen3.5-0.8B | Qwen | 39,2 % | 2 mars 2026 | Auto-déclaré |
Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 87,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur MAXIFE indique une forte précision dans le suivi d’instructions multilingue, y compris lorsque plusieurs contraintes doivent être combinées. L’évaluation hybride, fondée sur des règles et un modèle juge, apporte un cadre plus structuré qu’une appréciation purement subjective. La fiabilité doit toutefois être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs.
Le classement suggère un benchmark très resserré dans la base observée : la médiane atteint 88 %, tandis que le meilleur résultat, Qwen3.7 Max de Qwen, atteint 89 %. Cet écart limité peut signaler une forme de saturation sur les modèles évalués, ou une difficulté à discriminer les meilleurs systèmes. Comme MAXIFE est public, un risque de contamination des données ne peut pas être écarté. Sa portée reste ciblée : il mesure surtout l’exécution d’instructions multilingues et interculturelles, pas l’ensemble des capacités de raisonnement ou de connaissance d’un modèle.
Sources des scores : llm-stats.