MAXIFE

MAXIFE est un benchmark multilingue publié en 2025 par Waseda University et OPPO AI Center. Il évalue la capacité des modèles de langage à suivre et exécuter des instructions dans plusieurs langues, avec une attention particulière aux situations cross-lingues et aux variations de…

MAXIFE est un benchmark multilingue publié en 2025 par Waseda University et OPPO AI Center. Il évalue la capacité des modèles de langage à suivre et exécuter des instructions dans plusieurs langues, avec une attention particulière aux situations cross-lingues et aux variations de contexte culturel.

Le test repose sur des questions de base associées à des instructions vérifiables et composables. Il sert à mesurer si un modèle comprend précisément une consigne, respecte ses contraintes et reste robuste lorsque la langue ou le contexte culturel change.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkWaseda University & OPPO AI Center
Capacités mesuréesSuivi d'instructions multilingue et cross-lingue, robustesse interculturelle
ModalitéTexte
Type de questionsSuivi d'instructions vérifiables (questions de base + instructions composables)
Métrique d'évaluationPrécision (évaluation hybride : règles + modèle juge)
AccèsPublic
Languesmultilingue
Taille du jeu795 questions de base et 1667 instructions (1-3 instructions par question)
Année de publication2025
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.7 MaxQwen89,2 %19 mai 2026Auto-déclaré
2Qwen3.7-PlusQwen88,8 %31 mai 2026Auto-déclaré
3Qwen3.5-397B-A17BQwen88,2 %16 février 2026Auto-déclaré
4Qwen3.6 PlusQwen88,2 %31 mars 2026Auto-déclaré
5Qwen3.5-27BQwen88,0 %24 février 2026Auto-déclaré
6Qwen3.5-122B-A10BQwen87,9 %24 février 2026Auto-déclaré
7Qwen3.5-35B-A3BQwen86,6 %24 février 2026Auto-déclaré
8Qwen3.5-9BQwen83,4 %2 mars 2026Auto-déclaré
9Qwen3.5-4BQwen78,0 %2 mars 2026Auto-déclaré
10Qwen3.5-2BQwen60,6 %2 mars 2026Auto-déclaré
11Qwen3.5-0.8BQwen39,2 %2 mars 2026Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 87,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MAXIFE indique une forte précision dans le suivi d’instructions multilingue, y compris lorsque plusieurs contraintes doivent être combinées. L’évaluation hybride, fondée sur des règles et un modèle juge, apporte un cadre plus structuré qu’une appréciation purement subjective. La fiabilité doit toutefois être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs.

Le classement suggère un benchmark très resserré dans la base observée : la médiane atteint 88 %, tandis que le meilleur résultat, Qwen3.7 Max de Qwen, atteint 89 %. Cet écart limité peut signaler une forme de saturation sur les modèles évalués, ou une difficulté à discriminer les meilleurs systèmes. Comme MAXIFE est public, un risque de contamination des données ne peut pas être écarté. Sa portée reste ciblée : il mesure surtout l’exécution d’instructions multilingues et interculturelles, pas l’ensemble des capacités de raisonnement ou de connaissance d’un modèle.


Sources des scores : llm-stats.