Connaissances & sciences

MAXIFE

MAXIFE est un benchmark multilingue publié en 2025 par Waseda University et OPPO AI Center. Il évalue la capacité des modèles de langage à suivre et exécuter des instructions dans plusieurs langues, avec une attention particulière aux situations cross-lingues et aux variations de…

Le test repose sur des questions de base associées à des instructions vérifiables et composables. Il sert à mesurer si un modèle comprend précisément une consigne, respecte ses contraintes et reste robuste lorsque la langue ou le contexte culturel change.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Waseda University & OPPO AI Center
Capacités mesurées	Suivi d'instructions multilingue et cross-lingue, robustesse interculturelle
Modalité	Texte
Type de questions	Suivi d'instructions vérifiables (questions de base + instructions composables)
Métrique d'évaluation	Précision (évaluation hybride : règles + modèle juge)
Accès	Public
Langues	multilingue
Taille du jeu	795 questions de base et 1667 instructions (1-3 instructions par question)
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 11)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.7 Max	Qwen	89,2 %	19 mai 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	88,8 %	31 mai 2026	Auto-déclaré
3	Qwen3.5-397B-A17B	Qwen	88,2 %	16 février 2026	Auto-déclaré
4	Qwen3.6 Plus	Qwen	88,2 %	31 mars 2026	Auto-déclaré
5	Qwen3.5-27B	Qwen	88,0 %	24 février 2026	Auto-déclaré
6	Qwen3.5-122B-A10B	Qwen	87,9 %	24 février 2026	Auto-déclaré
7	Qwen3.5-35B-A3B	Qwen	86,6 %	24 février 2026	Auto-déclaré
8	Qwen3.5-9B	Qwen	83,4 %	2 mars 2026	Auto-déclaré
9	Qwen3.5-4B	Qwen	78,0 %	2 mars 2026	Auto-déclaré
10	Qwen3.5-2B	Qwen	60,6 %	2 mars 2026	Auto-déclaré
11	Qwen3.5-0.8B	Qwen	39,2 %	2 mars 2026	Auto-déclaré

Classement établi sur 11 modèles évalués, dont 11 de grands éditeurs. Score médian de l'ensemble : 87,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur MAXIFE indique une forte précision dans le suivi d’instructions multilingue, y compris lorsque plusieurs contraintes doivent être combinées. L’évaluation hybride, fondée sur des règles et un modèle juge, apporte un cadre plus structuré qu’une appréciation purement subjective. La fiabilité doit toutefois être interprétée avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs.

Le classement suggère un benchmark très resserré dans la base observée : la médiane atteint 88 %, tandis que le meilleur résultat, Qwen3.7 Max de Qwen, atteint 89 %. Cet écart limité peut signaler une forme de saturation sur les modèles évalués, ou une difficulté à discriminer les meilleurs systèmes. Comme MAXIFE est public, un risque de contamination des données ne peut pas être écarté. Sa portée reste ciblée : il mesure surtout l’exécution d’instructions multilingues et interculturelles, pas l’ensemble des capacités de raisonnement ou de connaissance d’un modèle.

Sources des scores : llm-stats.

MAXIFE

Carte d'identité

Classement des modèles (top 11)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT24++