Multi-IF
Multi-IF est un benchmark publié par Meta (GenAI) pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes multilingues et multi-tours. Il prolonge l’approche d’IFEval en ajoutant des séquences de dialogue sur plusieurs échanges et des…
Multi-IF est un benchmark publié par Meta (GenAI) pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes multilingues et multi-tours. Il prolonge l’approche d’IFEval en ajoutant des séquences de dialogue sur plusieurs échanges et des traductions de prompts anglais vers d’autres langues.
Le test mesure le respect d’instructions vérifiables à chaque tour, avec une attention particulière portée à la stabilité du comportement au fil du dialogue, au multilinguisme et à la production de sorties structurées. Il sert à comparer les modèles sur une compétence opérationnelle centrale, souvent sollicitée dans les assistants conversationnels.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Meta (GenAI) |
| Capacités mesurées | suivi d'instructions, multilingue, gestion de dialogues multi-tours, sortie structurée |
| Modalité | Texte |
| Type de questions | suivi d'instructions vérifiable sur 3 tours de dialogue, en 8 langues |
| Métrique d'évaluation | exactitude de suivi d'instruction (instruction accuracy), par tour |
| Accès | Public |
| Langues | 8 langues (anglais + 7 traductions, dont chinois, hindi, russe) |
| Taille du jeu | 4501 conversations multilingues, 3 tours chacune, 8 langues |
| Année de publication | 2024 |
| Ressources | Article scientifique |
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3-235B-A22B-Thinking-2507 | Qwen | 80,6 % | 25 juillet 2025 | Auto-déclaré |
| 2 | o3-mini | OpenAI | 79,5 % | 30 janvier 2025 | Auto-déclaré |
| 3 | Qwen3 VL 235B A22B Thinking | Qwen | 79,1 % | 22 septembre 2025 | Auto-déclaré |
| 4 | Qwen3 VL 32B Thinking | Qwen | 78,0 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3-Next-80B-A3B-Thinking | Qwen | 77,8 % | 10 septembre 2025 | Auto-déclaré |
| 6 | Qwen3-235B-A22B-Instruct-2507 | Qwen | 77,5 % | 22 juillet 2025 | Auto-déclaré |
| 7 | Qwen3 VL 235B A22B Instruct | Qwen | 76,3 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3-Next-80B-A3B-Instruct | Qwen | 75,8 % | 10 septembre 2025 | Auto-déclaré |
| 9 | Qwen3 VL 8B Instruct | Qwen | 75,1 % | 22 septembre 2025 | Auto-déclaré |
| 10 | Qwen3 VL 8B Thinking | Qwen | 75,1 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3 VL 4B Thinking | Qwen | 73,6 % | 22 septembre 2025 | Auto-déclaré |
| 12 | Qwen3 VL 30B A3B Thinking | Qwen | 73,0 % | 22 septembre 2025 | Auto-déclaré |
| 13 | Qwen3 30B A3B | Qwen | 72,2 % | 29 avril 2025 | Auto-déclaré |
| 14 | Qwen3 VL 32B Instruct | Qwen | 72,0 % | 22 septembre 2025 | Auto-déclaré |
| 15 | GPT-4.1 | OpenAI | 70,8 % | 14 avril 2025 | Auto-déclaré |
| 16 | GPT-5.4 | OpenAI | 70,8 % | 5 mars 2026 | Auto-déclaré |
| 17 | GPT-4.1 mini | OpenAI | 67,0 % | 14 avril 2025 | Auto-déclaré |
| 18 | Qwen3 VL 30B A3B Instruct | Qwen | 66,1 % | 22 septembre 2025 | Auto-déclaré |
| 19 | GPT-4o | OpenAI | 60,9 % | 27 mars 2025 | Auto-déclaré |
| 20 | GPT-4.1 nano | OpenAI | 57,2 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 20 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 74,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Multi-IF indique qu’un modèle respecte de manière fiable des consignes explicites, y compris lorsque celles-ci s’enchaînent sur plusieurs tours et dans plusieurs langues. Le classement montre toutefois que la tâche reste discriminante : dans la base considérée, le meilleur score atteint 81 % avec Qwen3-235B-A22B-Thinking-2507, tandis que la médiane s’établit à 74 %. Cet écart suggère une marge de progression, en particulier pour maintenir l’exactitude au fil du dialogue. L’évaluation reste à interpréter avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures totalement indépendantes. Comme le benchmark est public, un risque de contamination ou d’optimisation ciblée ne peut pas être écarté. Sa portée est aussi spécifique : il mesure le suivi d’instructions vérifiables sur trois tours et dans huit langues, mais ne couvre pas l’ensemble des capacités de raisonnement ou de connaissances. Les résultats signalent enfin une difficulté accrue pour les langues à écriture non latine.
Sources des scores : llm-stats.