Multi-IF

Multi-IF est un benchmark publié par Meta (GenAI) pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes multilingues et multi-tours. Il prolonge l’approche d’IFEval en ajoutant des séquences de dialogue sur plusieurs échanges et des…

Multi-IF est un benchmark publié par Meta (GenAI) pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes multilingues et multi-tours. Il prolonge l’approche d’IFEval en ajoutant des séquences de dialogue sur plusieurs échanges et des traductions de prompts anglais vers d’autres langues.

Le test mesure le respect d’instructions vérifiables à chaque tour, avec une attention particulière portée à la stabilité du comportement au fil du dialogue, au multilinguisme et à la production de sorties structurées. Il sert à comparer les modèles sur une compétence opérationnelle centrale, souvent sollicitée dans les assistants conversationnels.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMeta (GenAI)
Capacités mesuréessuivi d'instructions, multilingue, gestion de dialogues multi-tours, sortie structurée
ModalitéTexte
Type de questionssuivi d'instructions vérifiable sur 3 tours de dialogue, en 8 langues
Métrique d'évaluationexactitude de suivi d'instruction (instruction accuracy), par tour
AccèsPublic
Langues8 langues (anglais + 7 traductions, dont chinois, hindi, russe)
Taille du jeu4501 conversations multilingues, 3 tours chacune, 8 langues
Année de publication2024
RessourcesArticle scientifique

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3-235B-A22B-Thinking-2507Qwen80,6 %25 juillet 2025Auto-déclaré
2o3-miniOpenAI79,5 %30 janvier 2025Auto-déclaré
3Qwen3 VL 235B A22B ThinkingQwen79,1 %22 septembre 2025Auto-déclaré
4Qwen3 VL 32B ThinkingQwen78,0 %22 septembre 2025Auto-déclaré
5Qwen3-Next-80B-A3B-ThinkingQwen77,8 %10 septembre 2025Auto-déclaré
6Qwen3-235B-A22B-Instruct-2507Qwen77,5 %22 juillet 2025Auto-déclaré
7Qwen3 VL 235B A22B InstructQwen76,3 %22 septembre 2025Auto-déclaré
8Qwen3-Next-80B-A3B-InstructQwen75,8 %10 septembre 2025Auto-déclaré
9Qwen3 VL 8B InstructQwen75,1 %22 septembre 2025Auto-déclaré
10Qwen3 VL 8B ThinkingQwen75,1 %22 septembre 2025Auto-déclaré
11Qwen3 VL 4B ThinkingQwen73,6 %22 septembre 2025Auto-déclaré
12Qwen3 VL 30B A3B ThinkingQwen73,0 %22 septembre 2025Auto-déclaré
13Qwen3 30B A3BQwen72,2 %29 avril 2025Auto-déclaré
14Qwen3 VL 32B InstructQwen72,0 %22 septembre 2025Auto-déclaré
15GPT-4.1OpenAI70,8 %14 avril 2025Auto-déclaré
16GPT-5.4OpenAI70,8 %5 mars 2026Auto-déclaré
17GPT-4.1 miniOpenAI67,0 %14 avril 2025Auto-déclaré
18Qwen3 VL 30B A3B InstructQwen66,1 %22 septembre 2025Auto-déclaré
19GPT-4oOpenAI60,9 %27 mars 2025Auto-déclaré
20GPT-4.1 nanoOpenAI57,2 %14 avril 2025Auto-déclaré

Classement établi sur 20 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 74,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multi-IF indique qu’un modèle respecte de manière fiable des consignes explicites, y compris lorsque celles-ci s’enchaînent sur plusieurs tours et dans plusieurs langues. Le classement montre toutefois que la tâche reste discriminante : dans la base considérée, le meilleur score atteint 81 % avec Qwen3-235B-A22B-Thinking-2507, tandis que la médiane s’établit à 74 %. Cet écart suggère une marge de progression, en particulier pour maintenir l’exactitude au fil du dialogue. L’évaluation reste à interpréter avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures totalement indépendantes. Comme le benchmark est public, un risque de contamination ou d’optimisation ciblée ne peut pas être écarté. Sa portée est aussi spécifique : il mesure le suivi d’instructions vérifiables sur trois tours et dans huit langues, mais ne couvre pas l’ensemble des capacités de raisonnement ou de connaissances. Les résultats signalent enfin une difficulté accrue pour les langues à écriture non latine.


Sources des scores : llm-stats.