Langage & rédaction

Multi-IF

Multi-IF est un benchmark publié par Meta (GenAI) pour évaluer la capacité des grands modèles de langage à suivre des instructions dans des contextes multilingues et multi-tours. Il prolonge l’approche d’IFEval en ajoutant des séquences de dialogue sur plusieurs échanges et des…

Le test mesure le respect d’instructions vérifiables à chaque tour, avec une attention particulière portée à la stabilité du comportement au fil du dialogue, au multilinguisme et à la production de sorties structurées. Il sert à comparer les modèles sur une compétence opérationnelle centrale, souvent sollicitée dans les assistants conversationnels.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Meta (GenAI)
Capacités mesurées	suivi d'instructions, multilingue, gestion de dialogues multi-tours, sortie structurée
Modalité	Texte
Type de questions	suivi d'instructions vérifiable sur 3 tours de dialogue, en 8 langues
Métrique d'évaluation	exactitude de suivi d'instruction (instruction accuracy), par tour
Accès	Public
Langues	8 langues (anglais + 7 traductions, dont chinois, hindi, russe)
Taille du jeu	4501 conversations multilingues, 3 tours chacune, 8 langues
Année de publication	2024
Ressources	Article scientifique

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3-235B-A22B-Thinking-2507	Qwen	80,6 %	25 juillet 2025	Auto-déclaré
2	o3-mini	OpenAI	79,5 %	30 janvier 2025	Auto-déclaré
3	Qwen3 VL 235B A22B Thinking	Qwen	79,1 %	22 septembre 2025	Auto-déclaré
4	Qwen3 VL 32B Thinking	Qwen	78,0 %	22 septembre 2025	Auto-déclaré
5	Qwen3-Next-80B-A3B-Thinking	Qwen	77,8 %	10 septembre 2025	Auto-déclaré
6	Qwen3-235B-A22B-Instruct-2507	Qwen	77,5 %	22 juillet 2025	Auto-déclaré
7	Qwen3 VL 235B A22B Instruct	Qwen	76,3 %	22 septembre 2025	Auto-déclaré
8	Qwen3-Next-80B-A3B-Instruct	Qwen	75,8 %	10 septembre 2025	Auto-déclaré
9	Qwen3 VL 8B Instruct	Qwen	75,1 %	22 septembre 2025	Auto-déclaré
10	Qwen3 VL 8B Thinking	Qwen	75,1 %	22 septembre 2025	Auto-déclaré
11	Qwen3 VL 4B Thinking	Qwen	73,6 %	22 septembre 2025	Auto-déclaré
12	Qwen3 VL 30B A3B Thinking	Qwen	73,0 %	22 septembre 2025	Auto-déclaré
13	Qwen3 30B A3B	Qwen	72,2 %	29 avril 2025	Auto-déclaré
14	Qwen3 VL 32B Instruct	Qwen	72,0 %	22 septembre 2025	Auto-déclaré
15	GPT-4.1	OpenAI	70,8 %	14 avril 2025	Auto-déclaré
16	GPT-5.4	OpenAI	70,8 %	5 mars 2026	Auto-déclaré
17	GPT-4.1 mini	OpenAI	67,0 %	14 avril 2025	Auto-déclaré
18	Qwen3 VL 30B A3B Instruct	Qwen	66,1 %	22 septembre 2025	Auto-déclaré
19	GPT-4o	OpenAI	60,9 %	27 mars 2025	Auto-déclaré
20	GPT-4.1 nano	OpenAI	57,2 %	14 avril 2025	Auto-déclaré

Classement établi sur 20 modèles évalués, dont 20 de grands éditeurs. Score médian de l'ensemble : 74,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Multi-IF indique qu’un modèle respecte de manière fiable des consignes explicites, y compris lorsque celles-ci s’enchaînent sur plusieurs tours et dans plusieurs langues. Le classement montre toutefois que la tâche reste discriminante : dans la base considérée, le meilleur score atteint 81 % avec Qwen3-235B-A22B-Thinking-2507, tandis que la médiane s’établit à 74 %. Cet écart suggère une marge de progression, en particulier pour maintenir l’exactitude au fil du dialogue. L’évaluation reste à interpréter avec prudence, car les scores disponibles sont majoritairement auto-déclarés par les éditeurs, ce qui limite leur comparabilité avec des mesures totalement indépendantes. Comme le benchmark est public, un risque de contamination ou d’optimisation ciblée ne peut pas être écarté. Sa portée est aussi spécifique : il mesure le suivi d’instructions vérifiables sur trois tours et dans huit langues, mais ne couvre pas l’ensemble des capacités de raisonnement ou de connaissances. Les résultats signalent enfin une difficulté accrue pour les langues à écriture non latine.

Sources des scores : llm-stats.

Multi-IF

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23