Vision & multimodal

ODinW

ODinW, pour Object Detection in the Wild, est un benchmark de détection d’objets conçu par Microsoft au sein de l’équipe GLIP, associée notamment à Liunian Harold Li et Pengchuan Zhang. Il sert à évaluer la capacité de modèles de détection à se transférer vers des jeux de données réels…

Le benchmark met l’accent sur le transfert au niveau tâche, en combinant précision de prédiction et efficacité d’adaptation. Il couvre des scénarios de détection par boîtes englobantes, notamment en zero-shot et few-shot, avec des catégories textuelles en anglais.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Microsoft (équipe GLIP : Liunian Harold Li, Pengchuan Zhang et al.)
Capacités mesurées	Transfert au niveau tâche de modèles de détection vers des jeux de données réels diversifiés, en précision de prédiction et en efficacité d'adaptation.
Modalité	Image
Type de questions	Détection d'objets (boîtes englobantes) ; transfert zero-shot/few-shot sur jeux variés
Métrique d'évaluation	mAP (mean Average Precision)
Accès	Public
Langues	anglais (catégories textuelles)
Taille du jeu	13 jeux de données (ODinW-13), étendu à 35 jeux (ODinW-35)
Année de publication	2021
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	51,8 %	31 mars 2026	Auto-déclaré
2	Qwen3.7-Plus	Qwen	51,1 %	31 mai 2026	Auto-déclaré
3	Qwen3.6-35B-A3B	Qwen	50,8 %	16 avril 2026	Auto-déclaré
4	Qwen3 VL 235B A22B Instruct	Qwen	48,6 %	22 septembre 2025	Auto-déclaré
5	Qwen3 VL 4B Instruct	Qwen	48,2 %	22 septembre 2025	Auto-déclaré
6	Qwen3 VL 30B A3B Instruct	Qwen	47,5 %	22 septembre 2025	Auto-déclaré
7	Qwen3 VL 32B Instruct	Qwen	46,6 %	22 septembre 2025	Auto-déclaré
8	Qwen3 VL 8B Instruct	Qwen	44,7 %	22 septembre 2025	Auto-déclaré
9	Qwen3.5-122B-A10B	Qwen	44,5 %	24 février 2026	Auto-déclaré
10	Qwen3 VL 235B A22B Thinking	Qwen	43,2 %	22 septembre 2025	Auto-déclaré
11	Qwen3.5-35B-A3B	Qwen	42,6 %	24 février 2026	Auto-déclaré
12	Qwen2.5-Omni-7B	Qwen	42,4 %	27 mars 2025	Auto-déclaré
13	Qwen3 VL 30B A3B Thinking	Qwen	42,3 %	22 septembre 2025	Auto-déclaré
14	Qwen3.5-27B	Qwen	41,1 %	24 février 2026	Auto-déclaré
15	Qwen3 VL 8B Thinking	Qwen	39,8 %	22 septembre 2025	Auto-déclaré
16	Qwen3 VL 4B Thinking	Qwen	39,4 %	22 septembre 2025	Auto-déclaré

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 44,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ODinW indique qu’un modèle parvient à réutiliser ses capacités de détection sur des contextes visuels divers sans dépendre uniquement d’un entraînement spécialisé sur chaque jeu. La mesure en mAP rend compte de la qualité des boîtes englobantes et de l’identification des objets, mais elle ne résume pas à elle seule la robustesse opérationnelle d’un système. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les interpréter avec prudence en l’absence d’un protocole uniformément vérifié. Le caractère public du benchmark peut aussi exposer à des effets de contamination ou d’optimisation ciblée, et sa portée reste centrée sur la détection d’objets, avec des catégories textuelles en anglais. Le classement montre un ensemble relativement resserré: sur 16 modèles évalués, la médiane atteint 45 %, tandis que Qwen3.6 Plus se détache à 52 %, suggérant des écarts réels mais limités dans ce cadre d’évaluation.

Sources des scores : llm-stats.

ODinW

Carte d'identité

Classement des modèles (top 16)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench