ODinW

ODinW, pour Object Detection in the Wild, est un benchmark de détection d’objets conçu par Microsoft au sein de l’équipe GLIP, associée notamment à Liunian Harold Li et Pengchuan Zhang. Il sert à évaluer la capacité de modèles de détection à se transférer vers des jeux de données réels…

ODinW, pour Object Detection in the Wild, est un benchmark de détection d’objets conçu par Microsoft au sein de l’équipe GLIP, associée notamment à Liunian Harold Li et Pengchuan Zhang. Il sert à évaluer la capacité de modèles de détection à se transférer vers des jeux de données réels et variés.

Le benchmark met l’accent sur le transfert au niveau tâche, en combinant précision de prédiction et efficacité d’adaptation. Il couvre des scénarios de détection par boîtes englobantes, notamment en zero-shot et few-shot, avec des catégories textuelles en anglais.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkMicrosoft (équipe GLIP : Liunian Harold Li, Pengchuan Zhang et al.)
Capacités mesuréesTransfert au niveau tâche de modèles de détection vers des jeux de données réels diversifiés, en précision de prédiction et en efficacité d'adaptation.
ModalitéImage
Type de questionsDétection d'objets (boîtes englobantes) ; transfert zero-shot/few-shot sur jeux variés
Métrique d'évaluationmAP (mean Average Precision)
AccèsPublic
Languesanglais (catégories textuelles)
Taille du jeu13 jeux de données (ODinW-13), étendu à 35 jeux (ODinW-35)
Année de publication2021
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 16)

#ModèleÉditeurScoreSortieFiabilité
1Qwen3.6 PlusQwen51,8 %31 mars 2026Auto-déclaré
2Qwen3.7-PlusQwen51,1 %31 mai 2026Auto-déclaré
3Qwen3.6-35B-A3BQwen50,8 %16 avril 2026Auto-déclaré
4Qwen3 VL 235B A22B InstructQwen48,6 %22 septembre 2025Auto-déclaré
5Qwen3 VL 4B InstructQwen48,2 %22 septembre 2025Auto-déclaré
6Qwen3 VL 30B A3B InstructQwen47,5 %22 septembre 2025Auto-déclaré
7Qwen3 VL 32B InstructQwen46,6 %22 septembre 2025Auto-déclaré
8Qwen3 VL 8B InstructQwen44,7 %22 septembre 2025Auto-déclaré
9Qwen3.5-122B-A10BQwen44,5 %24 février 2026Auto-déclaré
10Qwen3 VL 235B A22B ThinkingQwen43,2 %22 septembre 2025Auto-déclaré
11Qwen3.5-35B-A3BQwen42,6 %24 février 2026Auto-déclaré
12Qwen2.5-Omni-7BQwen42,4 %27 mars 2025Auto-déclaré
13Qwen3 VL 30B A3B ThinkingQwen42,3 %22 septembre 2025Auto-déclaré
14Qwen3.5-27BQwen41,1 %24 février 2026Auto-déclaré
15Qwen3 VL 8B ThinkingQwen39,8 %22 septembre 2025Auto-déclaré
16Qwen3 VL 4B ThinkingQwen39,4 %22 septembre 2025Auto-déclaré

Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 44,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur ODinW indique qu’un modèle parvient à réutiliser ses capacités de détection sur des contextes visuels divers sans dépendre uniquement d’un entraînement spécialisé sur chaque jeu. La mesure en mAP rend compte de la qualité des boîtes englobantes et de l’identification des objets, mais elle ne résume pas à elle seule la robustesse opérationnelle d’un système. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les interpréter avec prudence en l’absence d’un protocole uniformément vérifié. Le caractère public du benchmark peut aussi exposer à des effets de contamination ou d’optimisation ciblée, et sa portée reste centrée sur la détection d’objets, avec des catégories textuelles en anglais. Le classement montre un ensemble relativement resserré: sur 16 modèles évalués, la médiane atteint 45 %, tandis que Qwen3.6 Plus se détache à 52 %, suggérant des écarts réels mais limités dans ce cadre d’évaluation.


Sources des scores : llm-stats.