ODinW
ODinW, pour Object Detection in the Wild, est un benchmark de détection d’objets conçu par Microsoft au sein de l’équipe GLIP, associée notamment à Liunian Harold Li et Pengchuan Zhang. Il sert à évaluer la capacité de modèles de détection à se transférer vers des jeux de données réels…
ODinW, pour Object Detection in the Wild, est un benchmark de détection d’objets conçu par Microsoft au sein de l’équipe GLIP, associée notamment à Liunian Harold Li et Pengchuan Zhang. Il sert à évaluer la capacité de modèles de détection à se transférer vers des jeux de données réels et variés.
Le benchmark met l’accent sur le transfert au niveau tâche, en combinant précision de prédiction et efficacité d’adaptation. Il couvre des scénarios de détection par boîtes englobantes, notamment en zero-shot et few-shot, avec des catégories textuelles en anglais.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Microsoft (équipe GLIP : Liunian Harold Li, Pengchuan Zhang et al.) |
| Capacités mesurées | Transfert au niveau tâche de modèles de détection vers des jeux de données réels diversifiés, en précision de prédiction et en efficacité d'adaptation. |
| Modalité | Image |
| Type de questions | Détection d'objets (boîtes englobantes) ; transfert zero-shot/few-shot sur jeux variés |
| Métrique d'évaluation | mAP (mean Average Precision) |
| Accès | Public |
| Langues | anglais (catégories textuelles) |
| Taille du jeu | 13 jeux de données (ODinW-13), étendu à 35 jeux (ODinW-35) |
| Année de publication | 2021 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 16)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 51,8 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3.7-Plus | Qwen | 51,1 % | 31 mai 2026 | Auto-déclaré |
| 3 | Qwen3.6-35B-A3B | Qwen | 50,8 % | 16 avril 2026 | Auto-déclaré |
| 4 | Qwen3 VL 235B A22B Instruct | Qwen | 48,6 % | 22 septembre 2025 | Auto-déclaré |
| 5 | Qwen3 VL 4B Instruct | Qwen | 48,2 % | 22 septembre 2025 | Auto-déclaré |
| 6 | Qwen3 VL 30B A3B Instruct | Qwen | 47,5 % | 22 septembre 2025 | Auto-déclaré |
| 7 | Qwen3 VL 32B Instruct | Qwen | 46,6 % | 22 septembre 2025 | Auto-déclaré |
| 8 | Qwen3 VL 8B Instruct | Qwen | 44,7 % | 22 septembre 2025 | Auto-déclaré |
| 9 | Qwen3.5-122B-A10B | Qwen | 44,5 % | 24 février 2026 | Auto-déclaré |
| 10 | Qwen3 VL 235B A22B Thinking | Qwen | 43,2 % | 22 septembre 2025 | Auto-déclaré |
| 11 | Qwen3.5-35B-A3B | Qwen | 42,6 % | 24 février 2026 | Auto-déclaré |
| 12 | Qwen2.5-Omni-7B | Qwen | 42,4 % | 27 mars 2025 | Auto-déclaré |
| 13 | Qwen3 VL 30B A3B Thinking | Qwen | 42,3 % | 22 septembre 2025 | Auto-déclaré |
| 14 | Qwen3.5-27B | Qwen | 41,1 % | 24 février 2026 | Auto-déclaré |
| 15 | Qwen3 VL 8B Thinking | Qwen | 39,8 % | 22 septembre 2025 | Auto-déclaré |
| 16 | Qwen3 VL 4B Thinking | Qwen | 39,4 % | 22 septembre 2025 | Auto-déclaré |
Classement établi sur 16 modèles évalués, dont 16 de grands éditeurs. Score médian de l'ensemble : 44,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur ODinW indique qu’un modèle parvient à réutiliser ses capacités de détection sur des contextes visuels divers sans dépendre uniquement d’un entraînement spécialisé sur chaque jeu. La mesure en mAP rend compte de la qualité des boîtes englobantes et de l’identification des objets, mais elle ne résume pas à elle seule la robustesse opérationnelle d’un système. Dans cette base, les scores sont majoritairement auto-déclarés par les éditeurs, ce qui invite à les interpréter avec prudence en l’absence d’un protocole uniformément vérifié. Le caractère public du benchmark peut aussi exposer à des effets de contamination ou d’optimisation ciblée, et sa portée reste centrée sur la détection d’objets, avec des catégories textuelles en anglais. Le classement montre un ensemble relativement resserré: sur 16 modèles évalués, la médiane atteint 45 %, tandis que Qwen3.6 Plus se détache à 52 %, suggérant des écarts réels mais limités dans ce cadre d’évaluation.
Sources des scores : llm-stats.