TIR-Bench
TIR-Bench est un benchmark multimodal centré sur le raisonnement agentique avec images et outils. Créé par agents-x-project, équipe TIR-Bench menée par Ming Li et al., il évalue la capacité d’un modèle à « penser avec les images », c’est-à-dire à créer, manipuler et exploiter des images…
TIR-Bench est un benchmark multimodal centré sur le raisonnement agentique avec images et outils. Créé par agents-x-project, équipe TIR-Bench menée par Ming Li et al., il évalue la capacité d’un modèle à « penser avec les images », c’est-à-dire à créer, manipuler et exploiter des images dans sa chaîne de raisonnement.
Le test cible le suivi d’instructions visuelles et la fiabilité d’exécution dans des scénarios où le modèle doit interagir avec des outils. Il sert ainsi à mesurer une compétence plus opérationnelle que la simple compréhension d’image, proche de l’usage réel d’agents multimodaux.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | agents-x-project (équipe TIR-Bench, Ming Li et al.) |
| Capacités mesurées | Raisonnement 'penser avec les images' : créer et manipuler des images via des outils au sein de la chaîne de raisonnement, suivi d'instructions visuelles et fiabilité d'exécution |
| Modalité | Multimodal |
| Type de questions | raisonnement multimodal agentique (thinking-with-images, usage d'outils) |
| Métrique d'évaluation | exactitude (accuracy) |
| Accès | Public |
| Langues | anglais (multimodal image+texte) |
| Taille du jeu | 13 tâches diverses |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 4)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Qwen3.6 Plus | Qwen | 61,6 % | 31 mars 2026 | Auto-déclaré |
| 2 | Qwen3.5-27B | Qwen | 59,8 % | 24 février 2026 | Auto-déclaré |
| 3 | Qwen3.5-35B-A3B | Qwen | 55,5 % | 24 février 2026 | Auto-déclaré |
| 4 | Qwen3.5-122B-A10B | Qwen | 53,2 % | 24 février 2026 | Auto-déclaré |
Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 57,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur TIR-Bench indique qu’un modèle parvient mieux à suivre des consignes visuelles, à utiliser des outils et à produire des résultats corrects dans des tâches de raisonnement multimodal. L’exactitude mesure directement la réussite des exécutions attendues, mais l’interprétation doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le classement actuel, fondé sur un petit ensemble de modèles évalués, montre un écart limité autour d’un niveau médian de 58 %, avec Qwen3.6 Plus en tête à 62 %. Cette proximité suggère que le benchmark distingue encore les performances, sans signaler une saturation manifeste dans les données disponibles. Ses limites tiennent surtout à sa portée spécialisée, centrée sur 13 tâches de thinking-with-images en anglais multimodal, et au risque général de contamination associé aux benchmarks publics. TIR-Bench doit donc être lu comme un indicateur ciblé de fiabilité agentique visuelle, plutôt que comme une mesure globale des capacités d’un modèle.
Sources des scores : llm-stats.