Agents & outils

TIR-Bench

TIR-Bench est un benchmark multimodal centré sur le raisonnement agentique avec images et outils. Créé par agents-x-project, équipe TIR-Bench menée par Ming Li et al., il évalue la capacité d’un modèle à « penser avec les images », c’est-à-dire à créer, manipuler et exploiter des images…

Le test cible le suivi d’instructions visuelles et la fiabilité d’exécution dans des scénarios où le modèle doit interagir avec des outils. Il sert ainsi à mesurer une compétence plus opérationnelle que la simple compréhension d’image, proche de l’usage réel d’agents multimodaux.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	agents-x-project (équipe TIR-Bench, Ming Li et al.)
Capacités mesurées	Raisonnement 'penser avec les images' : créer et manipuler des images via des outils au sein de la chaîne de raisonnement, suivi d'instructions visuelles et fiabilité d'exécution
Modalité	Multimodal
Type de questions	raisonnement multimodal agentique (thinking-with-images, usage d'outils)
Métrique d'évaluation	exactitude (accuracy)
Accès	Public
Langues	anglais (multimodal image+texte)
Taille du jeu	13 tâches diverses
Année de publication	2025
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 4)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Qwen3.6 Plus	Qwen	61,6 %	31 mars 2026	Auto-déclaré
2	Qwen3.5-27B	Qwen	59,8 %	24 février 2026	Auto-déclaré
3	Qwen3.5-35B-A3B	Qwen	55,5 %	24 février 2026	Auto-déclaré
4	Qwen3.5-122B-A10B	Qwen	53,2 %	24 février 2026	Auto-déclaré

Classement établi sur 4 modèles évalués, dont 4 de grands éditeurs. Score médian de l'ensemble : 57,6 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur TIR-Bench indique qu’un modèle parvient mieux à suivre des consignes visuelles, à utiliser des outils et à produire des résultats corrects dans des tâches de raisonnement multimodal. L’exactitude mesure directement la réussite des exécutions attendues, mais l’interprétation doit rester prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le classement actuel, fondé sur un petit ensemble de modèles évalués, montre un écart limité autour d’un niveau médian de 58 %, avec Qwen3.6 Plus en tête à 62 %. Cette proximité suggère que le benchmark distingue encore les performances, sans signaler une saturation manifeste dans les données disponibles. Ses limites tiennent surtout à sa portée spécialisée, centrée sur 13 tâches de thinking-with-images en anglais multimodal, et au risque général de contamination associé aux benchmarks publics. TIR-Bench doit donc être lu comme un indicateur ciblé de fiabilité agentique visuelle, plutôt que comme une mesure globale des capacités d’un modèle.

Sources des scores : llm-stats.

TIR-Bench

Carte d'identité

Classement des modèles (top 4)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench