Vision & multimodal

Vibe-Eval

Vibe-Eval est une suite d’évaluation conçue par Reka AI pour tester la compréhension multimodale image-texte des modèles de chat. Elle repose sur des questions ouvertes de compréhension visuelle, avec des réponses de référence rédigées par des experts.

Le benchmark vise à mesurer à la fois l’utilité quotidienne des modèles multimodaux, sous forme de « vibe-check », et leur capacité à traiter des raisonnements visuels difficiles. Il sert ainsi de repère qualitatif pour comparer les progrès des systèmes multimodaux de nouvelle génération.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Reka AI
Capacités mesurées	Compréhension multimodale image-texte, raisonnement visuel difficile, vibe-check de modèles de chat multimodaux
Modalité	Multimodal
Type de questions	compréhension visuelle ouverte (VQA à réponse libre)
Métrique d'évaluation	score d'un juge LLM (Reka Core) sur échelle entière 1-5
Accès	Public
Langues	anglais
Taille du jeu	269 prompts (169 "normaux" + 100 "hard")
Année de publication	2024
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.5 Pro Preview 06-05	Google	67,2 %	5 juin 2025	Auto-déclaré
2	Gemini 2.5 Pro	Google	65,6 %	20 mai 2025	Auto-déclaré
3	Gemini 2.5 Flash	Google	65,4 %	20 mai 2025	Auto-déclaré
4	Gemini 2.0 Flash	Google	56,3 %	21 janvier 2025	Auto-déclaré
5	Gemini 1.5 Pro	Google	53,9 %	1 mai 2024	Auto-déclaré
6	Gemini 2.5 Flash-Lite	Google	51,3 %	17 juin 2025	Auto-déclaré
7	Gemini 1.5 Flash	Google	48,9 %	1 mai 2024	Auto-déclaré
8	Gemini 1.5 Flash 8B	Google	40,9 %	15 mars 2024	Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 55,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Vibe-Eval indique qu’un modèle produit des réponses jugées proches des références expertes sur des tâches visuelles ouvertes, y compris lorsque l’image exige une interprétation fine ou un raisonnement non trivial. L’évaluation s’appuie sur un juge LLM, Reka Core, avec une note entière de 1 à 5, ce qui apporte une procédure homogène mais conserve une part de subjectivité liée au jugement automatisé. La fiabilité doit aussi être lue avec prudence, les scores disponibles étant majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. Le classement de la base montre un niveau encore contrasté, avec 8 modèles évalués, un score médian de 55 % et un meilleur résultat à 67 % pour Gemini 2.5 Pro Preview 06-05. Cela suggère que le benchmark reste discriminant, notamment grâce à son sous-ensemble hard. Ses limites tiennent à sa taille réduite, à son périmètre anglophone, au risque de contamination publique et à une portée centrée sur la VQA ouverte plutôt que sur toutes les formes de multimodalité.

Sources des scores : llm-stats.

Vibe-Eval

Carte d'identité

Classement des modèles (top 8)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WMT23