Vibe-Eval
Vibe-Eval est une suite d’évaluation conçue par Reka AI pour tester la compréhension multimodale image-texte des modèles de chat. Elle repose sur des questions ouvertes de compréhension visuelle, avec des réponses de référence rédigées par des experts.
Vibe-Eval est une suite d’évaluation conçue par Reka AI pour tester la compréhension multimodale image-texte des modèles de chat. Elle repose sur des questions ouvertes de compréhension visuelle, avec des réponses de référence rédigées par des experts.
Le benchmark vise à mesurer à la fois l’utilité quotidienne des modèles multimodaux, sous forme de « vibe-check », et leur capacité à traiter des raisonnements visuels difficiles. Il sert ainsi de repère qualitatif pour comparer les progrès des systèmes multimodaux de nouvelle génération.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Reka AI |
| Capacités mesurées | Compréhension multimodale image-texte, raisonnement visuel difficile, vibe-check de modèles de chat multimodaux |
| Modalité | Multimodal |
| Type de questions | compréhension visuelle ouverte (VQA à réponse libre) |
| Métrique d'évaluation | score d'un juge LLM (Reka Core) sur échelle entière 1-5 |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | 269 prompts (169 "normaux" + 100 "hard") |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.5 Pro Preview 06-05 | 67,2 % | 5 juin 2025 | Auto-déclaré | |
| 2 | Gemini 2.5 Pro | 65,6 % | 20 mai 2025 | Auto-déclaré | |
| 3 | Gemini 2.5 Flash | 65,4 % | 20 mai 2025 | Auto-déclaré | |
| 4 | Gemini 2.0 Flash | 56,3 % | 21 janvier 2025 | Auto-déclaré | |
| 5 | Gemini 1.5 Pro | 53,9 % | 1 mai 2024 | Auto-déclaré | |
| 6 | Gemini 2.5 Flash-Lite | 51,3 % | 17 juin 2025 | Auto-déclaré | |
| 7 | Gemini 1.5 Flash | 48,9 % | 1 mai 2024 | Auto-déclaré | |
| 8 | Gemini 1.5 Flash 8B | 40,9 % | 15 mars 2024 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 55,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Vibe-Eval indique qu’un modèle produit des réponses jugées proches des références expertes sur des tâches visuelles ouvertes, y compris lorsque l’image exige une interprétation fine ou un raisonnement non trivial. L’évaluation s’appuie sur un juge LLM, Reka Core, avec une note entière de 1 à 5, ce qui apporte une procédure homogène mais conserve une part de subjectivité liée au jugement automatisé. La fiabilité doit aussi être lue avec prudence, les scores disponibles étant majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. Le classement de la base montre un niveau encore contrasté, avec 8 modèles évalués, un score médian de 55 % et un meilleur résultat à 67 % pour Gemini 2.5 Pro Preview 06-05. Cela suggère que le benchmark reste discriminant, notamment grâce à son sous-ensemble hard. Ses limites tiennent à sa taille réduite, à son périmètre anglophone, au risque de contamination publique et à une portée centrée sur la VQA ouverte plutôt que sur toutes les formes de multimodalité.
Sources des scores : llm-stats.