Vibe-Eval

Vibe-Eval est une suite d’évaluation conçue par Reka AI pour tester la compréhension multimodale image-texte des modèles de chat. Elle repose sur des questions ouvertes de compréhension visuelle, avec des réponses de référence rédigées par des experts.

Vibe-Eval est une suite d’évaluation conçue par Reka AI pour tester la compréhension multimodale image-texte des modèles de chat. Elle repose sur des questions ouvertes de compréhension visuelle, avec des réponses de référence rédigées par des experts.

Le benchmark vise à mesurer à la fois l’utilité quotidienne des modèles multimodaux, sous forme de « vibe-check », et leur capacité à traiter des raisonnements visuels difficiles. Il sert ainsi de repère qualitatif pour comparer les progrès des systèmes multimodaux de nouvelle génération.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkReka AI
Capacités mesuréesCompréhension multimodale image-texte, raisonnement visuel difficile, vibe-check de modèles de chat multimodaux
ModalitéMultimodal
Type de questionscompréhension visuelle ouverte (VQA à réponse libre)
Métrique d'évaluationscore d'un juge LLM (Reka Core) sur échelle entière 1-5
AccèsPublic
Languesanglais
Taille du jeu269 prompts (169 "normaux" + 100 "hard")
Année de publication2024
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 8)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.5 Pro Preview 06-05Google67,2 %5 juin 2025Auto-déclaré
2Gemini 2.5 ProGoogle65,6 %20 mai 2025Auto-déclaré
3Gemini 2.5 FlashGoogle65,4 %20 mai 2025Auto-déclaré
4Gemini 2.0 FlashGoogle56,3 %21 janvier 2025Auto-déclaré
5Gemini 1.5 ProGoogle53,9 %1 mai 2024Auto-déclaré
6Gemini 2.5 Flash-LiteGoogle51,3 %17 juin 2025Auto-déclaré
7Gemini 1.5 FlashGoogle48,9 %1 mai 2024Auto-déclaré
8Gemini 1.5 Flash 8BGoogle40,9 %15 mars 2024Auto-déclaré

Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 55,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Vibe-Eval indique qu’un modèle produit des réponses jugées proches des références expertes sur des tâches visuelles ouvertes, y compris lorsque l’image exige une interprétation fine ou un raisonnement non trivial. L’évaluation s’appuie sur un juge LLM, Reka Core, avec une note entière de 1 à 5, ce qui apporte une procédure homogène mais conserve une part de subjectivité liée au jugement automatisé. La fiabilité doit aussi être lue avec prudence, les scores disponibles étant majoritairement auto-déclarés par les éditeurs plutôt que mesurés de façon indépendante. Le classement de la base montre un niveau encore contrasté, avec 8 modèles évalués, un score médian de 55 % et un meilleur résultat à 67 % pour Gemini 2.5 Pro Preview 06-05. Cela suggère que le benchmark reste discriminant, notamment grâce à son sous-ensemble hard. Ses limites tiennent à sa taille réduite, à son périmètre anglophone, au risque de contamination publique et à une portée centrée sur la VQA ouverte plutôt que sur toutes les formes de multimodalité.


Sources des scores : llm-stats.