gemini-3.1-flash-image-preview

gemini-3.1-flash-image-preview est un LLM de Google référencé dans Benchable avec une couverture limitée à une source de données concordante. Son profil ressort surtout par un résultat de premier plan sur Hallucinations (Baseline), où il se classe tout en haut du panel évalué.

gemini-3.1-flash-image-preview est un LLM de Google référencé dans Benchable avec une couverture limitée à une source de données concordante. Son profil ressort surtout par un résultat de premier plan sur Hallucinations (Baseline), où il se classe tout en haut du panel évalué.

Le modèle affiche aussi des scores élevés sur des tâches de raisonnement, de code, de connaissance générale, d’éthique et de classification d’e-mails. Cette fiche sert donc surtout à situer un modèle Google au profil très homogène, avec un point fort net sur la maîtrise des hallucinations dans le cadre de ce benchmark.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,0 %113ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)98,0 %23ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)91,0 %105ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)77,0 %58ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ gemini-3.1-flash-image-…100 %
Nemotron Nano 9B v298 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ gemini-3.1-flash-image-…99 %
Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,12 $
Latence moyenne par benchmark — Benchable11 min 56 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gemini-3.1-flash-image-preview se distingue d’abord sur Hallucinations (Baseline), avec une première place dans un ensemble de modèles très large, ce qui signale une performance particulièrement forte sur ce critère Benchable. Le modèle se place aussi dans le haut du tableau en Reasoning (Baseline) et en Coding (Baseline), deux catégories utiles pour juger sa capacité à traiter des tâches structurées et techniques. Ses résultats en General Knowledge (Baseline), Ethics (Baseline) et Email Classification (Baseline) restent élevés, ce qui dessine un profil polyvalent plutôt qu’un modèle spécialisé sur un seul usage.

Limites et points d'attention. La couverture repose sur une seule source de données concordante, ce qui limite la robustesse de l’interprétation au-delà des benchmarks Benchable fournis. Malgré des scores bruts très hauts en General Knowledge (Baseline), Ethics (Baseline) et Email Classification (Baseline), les rangs associés le placent davantage dans le milieu supérieur du classement que parmi les tout premiers modèles de ces catégories. Aucune donnée n’est fournie sur le coût, la latence, la fenêtre de contexte, l’entraînement, la disponibilité ou les capacités exactes liées à la mention « image-preview » dans son nom.


Sources des données : Benchable.ai (benchable.ai).