Google

gemini-3.1-flash-image-preview

gemini-3.1-flash-image-preview est un LLM de Google référencé dans Benchable avec une couverture limitée à une source de données concordante. Son profil ressort surtout par un résultat de premier plan sur Hallucinations (Baseline), où il se classe tout en haut du panel évalué.

Le modèle affiche aussi des scores élevés sur des tâches de raisonnement, de code, de connaissance générale, d’éthique et de classification d’e-mails. Cette fiche sert donc surtout à situer un modèle Google au profil très homogène, avec un point fort net sur la maîtrise des hallucinations dans le cadre de ce benchmark.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,0 %	113ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	99,0 %	114ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	91,0 %	105ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	77,0 %	58ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ gemini-3.1-flash-image-…100 %

Nemotron Nano 9B v298 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ gemini-3.1-flash-image-…99 %

Llama 3.3 70B Instruct98 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,12 $
Latence moyenne par benchmark — Benchable	11 min 56 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gemini-3.1-flash-image-preview se distingue d’abord sur Hallucinations (Baseline), avec une première place dans un ensemble de modèles très large, ce qui signale une performance particulièrement forte sur ce critère Benchable. Le modèle se place aussi dans le haut du tableau en Reasoning (Baseline) et en Coding (Baseline), deux catégories utiles pour juger sa capacité à traiter des tâches structurées et techniques. Ses résultats en General Knowledge (Baseline), Ethics (Baseline) et Email Classification (Baseline) restent élevés, ce qui dessine un profil polyvalent plutôt qu’un modèle spécialisé sur un seul usage.

Limites et points d'attention. La couverture repose sur une seule source de données concordante, ce qui limite la robustesse de l’interprétation au-delà des benchmarks Benchable fournis. Malgré des scores bruts très hauts en General Knowledge (Baseline), Ethics (Baseline) et Email Classification (Baseline), les rangs associés le placent davantage dans le milieu supérieur du classement que parmi les tout premiers modèles de ces catégories. Aucune donnée n’est fournie sur le coût, la latence, la fenêtre de contexte, l’entraînement, la disponibilité ou les capacités exactes liées à la mention « image-preview » dans son nom.

Sources des données : Benchable.ai (benchable.ai).

gemini-3.1-flash-image-preview

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast