gemini-3.1-flash-image-preview
gemini-3.1-flash-image-preview est un LLM de Google référencé dans Benchable avec une couverture limitée à une source de données concordante. Son profil ressort surtout par un résultat de premier plan sur Hallucinations (Baseline), où il se classe tout en haut du panel évalué.
gemini-3.1-flash-image-preview est un LLM de Google référencé dans Benchable avec une couverture limitée à une source de données concordante. Son profil ressort surtout par un résultat de premier plan sur Hallucinations (Baseline), où il se classe tout en haut du panel évalué.
Le modèle affiche aussi des scores élevés sur des tâches de raisonnement, de code, de connaissance générale, d’éthique et de classification d’e-mails. Cette fiche sert donc surtout à situer un modèle Google au profil très homogène, avec un point fort net sur la maîtrise des hallucinations dans le cadre de ce benchmark.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 98,0 % | 23ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 11ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 91,0 % | 105ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 77,0 % | 58ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : General Knowledge (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,12 $ |
| Latence moyenne par benchmark — Benchable | 11 min 56 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. gemini-3.1-flash-image-preview se distingue d’abord sur Hallucinations (Baseline), avec une première place dans un ensemble de modèles très large, ce qui signale une performance particulièrement forte sur ce critère Benchable. Le modèle se place aussi dans le haut du tableau en Reasoning (Baseline) et en Coding (Baseline), deux catégories utiles pour juger sa capacité à traiter des tâches structurées et techniques. Ses résultats en General Knowledge (Baseline), Ethics (Baseline) et Email Classification (Baseline) restent élevés, ce qui dessine un profil polyvalent plutôt qu’un modèle spécialisé sur un seul usage.
Limites et points d'attention. La couverture repose sur une seule source de données concordante, ce qui limite la robustesse de l’interprétation au-delà des benchmarks Benchable fournis. Malgré des scores bruts très hauts en General Knowledge (Baseline), Ethics (Baseline) et Email Classification (Baseline), les rangs associés le placent davantage dans le milieu supérieur du classement que parmi les tout premiers modèles de ces catégories. Aucune donnée n’est fournie sur le coût, la latence, la fenêtre de contexte, l’entraînement, la disponibilité ou les capacités exactes liées à la mention « image-preview » dans son nom.
Sources des données : Benchable.ai (benchable.ai).