Google

gemini-3-pro-image

gemini-3-pro-image est un LLM de Google référencé dans Benchable avec un profil très solide sur les évaluations de base. Le modèle se distingue surtout par des résultats de tout premier plan en General Knowledge, Reasoning et Ethics, trois axes qui couvrent la culture générale, le…

Son nom suggère un positionnement associé à la famille Gemini, mais les données disponibles ici ne documentent aucune capacité spécifique liée à l’image. La fiche repose sur une seule source de données concordante, ce qui impose une lecture centrée sur les benchmarks fournis plutôt que sur des caractéristiques techniques non publiées.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	97,0 %	6ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	97,0 %	6ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	86,0 %	23ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ gemini-3-pro-image100 %

DeepSeek R1 Distill Lla…100 %

Benchable : Reasoning (Baseline)

DeepSeek V4 Flash100 %

Gemini 3.1 Pro Preview100 %

GPT-5.5100 %

qwen3-32b-04-28100 %

▶ gemini-3-pro-image100 %

Claude Opus 4.598 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,92 $
Latence moyenne par benchmark — Benchable	15 min 04 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gemini-3-pro-image atteint le top 10 Benchable en General Knowledge (connaissances générales), Reasoning (raisonnement) et Ethics (évaluation de réponses conformes à des critères éthiques), avec des scores de référence au plafond sur ces trois volets. Ce profil indique un modèle particulièrement performant sur les tâches textuelles générales, les questions nécessitant une inférence structurée et les réponses sensibles aux consignes de sûreté. Le résultat en Coding le place aussi dans le top 10, ce qui signale une capacité compétitive sur les tâches de programmation évaluées par Benchable.

Limites et points d'attention. Les résultats en Hallucinations et en Email Classification restent élevés en score absolu, mais leur classement est nettement moins distinctif que celui observé en raisonnement, connaissances générales, éthique et code. Ces deux benchmarks suggèrent donc des domaines où gemini-3-pro-image domine moins clairement le panel évalué. La couverture disponible se limite à une seule source concordante, sans information fournie sur l’entraînement, le coût, la fenêtre de contexte, les modalités réellement prises en charge ni la disponibilité commerciale. L’analyse doit donc rester strictement attachée aux résultats Benchable communiqués.

Sources des données : Benchable.ai (benchable.ai).

gemini-3-pro-image

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast