gemini-3-pro-image

gemini-3-pro-image est un LLM de Google référencé dans Benchable avec un profil très solide sur les évaluations de base. Le modèle se distingue surtout par des résultats de tout premier plan en General Knowledge, Reasoning et Ethics, trois axes qui couvrent la culture générale, le…

gemini-3-pro-image est un LLM de Google référencé dans Benchable avec un profil très solide sur les évaluations de base. Le modèle se distingue surtout par des résultats de tout premier plan en General Knowledge, Reasoning et Ethics, trois axes qui couvrent la culture générale, le raisonnement et l’alignement comportemental.

Son nom suggère un positionnement associé à la famille Gemini, mais les données disponibles ici ne documentent aucune capacité spécifique liée à l’image. La fiche repose sur une seule source de données concordante, ce qui impose une lecture centrée sur les benchmarks fournis plutôt que sur des caractéristiques techniques non publiées.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)97,0 %6ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)97,0 %6ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)86,0 %23ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : General Knowledge (Baseline)

GPT-5100 %
qwen3-235b-a22b-04-28100 %
▶ gemini-3-pro-image100 %

Benchable : Reasoning (Baseline)

GPT-5.5100 %
qwen3-32b-04-28100 %
▶ gemini-3-pro-image100 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,92 $
Latence moyenne par benchmark — Benchable15 min 04 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gemini-3-pro-image atteint le top 10 Benchable en General Knowledge (connaissances générales), Reasoning (raisonnement) et Ethics (évaluation de réponses conformes à des critères éthiques), avec des scores de référence au plafond sur ces trois volets. Ce profil indique un modèle particulièrement performant sur les tâches textuelles générales, les questions nécessitant une inférence structurée et les réponses sensibles aux consignes de sûreté. Le résultat en Coding le place aussi dans le top 10, ce qui signale une capacité compétitive sur les tâches de programmation évaluées par Benchable.

Limites et points d'attention. Les résultats en Hallucinations et en Email Classification restent élevés en score absolu, mais leur classement est nettement moins distinctif que celui observé en raisonnement, connaissances générales, éthique et code. Ces deux benchmarks suggèrent donc des domaines où gemini-3-pro-image domine moins clairement le panel évalué. La couverture disponible se limite à une seule source concordante, sans information fournie sur l’entraînement, le coût, la fenêtre de contexte, les modalités réellement prises en charge ni la disponibilité commerciale. L’analyse doit donc rester strictement attachée aux résultats Benchable communiqués.


Sources des données : Benchable.ai (benchable.ai).