Google

Gemini 3 Pro

Gemini 3 Pro est un LLM propriétaire de Google, sorti le 18 novembre 2025, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, d’environ 1,0 M de tokens, et un tarif classé économique pour sa catégorie.

Le modèle se distingue surtout par ses résultats en raisonnement scientifique, en mathématiques difficiles et en réponses factuelles vérifiables. À sa sortie, il figurait dans le top 1% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Licence	Proprietary (poids non ouverts)
Date de sortie	18 novembre 2025
Connaissances jusqu'à	2025-01-31
Multimodal	oui
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image,audio,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	39.6	25ᵉ / 136
Math Index	95.7	4ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	92,6 %	7ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	91,4 %	19ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	80,0 %	6ᵉ / 64	epoch	✅ Mesuré
Epoch: SWE-Bench verified	72,9 %	21ᵉ / 32	epoch	✅ Mesuré
Epoch: SimpleQA Verified	72,9 %	2ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	37,6 %	12ᵉ / 69	epoch	✅ Mesuré
Epoch: Chess Puzzles	31,0 %	13ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	18,8 %	11ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
AIME 2025	100,0 %	1ᵉ / 108	llm-stats	Auto-déclaré
Global PIQA	93,4 %	1ᵉ / 13	llm-stats	Auto-déclaré
GPQA	91,9 %	10ᵉ / 213	llm-stats	Auto-déclaré
MMMLU	91,8 %	3ᵉ / 49	llm-stats	Auto-déclaré
VideoMMMU	87,6 %	1ᵉ / 26	llm-stats	Auto-déclaré
t2-bench	85,4 %	7ᵉ / 23	llm-stats	Auto-déclaré
CharXiv-R	81,4 %	13ᵉ / 42	llm-stats	Auto-déclaré
LiveCodeBench Pro	81,3 %	2ᵉ / 4	llm-stats	Auto-déclaré
MMMU-Pro	81,0 %	7ᵉ / 60	llm-stats	Auto-déclaré
SWE-Bench Verified	76,2 %	30ᵉ / 100	llm-stats	Auto-déclaré
LiveBench	73,4 %	21ᵉ / 38	llm-stats	n.d.
ScreenSpot Pro	72,7 %	5ᵉ / 23	llm-stats	Auto-déclaré
SimpleQA	72,1 %	6ᵉ / 45	llm-stats	Auto-déclaré
FACTS Grounding	70,5 %	8ᵉ / 13	llm-stats	Auto-déclaré
Terminal-Bench 2.0	54,2 %	29ᵉ / 48	llm-stats	Auto-déclaré
Humanity's Last Exam	45,8 %	22ᵉ / 86	llm-stats	Auto-déclaré
ARC-AGI v2	31,1 %	12ᵉ / 16	llm-stats	Auto-déclaré
MRCR v2 (8-needle)	26,3 %	7ᵉ / 10	llm-stats	Auto-déclaré
MathArena Apex	23,4 %	6ᵉ / 6	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Grok Build 0.1 061639.8

▶ Gemini 3 Pro39.6

Nemotron 3 Ultra 550B A…37.8

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

▶ Gemini 3 Pro95.7

DeepSeek V3.292.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1486	8ᵉ
Arena Image-to-Code	1453	12ᵉ
Arena Code	1439	29ᵉ
Arena Document	1433	18ᵉ
Arena Vision	1289	8ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
artificialanalysis	2 $	12 $	0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Matériel	Google TPU v7 Ironwood
Pays	United States of America

Notre analyse

Forces. Gemini 3 Pro apparaît particulièrement solide sur les tâches de raisonnement formel. Il se classe dans le top 10 sur Math Index, GPQA diamond et FrontierMath public, ce qui indique un niveau élevé sur les mathématiques avancées et les questions scientifiques exigeantes. SimpleQA Verified le place aussi parmi les meilleurs modèles évalués pour les réponses factuelles vérifiables. Sa fenêtre de contexte d’environ 1,0 M de tokens renforce son intérêt pour l’analyse de longs documents, de corpus techniques ou de bases de connaissances volumineuses. Côté coût, son tarif reste économique, légèrement au-dessus de la moyenne des LLM similaires, mais nettement inférieur à celui des modèles frontière.

Limites et points d'attention. Les performances en code sont moins marquantes que celles en science et en mathématiques : SWE-Bench verified et Arena code le placent plutôt en retrait par rapport à ses meilleurs classements. L’écart entre FrontierMath public et FrontierMath private signale aussi que la robustesse sur les problèmes mathématiques de recherche les plus difficiles n’est pas uniforme. Le modèle est propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant et l’hébergement autonome. Ses connaissances s’arrêtent au 2025-01-31, un point important pour les sujets récents. Gemini 3 Pro convient surtout aux usages nécessitant raisonnement scientifique, mathématiques avancées, vérification factuelle et traitement de très longs contextes à coût contenu.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Gemini 3 Pro

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast