Google

Gemini 3.1 Pro Preview

Gemini 3.1 Pro Preview est un LLM de Google, sorti le 19 février 2026, avec un positionnement Pro mais une tarification économique. Son profil combine une très grande fenêtre de contexte d’environ 1,0 M de tokens, des résultats de haut de tableau en raisonnement et en code, et un coût…

À sa sortie, Gemini 3.1 Pro Preview se situe dans le top 3% des LLM de sa génération sur GPQA diamond. Les données disponibles reposent sur 8 sources concordantes, ce qui donne une base solide pour comparer ses performances, ses prix et ses limites.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Date de sortie	19 février 2026
Multimodal	oui
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	audio,file,image,text,video → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	46.5	6ᵉ / 136
Code Index	68.8	6ᵉ / 50
Agentic Index	21.4	27ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	21ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,9 %	21ᵉ / 217	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	95,6 %	10ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	94,1 %	2ᵉ / 132	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	93,9 %	9ᵉ / 252	benchable	✅ Mesuré
LiveBench: Mathematics	91,0 %	8ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	88,9 %	5ᵉ / 64	epoch	✅ Mesuré
LiveBench: Language	85,4 %	3ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	84,0 %	8ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	81,0 %	11ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Global average	79,9 %	3ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	79,1 %	1ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	78,5 %	4ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	77,3 %	1ᵉ / 52	epoch	✅ Mesuré
LiveBench: Coding	76,5 %	19ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	75,6 %	12ᵉ / 32	epoch	✅ Mesuré
LiveBench: Agentic Coding	65,0 %	4ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	59,6 %	13ᵉ / 31	epoch	✅ Mesuré
Epoch: Chess Puzzles	55,0 %	3ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	36,9 %	13ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	26,8 %	13ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	16,7 %	12ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
t2-bench	99,3 %	1ᵉ / 23	llm-stats	Auto-déclaré
LiveCodeBench Pro	96,2 %	1ᵉ / 4	llm-stats	Auto-déclaré
GPQA	94,3 %	2ᵉ / 213	llm-stats	Auto-déclaré
MMMLU	92,6 %	2ᵉ / 49	llm-stats	Auto-déclaré
BrowseComp	85,9 %	5ᵉ / 51	llm-stats	Auto-déclaré
SWE-Bench Verified	80,6 %	7ᵉ / 100	llm-stats	Auto-déclaré
MMMU-Pro	80,5 %	8ᵉ / 60	llm-stats	Auto-déclaré
LiveBench	79,9 %	4ᵉ / 38	llm-stats	n.d.
ARC-AGI v2	77,1 %	2ᵉ / 16	llm-stats	Auto-déclaré
MCP Atlas	69,2 %	15ᵉ / 27	llm-stats	Auto-déclaré
Terminal-Bench 2.0	68,5 %	11ᵉ / 48	llm-stats	Auto-déclaré
SciCode	59,0 %	2ᵉ / 18	llm-stats	Auto-déclaré
SWE-Bench Pro	54,2 %	25ᵉ / 34	llm-stats	Auto-déclaré
Humanity's Last Exam	51,4 %	13ᵉ / 86	llm-stats	Auto-déclaré
Finance Agent v2	43,0 %	12ᵉ / 25	llm-stats	n.d.
FrontierSWE	40,0 %	8ᵉ / 13	llm-stats	n.d.
APEX-Agents	33,5 %	2ᵉ / 5	llm-stats	Auto-déclaré
GDPval-AA	32,5 %	28ᵉ / 33	llm-stats	n.d.
MRCR v2 (8-needle)	26,3 %	7ᵉ / 10	llm-stats	Auto-déclaré
Legal Agent Benchmark	0,0 %	8ᵉ / 11	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

▶ Gemini 3.1 Pro Preview46.5

Qwen3.7 Max46.0

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

▶ Gemini 3.1 Pro Preview68.8

Qwen3.7 Max66.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Image-to-Code	1490	9ᵉ
Arena Text	1486	7ᵉ
Arena Code	1447	27ᵉ
Arena Document	1441	16ᵉ
Arena Vision	1280	13ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Google Vertex	2 $	12 $	0,2 $
artificialanalysis	2 $	12 $	0,2 $
google	2,5 $	15 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Qwen3.7 Max).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	26,43 $
Durée d'exécution — PinchBench	2 h 50 min
Indice valeur/coût — PinchBench	5,23
Coût moyen par benchmark — Benchable	0,7 $
Latence moyenne par benchmark — Benchable	22 min 11 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Pays	United States of America

Notre analyse

Forces. Gemini 3.1 Pro Preview se distingue d’abord par ses performances générales, avec un Intelligence Index et un Code Index tous deux classés dans le top 10. Les benchmarks Benchable le placent au meilleur niveau sur Hallucinations, Reasoning et Ethics, ce qui signale un profil particulièrement solide sur la fiabilité des réponses, le raisonnement et les garde-fous évalués par ces tests. Le modèle obtient aussi de très bons résultats en Coding, et ses scores Arena sont forts en texte et en image-to-code. Sa fenêtre de contexte de 1 048 576 tokens renforce son intérêt pour les longs documents, les bases de code volumineuses et les analyses multi-sources. Côté prix, son positionnement reste économique, malgré un tarif légèrement supérieur à la moyenne des LLM similaires, et nettement inférieur aux modèles frontière.

Limites et points d'attention. Gemini 3.1 Pro Preview est moins convaincant sur les usages agentiques, où son Agentic Index le place plutôt en retrait que dans le groupe de tête. Les résultats Benchable en General Knowledge et Email Classification sont corrects mais moins différenciants, avec des rangs de milieu de tableau malgré des scores élevés. Arena Code est aussi moins bien classé que ses résultats en texte et en image-to-code, ce qui invite à distinguer génération de code, correction de code et performance en compétition. Le statut Preview implique aussi une lecture prudente des résultats, car le positionnement peut évoluer. Le modèle paraît surtout pertinent pour les usages nécessitant long contexte, raisonnement, rédaction technique et code, avec une contrainte de coût maîtrisée.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).