Gemini 3.1 Pro Preview

Gemini 3.1 Pro Preview est un LLM de Google, sorti le 19 février 2026, avec un positionnement Pro mais une tarification économique. Son profil combine une très grande fenêtre de contexte d’environ 1,0 M de tokens, des résultats de haut de tableau en raisonnement et en code, et un coût…

Gemini 3.1 Pro Preview est un LLM de Google, sorti le 19 février 2026, avec un positionnement Pro mais une tarification économique. Son profil combine une très grande fenêtre de contexte d’environ 1,0 M de tokens, des résultats de haut de tableau en raisonnement et en code, et un coût inférieur à celui des modèles frontière.

À sa sortie, Gemini 3.1 Pro Preview se situe dans le top 3% des LLM de sa génération sur GPQA diamond. Les données disponibles reposent sur 8 sources concordantes, ce qui donne une base solide pour comparer ses performances, ses prix et ses limites.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
Date de sortie19 février 2026
Multimodaloui
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)audio,file,image,text,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index46.56ᵉ / 136
Code Index68.86ᵉ / 50
Agentic Index21.427ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %21ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,9 %21ᵉ / 217benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202595,6 %10ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond94,1 %2ᵉ / 132epoch✅ Mesuré
Benchable : Instruction Following (Baseline)93,9 %9ᵉ / 252benchable✅ Mesuré
LiveBench: Mathematics91,0 %8ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public88,9 %5ᵉ / 64epoch✅ Mesuré
LiveBench: Language85,4 %3ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning84,0 %8ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)81,0 %11ᵉ / 52pinchbench✅ Mesuré
LiveBench: Global average79,9 %3ᵉ / 76livebench✅ Mesuré
LiveBench: IF79,1 %1ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis78,5 %4ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified77,3 %1ᵉ / 52epoch✅ Mesuré
LiveBench: Coding76,5 %19ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified75,6 %12ᵉ / 32epoch✅ Mesuré
LiveBench: Agentic Coding65,0 %4ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private59,6 %13ᵉ / 31epoch✅ Mesuré
Epoch: Chess Puzzles55,0 %3ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private36,9 %13ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private26,8 %13ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private16,7 %12ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
t2-bench99,3 %1ᵉ / 23llm-statsAuto-déclaré
LiveCodeBench Pro96,2 %1ᵉ / 4llm-statsAuto-déclaré
GPQA94,3 %2ᵉ / 213llm-statsAuto-déclaré
MMMLU92,6 %2ᵉ / 49llm-statsAuto-déclaré
BrowseComp85,9 %5ᵉ / 51llm-statsAuto-déclaré
SWE-Bench Verified80,6 %7ᵉ / 100llm-statsAuto-déclaré
MMMU-Pro80,5 %8ᵉ / 60llm-statsAuto-déclaré
LiveBench79,9 %4ᵉ / 38llm-statsn.d.
ARC-AGI v277,1 %2ᵉ / 16llm-statsAuto-déclaré
MCP Atlas69,2 %15ᵉ / 27llm-statsAuto-déclaré
Terminal-Bench 2.068,5 %11ᵉ / 48llm-statsAuto-déclaré
SciCode59,0 %2ᵉ / 18llm-statsAuto-déclaré
SWE-Bench Pro54,2 %25ᵉ / 34llm-statsAuto-déclaré
Humanity's Last Exam51,4 %13ᵉ / 86llm-statsAuto-déclaré
Finance Agent v243,0 %12ᵉ / 25llm-statsn.d.
FrontierSWE40,0 %8ᵉ / 13llm-statsn.d.
APEX-Agents33,5 %2ᵉ / 5llm-statsAuto-déclaré
GDPval-AA32,5 %28ᵉ / 33llm-statsn.d.
MRCR v2 (8-needle)26,3 %7ᵉ / 10llm-statsAuto-déclaré
Legal Agent Benchmark0,0 %8ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
▶ Gemini 3.1 Pro Preview46.5
Qwen3.7 Max46.0

Code Index

GPT-5.471.1
Gemini 3.5 Flash70.1
▶ Gemini 3.1 Pro Preview68.8
Qwen3.7 Max66.0

Classements Arena (Elo)

CatégorieEloRang
Arena Image-to-Code14909ᵉ
Arena Text14867ᵉ
Arena Code144727ᵉ
Arena Document144116ᵉ
Arena Vision128013ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Google Vertex2 $12 $0,2 $
artificialanalysis2 $12 $0,2 $
google2,5 $15 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Qwen3.7 Max).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)26,43 $
Durée d'exécution — PinchBench2 h 50 min
Indice valeur/coût — PinchBench5,23
Coût moyen par benchmark — Benchable0,7 $
Latence moyenne par benchmark — Benchable22 min 11 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysUnited States of America

Notre analyse

Forces. Gemini 3.1 Pro Preview se distingue d’abord par ses performances générales, avec un Intelligence Index et un Code Index tous deux classés dans le top 10. Les benchmarks Benchable le placent au meilleur niveau sur Hallucinations, Reasoning et Ethics, ce qui signale un profil particulièrement solide sur la fiabilité des réponses, le raisonnement et les garde-fous évalués par ces tests. Le modèle obtient aussi de très bons résultats en Coding, et ses scores Arena sont forts en texte et en image-to-code. Sa fenêtre de contexte de 1 048 576 tokens renforce son intérêt pour les longs documents, les bases de code volumineuses et les analyses multi-sources. Côté prix, son positionnement reste économique, malgré un tarif légèrement supérieur à la moyenne des LLM similaires, et nettement inférieur aux modèles frontière.

Limites et points d'attention. Gemini 3.1 Pro Preview est moins convaincant sur les usages agentiques, où son Agentic Index le place plutôt en retrait que dans le groupe de tête. Les résultats Benchable en General Knowledge et Email Classification sont corrects mais moins différenciants, avec des rangs de milieu de tableau malgré des scores élevés. Arena Code est aussi moins bien classé que ses résultats en texte et en image-to-code, ce qui invite à distinguer génération de code, correction de code et performance en compétition. Le statut Preview implique aussi une lecture prudente des résultats, car le positionnement peut évoluer. Le modèle paraît surtout pertinent pour les usages nécessitant long contexte, raisonnement, rédaction technique et code, avec une contrainte de coût maîtrisée.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).