Gemini 3.1 Pro Preview
Gemini 3.1 Pro Preview est un LLM de Google, sorti le 19 février 2026, avec un positionnement Pro mais une tarification économique. Son profil combine une très grande fenêtre de contexte d’environ 1,0 M de tokens, des résultats de haut de tableau en raisonnement et en code, et un coût…
Gemini 3.1 Pro Preview est un LLM de Google, sorti le 19 février 2026, avec un positionnement Pro mais une tarification économique. Son profil combine une très grande fenêtre de contexte d’environ 1,0 M de tokens, des résultats de haut de tableau en raisonnement et en code, et un coût inférieur à celui des modèles frontière.
À sa sortie, Gemini 3.1 Pro Preview se situe dans le top 3% des LLM de sa génération sur GPQA diamond. Les données disponibles reposent sur 8 sources concordantes, ce qui donne une base solide pour comparer ses performances, ses prix et ses limites.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Date de sortie | 19 février 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | audio,file,image,text,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 46.5 | 6ᵉ / 136 |
| Code Index | 68.8 | 6ᵉ / 50 |
| Agentic Index | 21.4 | 27ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 21ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,9 % | 21ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 95,6 % | 10ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 94,1 % | 2ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 93,9 % | 9ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 91,0 % | 8ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 88,9 % | 5ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Language | 85,4 % | 3ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 84,0 % | 8ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 81,0 % | 11ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Global average | 79,9 % | 3ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 79,1 % | 1ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 78,5 % | 4ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 77,3 % | 1ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: Coding | 76,5 % | 19ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 75,6 % | 12ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 65,0 % | 4ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 59,6 % | 13ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 55,0 % | 3ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 36,9 % | 13ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 26,8 % | 13ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 16,7 % | 12ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| t2-bench | 99,3 % | 1ᵉ / 23 | llm-stats | Auto-déclaré |
| LiveCodeBench Pro | 96,2 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| GPQA | 94,3 % | 2ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMLU | 92,6 % | 2ᵉ / 49 | llm-stats | Auto-déclaré |
| BrowseComp | 85,9 % | 5ᵉ / 51 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,6 % | 7ᵉ / 100 | llm-stats | Auto-déclaré |
| MMMU-Pro | 80,5 % | 8ᵉ / 60 | llm-stats | Auto-déclaré |
| LiveBench | 79,9 % | 4ᵉ / 38 | llm-stats | n.d. |
| ARC-AGI v2 | 77,1 % | 2ᵉ / 16 | llm-stats | Auto-déclaré |
| MCP Atlas | 69,2 % | 15ᵉ / 27 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 68,5 % | 11ᵉ / 48 | llm-stats | Auto-déclaré |
| SciCode | 59,0 % | 2ᵉ / 18 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 54,2 % | 25ᵉ / 34 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 51,4 % | 13ᵉ / 86 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 43,0 % | 12ᵉ / 25 | llm-stats | n.d. |
| FrontierSWE | 40,0 % | 8ᵉ / 13 | llm-stats | n.d. |
| APEX-Agents | 33,5 % | 2ᵉ / 5 | llm-stats | Auto-déclaré |
| GDPval-AA | 32,5 % | 28ᵉ / 33 | llm-stats | n.d. |
| MRCR v2 (8-needle) | 26,3 % | 7ᵉ / 10 | llm-stats | Auto-déclaré |
| Legal Agent Benchmark | 0,0 % | 8ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Image-to-Code | 1490 | 9ᵉ |
| Arena Text | 1486 | 7ᵉ |
| Arena Code | 1447 | 27ᵉ |
| Arena Document | 1441 | 16ᵉ |
| Arena Vision | 1280 | 13ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Google Vertex | 2 $ | 12 $ | 0,2 $ |
| artificialanalysis | 2 $ | 12 $ | 0,2 $ |
| 2,5 $ | 15 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Qwen3.7 Max).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 26,43 $ |
| Durée d'exécution — PinchBench | 2 h 50 min |
| Indice valeur/coût — PinchBench | 5,23 |
| Coût moyen par benchmark — Benchable | 0,7 $ |
| Latence moyenne par benchmark — Benchable | 22 min 11 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | United States of America |
Notre analyse
Forces. Gemini 3.1 Pro Preview se distingue d’abord par ses performances générales, avec un Intelligence Index et un Code Index tous deux classés dans le top 10. Les benchmarks Benchable le placent au meilleur niveau sur Hallucinations, Reasoning et Ethics, ce qui signale un profil particulièrement solide sur la fiabilité des réponses, le raisonnement et les garde-fous évalués par ces tests. Le modèle obtient aussi de très bons résultats en Coding, et ses scores Arena sont forts en texte et en image-to-code. Sa fenêtre de contexte de 1 048 576 tokens renforce son intérêt pour les longs documents, les bases de code volumineuses et les analyses multi-sources. Côté prix, son positionnement reste économique, malgré un tarif légèrement supérieur à la moyenne des LLM similaires, et nettement inférieur aux modèles frontière.
Limites et points d'attention. Gemini 3.1 Pro Preview est moins convaincant sur les usages agentiques, où son Agentic Index le place plutôt en retrait que dans le groupe de tête. Les résultats Benchable en General Knowledge et Email Classification sont corrects mais moins différenciants, avec des rangs de milieu de tableau malgré des scores élevés. Arena Code est aussi moins bien classé que ses résultats en texte et en image-to-code, ce qui invite à distinguer génération de code, correction de code et performance en compétition. Le statut Preview implique aussi une lecture prudente des résultats, car le positionnement peut évoluer. Le modèle paraît surtout pertinent pour les usages nécessitant long contexte, raisonnement, rédaction technique et code, avec une contrainte de coût maîtrisée.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).