Gemini 3 Flash
Gemini 3 Flash est un LLM propriétaire de Google, publié le 17 décembre 2025, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, d’environ 1,0 M de tokens, et un tarif très économique par rapport aux LLM similaires.
Gemini 3 Flash est un LLM propriétaire de Google, publié le 17 décembre 2025, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, d’environ 1,0 M de tokens, et un tarif très économique par rapport aux LLM similaires.
Le modèle se distingue surtout par un profil coût-performance agressif : son prix est indiqué 74% sous la moyenne de sa catégorie et environ 9,7 fois inférieur à celui des modèles frontière. À sa sortie, il se situait dans le top 17% des LLM de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 17 décembre 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image,audio,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 27.4 | 74ᵉ / 136 |
| Math Index | 55.7 | 30ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 92,8 % | 16ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,0 % | 92ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 90,0 % | 111ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 88,0 % | 94ᵉ / 239 | benchable | ✅ Mesuré |
| LiveBench: Language | 84,6 % | 6ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 84,2 % | 25ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: GPQA diamond | 83,2 % | 39ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 83,0 % | 36ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: SWE-Bench verified | 75,4 % | 13ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: IF | 74,9 % | 3ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 74,8 % | 11ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 74,5 % | 31ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 73,9 % | 29ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 72,4 % | 18ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 72,1 % | 24ᵉ / 52 | pinchbench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 67,4 % | 6ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 60,0 % | 12ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 51,2 % | 19ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 40,0 % | 44ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: Chess Puzzles | 38,0 % | 9ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 35,6 % | 14ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 17,1 % | 19ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 27ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| AIME 2025 | 99,7 % | 7ᵉ / 108 | llm-stats | Auto-déclaré |
| Global PIQA | 92,8 % | 2ᵉ / 13 | llm-stats | Auto-déclaré |
| MMMLU | 91,8 % | 3ᵉ / 49 | llm-stats | Auto-déclaré |
| GPQA | 90,4 % | 14ᵉ / 213 | llm-stats | Auto-déclaré |
| t2-bench | 90,2 % | 2ᵉ / 23 | llm-stats | Auto-déclaré |
| VideoMMMU | 86,9 % | 2ᵉ / 26 | llm-stats | Auto-déclaré |
| MMMU-Pro | 81,2 % | 5ᵉ / 60 | llm-stats | Auto-déclaré |
| CharXiv-R | 80,3 % | 16ᵉ / 42 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 78,0 % | 18ᵉ / 100 | llm-stats | Auto-déclaré |
| LiveCodeBench Pro | 77,2 % | 4ᵉ / 4 | llm-stats | Auto-déclaré |
| LiveBench | 72,4 % | 24ᵉ / 38 | llm-stats | n.d. |
| ScreenSpot Pro | 69,1 % | 8ᵉ / 23 | llm-stats | Auto-déclaré |
| SimpleQA | 68,7 % | 7ᵉ / 45 | llm-stats | Auto-déclaré |
| FACTS Grounding | 61,9 % | 10ᵉ / 13 | llm-stats | Auto-déclaré |
| MCP Atlas | 57,4 % | 25ᵉ / 27 | llm-stats | Auto-déclaré |
| Toolathlon | 49,4 % | 8ᵉ / 23 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 47,6 % | 36ᵉ / 48 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 43,5 % | 24ᵉ / 86 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 42,5 % | 13ᵉ / 25 | llm-stats | n.d. |
| ARC-AGI v2 | 33,6 % | 11ᵉ / 16 | llm-stats | Auto-déclaré |
| MRCR v2 (8-needle) | 22,1 % | 9ᵉ / 10 | llm-stats | Auto-déclaré |
| Legal Agent Benchmark | 0,0 % | 8ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1473 | 20ᵉ |
| Arena Image-to-Code | 1447 | 13ᵉ |
| Arena Code | 1437 | 31ᵉ |
| Arena Document | 1413 | 24ᵉ |
| Arena Vision | 1272 | 18ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| 0,5 $ | 3 $ | n.d. | |
| Google Vertex | 0,5 $ | 3 $ | 0,05 $ |
| artificialanalysis | 0,5 $ | 3 $ | 0,05 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 74 % en dessous de la moyenne des LLM similaires, et 9,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 4,99 $ |
| Durée d'exécution — PinchBench | 3 h 17 min |
| Indice valeur/coût — PinchBench | 25,88 |
| Coût moyen par benchmark — Benchable | 0,03 $ |
| Latence moyenne par benchmark — Benchable | 2 min 00 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemini 3 Flash ressort très fortement sur plusieurs évaluations Benchable en conditions baseline, notamment hallucinations, culture générale et éthique, où il apparaît dans le tout premier groupe du classement. Son niveau en mathématiques est également solide sur OTIS Mock AIME 2024-2025, un test d’olympiades de mathématiques de niveau lycée, avec un résultat parmi les meilleurs modèles évalués. Les classements Arena confirment un profil compétitif en texte, en image-to-code et en code, sans le placer uniquement comme modèle généraliste bon marché. La fenêtre de contexte d’environ 1,0 M de tokens constitue aussi un atout concret pour traiter de longs documents ou de grands volumes d’échanges.
Limites et points d'attention. L’Intelligence Index le situe plutôt en milieu de tableau, ce qui nuance ses très bons résultats sur certains benchmarks ciblés. La classification d’e-mails apparaît nettement moins différenciante que ses scores en connaissance générale, en éthique ou en mathématiques. La licence propriétaire et les poids fermés limitent l’audit indépendant et les usages nécessitant un contrôle complet du modèle. Ses connaissances s’arrêtent au 31 janvier 2025, point important pour les sujets récents. Gemini 3 Flash vise surtout les usages où le coût, le long contexte et de bons résultats généralistes priment sur l’accès aux poids ou la recherche du meilleur niveau absolu.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).