Gemini 3 Flash

Gemini 3 Flash est un LLM propriétaire de Google, publié le 17 décembre 2025, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, d’environ 1,0 M de tokens, et un tarif très économique par rapport aux LLM similaires.

Gemini 3 Flash est un LLM propriétaire de Google, publié le 17 décembre 2025, avec des poids non ouverts. Son positionnement combine une très grande fenêtre de contexte, d’environ 1,0 M de tokens, et un tarif très économique par rapport aux LLM similaires.

Le modèle se distingue surtout par un profil coût-performance agressif : son prix est indiqué 74% sous la moyenne de sa catégorie et environ 9,7 fois inférieur à celui des modèles frontière. À sa sortie, il se situait dans le top 17% des LLM de sa génération sur GPQA diamond.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceProprietary (poids non ouverts)
Date de sortie17 décembre 2025
Connaissances jusqu'à2025-01-31
Multimodaloui
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image,audio,video → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index27.474ᵉ / 136
Math Index55.730ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202592,8 %16ᵉ / 111epoch✅ Mesuré
Benchable : Mathematics (Baseline)92,0 %92ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)90,0 %111ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)88,0 %94ᵉ / 239benchable✅ Mesuré
LiveBench: Language84,6 %6ᵉ / 76livebench✅ Mesuré
LiveBench: Mathematics84,2 %25ᵉ / 76livebench✅ Mesuré
Epoch: GPQA diamond83,2 %39ᵉ / 132epoch✅ Mesuré
Benchable : Instruction Following (Baseline)83,0 %36ᵉ / 252benchable✅ Mesuré
Epoch: SWE-Bench verified75,4 %13ᵉ / 32epoch✅ Mesuré
LiveBench: IF74,9 %3ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis74,8 %11ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning74,5 %31ᵉ / 76livebench✅ Mesuré
LiveBench: Coding73,9 %29ᵉ / 76livebench✅ Mesuré
LiveBench: Global average72,4 %18ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)72,1 %24ᵉ / 52pinchbench✅ Mesuré
Epoch: SimpleQA Verified67,4 %6ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public60,0 %12ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private51,2 %19ᵉ / 31epoch✅ Mesuré
LiveBench: Agentic Coding40,0 %44ᵉ / 76livebench✅ Mesuré
Epoch: Chess Puzzles38,0 %9ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private35,6 %14ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private17,1 %19ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private4,2 %27ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
AIME 202599,7 %7ᵉ / 108llm-statsAuto-déclaré
Global PIQA92,8 %2ᵉ / 13llm-statsAuto-déclaré
MMMLU91,8 %3ᵉ / 49llm-statsAuto-déclaré
GPQA90,4 %14ᵉ / 213llm-statsAuto-déclaré
t2-bench90,2 %2ᵉ / 23llm-statsAuto-déclaré
VideoMMMU86,9 %2ᵉ / 26llm-statsAuto-déclaré
MMMU-Pro81,2 %5ᵉ / 60llm-statsAuto-déclaré
CharXiv-R80,3 %16ᵉ / 42llm-statsAuto-déclaré
SWE-Bench Verified78,0 %18ᵉ / 100llm-statsAuto-déclaré
LiveCodeBench Pro77,2 %4ᵉ / 4llm-statsAuto-déclaré
LiveBench72,4 %24ᵉ / 38llm-statsn.d.
ScreenSpot Pro69,1 %8ᵉ / 23llm-statsAuto-déclaré
SimpleQA68,7 %7ᵉ / 45llm-statsAuto-déclaré
FACTS Grounding61,9 %10ᵉ / 13llm-statsAuto-déclaré
MCP Atlas57,4 %25ᵉ / 27llm-statsAuto-déclaré
Toolathlon49,4 %8ᵉ / 23llm-statsAuto-déclaré
Terminal-Bench 2.047,6 %36ᵉ / 48llm-statsAuto-déclaré
Humanity's Last Exam43,5 %24ᵉ / 86llm-statsAuto-déclaré
Finance Agent v242,5 %13ᵉ / 25llm-statsn.d.
ARC-AGI v233,6 %11ᵉ / 16llm-statsAuto-déclaré
MRCR v2 (8-needle)22,1 %9ᵉ / 10llm-statsAuto-déclaré
Legal Agent Benchmark0,0 %8ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Mistral Medium 3.529.9
▶ Gemini 3 Flash27.4
Nova 2.0 Pro Preview21.8

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
Qwen3-235B-A22B-Instruc…71.7
▶ Gemini 3 Flash55.7
Llama 4 Maverick19.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text147320ᵉ
Arena Image-to-Code144713ᵉ
Arena Code143731ᵉ
Arena Document141324ᵉ
Arena Vision127218ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
google0,5 $3 $n.d.
Google Vertex0,5 $3 $0,05 $
artificialanalysis0,5 $3 $0,05 $

Prix en dollars US par million de tokens.

Sa tarification se situe 74 % en dessous de la moyenne des LLM similaires, et 9,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)4,99 $
Durée d'exécution — PinchBench3 h 17 min
Indice valeur/coût — PinchBench25,88
Coût moyen par benchmark — Benchable0,03 $
Latence moyenne par benchmark — Benchable2 min 00 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemini 3 Flash ressort très fortement sur plusieurs évaluations Benchable en conditions baseline, notamment hallucinations, culture générale et éthique, où il apparaît dans le tout premier groupe du classement. Son niveau en mathématiques est également solide sur OTIS Mock AIME 2024-2025, un test d’olympiades de mathématiques de niveau lycée, avec un résultat parmi les meilleurs modèles évalués. Les classements Arena confirment un profil compétitif en texte, en image-to-code et en code, sans le placer uniquement comme modèle généraliste bon marché. La fenêtre de contexte d’environ 1,0 M de tokens constitue aussi un atout concret pour traiter de longs documents ou de grands volumes d’échanges.

Limites et points d'attention. L’Intelligence Index le situe plutôt en milieu de tableau, ce qui nuance ses très bons résultats sur certains benchmarks ciblés. La classification d’e-mails apparaît nettement moins différenciante que ses scores en connaissance générale, en éthique ou en mathématiques. La licence propriétaire et les poids fermés limitent l’audit indépendant et les usages nécessitant un contrôle complet du modèle. Ses connaissances s’arrêtent au 31 janvier 2025, point important pour les sujets récents. Gemini 3 Flash vise surtout les usages où le coût, le long contexte et de bons résultats généralistes priment sur l’accès aux poids ou la recherche du meilleur niveau absolu.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).