Google

Gemini 2.5 Flash

Gemini 2.5 Flash est un LLM propriétaire de Google, sorti le 20 mai 2025, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération précédente, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes actuels.

Son positionnement tient surtout à un compromis coût, contexte et performances. La fenêtre de contexte atteint environ 1,0 M de tokens, tandis que le tarif se situe très nettement sous la moyenne des LLM similaires et loin sous celui des modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Licence	Proprietary (poids non ouverts)
Date de sortie	20 mai 2025
Connaissances jusqu'à	2025-01-31
Multimodal	oui
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	14.1	116ᵉ / 136
Math Index	60.3	25ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	86,0 %	127ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	83,0 %	156ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	80,0 %	114ᵉ / 239	benchable	✅ Mesuré
LiveBench: Mathematics	75,4 %	48ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	75,0 %	68ᵉ / 252	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	70,8 %	52ᵉ / 111	epoch	✅ Mesuré
LiveBench: Coding	67,5 %	56ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	65,3 %	53ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	61,0 %	34ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	53,1 %	55ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	51,5 %	58ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	27,7 %	59ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	23,3 %	62ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	4,8 %	47ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	27ᵉ / 55	epoch	✅ Mesuré
Global-MMLU-Lite	88,4 %	3ᵉ / 14	llm-stats	Auto-déclaré
AIME 2024	88,0 %	11ᵉ / 52	llm-stats	Auto-déclaré
FACTS Grounding	85,3 %	2ᵉ / 13	llm-stats	Auto-déclaré
GPQA	82,8 %	56ᵉ / 213	llm-stats	Auto-déclaré
MMMU	79,7 %	13ᵉ / 61	llm-stats	Auto-déclaré
AIME 2025	72,0 %	80ᵉ / 108	llm-stats	Auto-déclaré
Vibe-Eval	65,4 %	3ᵉ / 8	llm-stats	Auto-déclaré
LiveCodeBench v5	63,9 %	2ᵉ / 9	llm-stats	Auto-déclaré
Aider-Polyglot	61,9 %	10ᵉ / 22	llm-stats	Auto-déclaré
SWE-Bench Verified	60,4 %	74ᵉ / 100	llm-stats	Auto-déclaré
Aider-Polyglot Edit	56,7 %	5ᵉ / 10	llm-stats	Auto-déclaré
MRCR	32,0 %	7ᵉ / 7	llm-stats	Auto-déclaré
SimpleQA	26,9 %	27ᵉ / 45	llm-stats	Auto-déclaré
Humanity's Last Exam	11,0 %	74ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Llama 4 Maverick14.3

▶ Gemini 2.5 Flash14.1

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ Gemini 2.5 Flash60.3

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1410	109ᵉ
Arena Vision	1214	52ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
google	0,3 $	2,5 $	n.d.
Google Vertex (EU)	0,3 $	2,5 $	0,03 $

Prix en dollars US par million de tokens.

Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,07 $
Latence moyenne par benchmark — Benchable	4 min 09 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. À sa sortie, Gemini 2.5 Flash figurait dans le haut du panier de sa génération sur GPQA, avec un classement dans le top 8% des LLM comparables de la même période. Les résultats Benchable les plus solides concernent la culture générale et l’éthique, deux catégories où il atteint le top 10, ainsi que la classification d’e-mails, où il reste bien placé. Le Math Index le situe aussi parmi les meilleurs modèles évalués sur cet axe, ce qui indique une capacité de raisonnement mathématique plus convaincante que son rang global sur l’Intelligence Index. Son autre atout concret reste économique : le prix est environ 85% inférieur à la moyenne des LLM similaires et environ 16,1 fois inférieur à celui des modèles frontière.

Limites et points d'attention. Son rang global sur l’Intelligence Index et son Elo Arena text le placent loin des meilleurs modèles du classement, ce qui limite sa pertinence comme référence générale actuelle. Les scores Benchable en mathématiques et en code sont corrects mais nettement moins différenciants que ses meilleurs résultats, avec un positionnement de milieu ou bas de tableau selon les évaluations. Le score Hallucinations reste élevé mais son rang indique une concurrence dense sur ce critère. Les connaissances s’arrêtent au 31 janvier 2025, et l’ancienneté d’environ un an est longue dans ce secteur : ses performances sont aujourd’hui largement dépassées et ce type de modèle est souvent retiré du catalogue de l’éditeur.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Gemini 2.5 Flash

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast