Google

Gemini 2.5 Pro

Gemini 2.5 Pro est un LLM propriétaire de Google, sorti le 20 mai 2025, avec des poids non ouverts et des connaissances arrêtées au 31 janvier 2025. À l’échelle de l’IA générative, son ancienneté d’environ un an le place déjà dans une génération précédente, à comparer surtout aux modèles…

Son profil combine une très grande fenêtre de contexte, proche de 1,0 M de tokens, un positionnement tarifaire économique et des résultats historiques solides en raisonnement. À sa sortie, il figurait dans le top 1% de sa génération sur GPQA diamond, ce qui en faisait alors un modèle particulièrement compétitif pour les tâches exigeantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Licence	Proprietary (poids non ouverts)
Date de sortie	20 mai 2025
Connaissances jusqu'à	2025-01-31
Multimodal	oui
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	25.8	76ᵉ / 136
Code Index	33.3	42ᵉ / 50
Agentic Index	7.1	38ᵉ / 42
Math Index	87.7	12ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,0 %	113ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	97,0 %	6ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,8 %	39ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	94,0 %	61ᵉ / 239	benchable	✅ Mesuré
Epoch: GPQA diamond	85,3 %	29ᵉ / 132	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	85,0 %	27ᵉ / 252	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	84,7 %	37ᵉ / 111	epoch	✅ Mesuré
LiveBench: Coding	75,7 %	23ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	75,5 %	30ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	70,8 %	36ᵉ / 76	livebench	✅ Mesuré
LiveBench: Mathematics	68,3 %	58ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	58,3 %	49ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	57,6 %	30ᵉ / 32	epoch	✅ Mesuré
Epoch: SimpleQA Verified	56,0 %	13ᵉ / 52	epoch	✅ Mesuré
LiveBench: Data Analysis	51,6 %	49ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	40,0 %	20ᵉ / 64	epoch	✅ Mesuré
LiveBench: Agentic Coding	33,3 %	52ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	33,1 %	53ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	24,6 %	27ᵉ / 31	epoch	✅ Mesuré
Epoch: Chess Puzzles	20,0 %	22ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	14,1 %	35ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	4,2 %	27ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	0,0 %	31ᵉ / 32	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
MRCR	93,0 %	1ᵉ / 7	llm-stats	Auto-déclaré
AIME 2024	92,0 %	5ᵉ / 52	llm-stats	Auto-déclaré
Global-MMLU-Lite	88,6 %	2ᵉ / 14	llm-stats	Auto-déclaré
Video-MME	84,8 %	7ᵉ / 17	llm-stats	Auto-déclaré
AIME 2025	83,0 %	60ᵉ / 108	llm-stats	Auto-déclaré
GPQA	83,0 %	55ᵉ / 213	llm-stats	Auto-déclaré
MMMU	79,6 %	14ᵉ / 61	llm-stats	Auto-déclaré
Aider-Polyglot	76,5 %	4ᵉ / 22	llm-stats	Auto-déclaré
LiveCodeBench v5	75,6 %	1ᵉ / 9	llm-stats	Auto-déclaré
Aider-Polyglot Edit	72,7 %	2ᵉ / 10	llm-stats	Auto-déclaré
Vibe-Eval	65,6 %	2ᵉ / 8	llm-stats	Auto-déclaré
SWE-Bench Verified	63,2 %	72ᵉ / 100	llm-stats	Auto-déclaré
SimpleQA	50,8 %	14ᵉ / 45	llm-stats	Auto-déclaré
Humanity's Last Exam	17,8 %	57ᵉ / 86	llm-stats	Auto-déclaré
ARC-AGI v2	4,9 %	16ᵉ / 16	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Gemini 2.5 Pro25.8

Nova 2.0 Pro Preview21.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Nova 2.0 Pro Preview34.0

▶ Gemini 2.5 Pro33.3

Llama 4 Maverick16.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1446	54ᵉ
Arena Document	1420	21ᵉ
Arena Image-to-Code	1276	23ᵉ
Arena Vision	1246	31ᵉ
Arena Code	1204	84ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
google	1,25 $	10 $	n.d.
Google Vertex (Global)	1,25 $	10 $	0,125 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	1,19 $
Latence moyenne par benchmark — Benchable	28 min 11 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemini 2.5 Pro ressort surtout par ses capacités mathématiques et son niveau initial en raisonnement avancé. Son Math Index le place dans le haut du classement, et son résultat sur GPQA diamond indique qu’à sa sortie il appartenait au tout premier rang des LLM de sa période. Les évaluations Benchable confirment aussi de très bons scores en Ethics (Baseline), Coding (Baseline), Mathematics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), avec une place particulièrement forte en Coding (Baseline). Sa fenêtre de contexte de 1 048 576 tokens reste un élément structurant pour l’analyse de longs documents ou de corpus volumineux. Son prix est un autre point fort concret : il est classé économique, 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière.

Limites et points d'attention. Gemini 2.5 Pro doit être lu comme un modèle de génération 2025, pas comme une référence actuelle. Son Intelligence Index se situe hors du peloton de tête, son Code Index est faible dans son groupe malgré un bon score Benchable en coding, et son Agentic Index figure parmi ses limites les plus nettes. Les classements Arena en texte, document et image-to-code montrent un modèle compétent mais pas dominant. Son ancienneté est déterminante : un an représente un cycle long dans l’IA, ses performances sont probablement largement dépassées aujourd’hui et ce type de version est souvent retiré du catalogue de l’éditeur. L’absence d’ouverture des poids limite aussi l’audit indépendant et la réutilisation hors écosystème propriétaire.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Gemini 2.5 Pro

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast