Gemini 2.5 Pro

Gemini 2.5 Pro est un LLM propriétaire de Google, sorti le 20 mai 2025, avec des poids non ouverts et des connaissances arrêtées au 31 janvier 2025. À l’échelle de l’IA générative, son ancienneté d’environ un an le place déjà dans une génération précédente, à comparer surtout aux modèles…

Gemini 2.5 Pro est un LLM propriétaire de Google, sorti le 20 mai 2025, avec des poids non ouverts et des connaissances arrêtées au 31 janvier 2025. À l’échelle de l’IA générative, son ancienneté d’environ un an le place déjà dans une génération précédente, à comparer surtout aux modèles disponibles au moment de sa sortie.

Son profil combine une très grande fenêtre de contexte, proche de 1,0 M de tokens, un positionnement tarifaire économique et des résultats historiques solides en raisonnement. À sa sortie, il figurait dans le top 1% de sa génération sur GPQA diamond, ce qui en faisait alors un modèle particulièrement compétitif pour les tâches exigeantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceProprietary (poids non ouverts)
Date de sortie20 mai 2025
Connaissances jusqu'à2025-01-31
Multimodaloui
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index25.876ᵉ / 136
Code Index33.342ᵉ / 50
Agentic Index7.138ᵉ / 42
Math Index87.712ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,0 %113ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)97,0 %6ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,8 %39ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)94,0 %61ᵉ / 239benchable✅ Mesuré
Epoch: GPQA diamond85,3 %29ᵉ / 132epoch✅ Mesuré
Benchable : Instruction Following (Baseline)85,0 %27ᵉ / 252benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202584,7 %37ᵉ / 111epoch✅ Mesuré
LiveBench: Coding75,7 %23ᵉ / 76livebench✅ Mesuré
LiveBench: Language75,5 %30ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning70,8 %36ᵉ / 76livebench✅ Mesuré
LiveBench: Mathematics68,3 %58ᵉ / 76livebench✅ Mesuré
LiveBench: Global average58,3 %49ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified57,6 %30ᵉ / 32epoch✅ Mesuré
Epoch: SimpleQA Verified56,0 %13ᵉ / 52epoch✅ Mesuré
LiveBench: Data Analysis51,6 %49ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public40,0 %20ᵉ / 64epoch✅ Mesuré
LiveBench: Agentic Coding33,3 %52ᵉ / 76livebench✅ Mesuré
LiveBench: IF33,1 %53ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private24,6 %27ᵉ / 31epoch✅ Mesuré
Epoch: Chess Puzzles20,0 %22ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private14,1 %35ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private4,2 %27ᵉ / 55epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private0,0 %31ᵉ / 32epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public0,0 %3ᵉ / 36epoch✅ Mesuré
MRCR93,0 %1ᵉ / 7llm-statsAuto-déclaré
AIME 202492,0 %5ᵉ / 52llm-statsAuto-déclaré
Global-MMLU-Lite88,6 %2ᵉ / 14llm-statsAuto-déclaré
Video-MME84,8 %7ᵉ / 17llm-statsAuto-déclaré
AIME 202583,0 %60ᵉ / 108llm-statsAuto-déclaré
GPQA83,0 %55ᵉ / 213llm-statsAuto-déclaré
MMMU79,6 %14ᵉ / 61llm-statsAuto-déclaré
Aider-Polyglot76,5 %4ᵉ / 22llm-statsAuto-déclaré
LiveCodeBench v575,6 %1ᵉ / 9llm-statsAuto-déclaré
Aider-Polyglot Edit72,7 %2ᵉ / 10llm-statsAuto-déclaré
Vibe-Eval65,6 %2ᵉ / 8llm-statsAuto-déclaré
SWE-Bench Verified63,2 %72ᵉ / 100llm-statsAuto-déclaré
SimpleQA50,8 %14ᵉ / 45llm-statsAuto-déclaré
Humanity's Last Exam17,8 %57ᵉ / 86llm-statsAuto-déclaré
ARC-AGI v24,9 %16ᵉ / 16llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Gemini 3.1 Pro Preview46.5
Mistral Medium 3.529.9
▶ Gemini 2.5 Pro25.8
Nova 2.0 Pro Preview21.8

Code Index

GPT-5.471.1
Gemini 3.5 Flash70.1
Nova 2.0 Pro Preview34.0
▶ Gemini 2.5 Pro33.3
Llama 4 Maverick16.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text144654ᵉ
Arena Document142021ᵉ
Arena Image-to-Code127623ᵉ
Arena Vision124631ᵉ
Arena Code120484ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
google1,25 $10 $n.d.
Google Vertex (Global)1,25 $10 $0,125 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable1,19 $
Latence moyenne par benchmark — Benchable28 min 11 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemini 2.5 Pro ressort surtout par ses capacités mathématiques et son niveau initial en raisonnement avancé. Son Math Index le place dans le haut du classement, et son résultat sur GPQA diamond indique qu’à sa sortie il appartenait au tout premier rang des LLM de sa période. Les évaluations Benchable confirment aussi de très bons scores en Ethics (Baseline), Coding (Baseline), Mathematics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), avec une place particulièrement forte en Coding (Baseline). Sa fenêtre de contexte de 1 048 576 tokens reste un élément structurant pour l’analyse de longs documents ou de corpus volumineux. Son prix est un autre point fort concret : il est classé économique, 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière.

Limites et points d'attention. Gemini 2.5 Pro doit être lu comme un modèle de génération 2025, pas comme une référence actuelle. Son Intelligence Index se situe hors du peloton de tête, son Code Index est faible dans son groupe malgré un bon score Benchable en coding, et son Agentic Index figure parmi ses limites les plus nettes. Les classements Arena en texte, document et image-to-code montrent un modèle compétent mais pas dominant. Son ancienneté est déterminante : un an représente un cycle long dans l’IA, ses performances sont probablement largement dépassées aujourd’hui et ce type de version est souvent retiré du catalogue de l’éditeur. L’absence d’ouverture des poids limite aussi l’audit indépendant et la réutilisation hors écosystème propriétaire.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).