Gemini 2.5 Pro
Gemini 2.5 Pro est un LLM propriétaire de Google, sorti le 20 mai 2025, avec des poids non ouverts et des connaissances arrêtées au 31 janvier 2025. À l’échelle de l’IA générative, son ancienneté d’environ un an le place déjà dans une génération précédente, à comparer surtout aux modèles…
Gemini 2.5 Pro est un LLM propriétaire de Google, sorti le 20 mai 2025, avec des poids non ouverts et des connaissances arrêtées au 31 janvier 2025. À l’échelle de l’IA générative, son ancienneté d’environ un an le place déjà dans une génération précédente, à comparer surtout aux modèles disponibles au moment de sa sortie.
Son profil combine une très grande fenêtre de contexte, proche de 1,0 M de tokens, un positionnement tarifaire économique et des résultats historiques solides en raisonnement. À sa sortie, il figurait dans le top 1% de sa génération sur GPQA diamond, ce qui en faisait alors un modèle particulièrement compétitif pour les tâches exigeantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 20 mai 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 25.8 | 76ᵉ / 136 |
| Code Index | 33.3 | 42ᵉ / 50 |
| Agentic Index | 7.1 | 38ᵉ / 42 |
| Math Index | 87.7 | 12ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 97,0 % | 6ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,8 % | 39ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 94,0 % | 61ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 85,3 % | 29ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 85,0 % | 27ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 84,7 % | 37ᵉ / 111 | epoch | ✅ Mesuré |
| LiveBench: Coding | 75,7 % | 23ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 75,5 % | 30ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 70,8 % | 36ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Mathematics | 68,3 % | 58ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 58,3 % | 49ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 57,6 % | 30ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 56,0 % | 13ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: Data Analysis | 51,6 % | 49ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 40,0 % | 20ᵉ / 64 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 33,3 % | 52ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 33,1 % | 53ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 24,6 % | 27ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 20,0 % | 22ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 14,1 % | 35ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 4,2 % | 27ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 0,0 % | 31ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| MRCR | 93,0 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
| AIME 2024 | 92,0 % | 5ᵉ / 52 | llm-stats | Auto-déclaré |
| Global-MMLU-Lite | 88,6 % | 2ᵉ / 14 | llm-stats | Auto-déclaré |
| Video-MME | 84,8 % | 7ᵉ / 17 | llm-stats | Auto-déclaré |
| AIME 2025 | 83,0 % | 60ᵉ / 108 | llm-stats | Auto-déclaré |
| GPQA | 83,0 % | 55ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMU | 79,6 % | 14ᵉ / 61 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 76,5 % | 4ᵉ / 22 | llm-stats | Auto-déclaré |
| LiveCodeBench v5 | 75,6 % | 1ᵉ / 9 | llm-stats | Auto-déclaré |
| Aider-Polyglot Edit | 72,7 % | 2ᵉ / 10 | llm-stats | Auto-déclaré |
| Vibe-Eval | 65,6 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 63,2 % | 72ᵉ / 100 | llm-stats | Auto-déclaré |
| SimpleQA | 50,8 % | 14ᵉ / 45 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 17,8 % | 57ᵉ / 86 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 4,9 % | 16ᵉ / 16 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1446 | 54ᵉ |
| Arena Document | 1420 | 21ᵉ |
| Arena Image-to-Code | 1276 | 23ᵉ |
| Arena Vision | 1246 | 31ᵉ |
| Arena Code | 1204 | 84ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| 1,25 $ | 10 $ | n.d. | |
| Google Vertex (Global) | 1,25 $ | 10 $ | 0,125 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 1,19 $ |
| Latence moyenne par benchmark — Benchable | 28 min 11 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemini 2.5 Pro ressort surtout par ses capacités mathématiques et son niveau initial en raisonnement avancé. Son Math Index le place dans le haut du classement, et son résultat sur GPQA diamond indique qu’à sa sortie il appartenait au tout premier rang des LLM de sa période. Les évaluations Benchable confirment aussi de très bons scores en Ethics (Baseline), Coding (Baseline), Mathematics (Baseline), Email Classification (Baseline) et General Knowledge (Baseline), avec une place particulièrement forte en Coding (Baseline). Sa fenêtre de contexte de 1 048 576 tokens reste un élément structurant pour l’analyse de longs documents ou de corpus volumineux. Son prix est un autre point fort concret : il est classé économique, 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière.
Limites et points d'attention. Gemini 2.5 Pro doit être lu comme un modèle de génération 2025, pas comme une référence actuelle. Son Intelligence Index se situe hors du peloton de tête, son Code Index est faible dans son groupe malgré un bon score Benchable en coding, et son Agentic Index figure parmi ses limites les plus nettes. Les classements Arena en texte, document et image-to-code montrent un modèle compétent mais pas dominant. Son ancienneté est déterminante : un an représente un cycle long dans l’IA, ses performances sont probablement largement dépassées aujourd’hui et ce type de version est souvent retiré du catalogue de l’éditeur. L’absence d’ouverture des poids limite aussi l’audit indépendant et la réutilisation hors écosystème propriétaire.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).