Gemini 2.5 Pro Preview 06-05
Gemini 2.5 Pro Preview 06-05 est un LLM propriétaire de Google, publié le 5 juin 2025, avec des poids non ouverts. À environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à lire surtout comme un modèle marquant de sa période plutôt que comme une…
Gemini 2.5 Pro Preview 06-05 est un LLM propriétaire de Google, publié le 5 juin 2025, avec des poids non ouverts. À environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à lire surtout comme un modèle marquant de sa période plutôt que comme une référence actuelle.
Son trait le plus distinctif reste sa très grande fenêtre de contexte, autour de 1,0 M de tokens, associée à un positionnement tarifaire économique. Le modèle était 36% moins cher que la moyenne des LLM similaires et nettement sous les modèles frontière, avec des données concordantes issues de trois sources.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 5 juin 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | oui |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 88,0 % | 16ᵉ / 252 | benchable | ✅ Mesuré |
| Global-MMLU-Lite | 89,2 % | 1ᵉ / 14 | llm-stats | Auto-déclaré |
| AIME 2025 | 88,0 % | 47ᵉ / 108 | llm-stats | Auto-déclaré |
| FACTS Grounding | 87,8 % | 1ᵉ / 13 | llm-stats | Auto-déclaré |
| GPQA | 86,4 % | 34ᵉ / 213 | llm-stats | Auto-déclaré |
| VideoMMMU | 83,6 % | 12ᵉ / 26 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 82,2 % | 2ᵉ / 22 | llm-stats | Auto-déclaré |
| MMMU | 82,0 % | 9ᵉ / 61 | llm-stats | Auto-déclaré |
| LiveCodeBench | 69,0 % | 23ᵉ / 72 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 67,2 % | 66ᵉ / 100 | llm-stats | Auto-déclaré |
| Vibe-Eval | 67,2 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| SimpleQA | 54,0 % | 12ᵉ / 45 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 21,6 % | 51ᵉ / 86 | llm-stats | Auto-déclaré |
| MRCR v2 (8-needle) | 16,4 % | 10ᵉ / 10 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Google Vertex | 1,25 $ | 10 $ | 0,125 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 1,33 $ |
| Latence moyenne par benchmark — Benchable | 24 min 59 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. À sa sortie, Gemini 2.5 Pro Preview 06-05 figurait dans le haut du panier de sa génération, notamment avec un classement top 3% sur GPQA parmi les LLM de la même période. Les résultats Benchable indiquent un profil solide sur l’éthique, où il atteint le tout premier rang, ainsi que sur le codage et le suivi d’instructions, deux domaines où il se place nettement dans la partie haute du classement. Sa grande fenêtre de contexte en faisait aussi un modèle adapté aux entrées longues, documents volumineux ou chaînes d’instructions étendues, dans les limites des capacités connues à sa sortie.
Limites et points d'attention. Son ancienneté est le principal point faible : un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par des modèles plus récents. Cette version Preview est aussi à considérer comme potentiellement retirée ou remplacée dans le catalogue de Google. Les résultats en General Knowledge et Email Classification restent élevés en score brut, mais leur rang relatif les place davantage en milieu de tableau qu’au sommet. La licence propriétaire limite enfin l’audit, la réutilisation des poids et l’hébergement autonome.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).