Gemini 2.5 Pro Preview 06-05

Gemini 2.5 Pro Preview 06-05 est un LLM propriétaire de Google, publié le 5 juin 2025, avec des poids non ouverts. À environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à lire surtout comme un modèle marquant de sa période plutôt que comme une…

Gemini 2.5 Pro Preview 06-05 est un LLM propriétaire de Google, publié le 5 juin 2025, avec des poids non ouverts. À environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à lire surtout comme un modèle marquant de sa période plutôt que comme une référence actuelle.

Son trait le plus distinctif reste sa très grande fenêtre de contexte, autour de 1,0 M de tokens, associée à un positionnement tarifaire économique. Le modèle était 36% moins cher que la moyenne des LLM similaires et nettement sous les modèles frontière, avec des données concordantes issues de trois sources.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceProprietary (poids non ouverts)
Date de sortie5 juin 2025
Connaissances jusqu'à2025-01-31
Multimodaloui
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)88,0 %16ᵉ / 252benchable✅ Mesuré
Global-MMLU-Lite89,2 %1ᵉ / 14llm-statsAuto-déclaré
AIME 202588,0 %47ᵉ / 108llm-statsAuto-déclaré
FACTS Grounding87,8 %1ᵉ / 13llm-statsAuto-déclaré
GPQA86,4 %34ᵉ / 213llm-statsAuto-déclaré
VideoMMMU83,6 %12ᵉ / 26llm-statsAuto-déclaré
Aider-Polyglot82,2 %2ᵉ / 22llm-statsAuto-déclaré
MMMU82,0 %9ᵉ / 61llm-statsAuto-déclaré
LiveCodeBench69,0 %23ᵉ / 72llm-statsAuto-déclaré
SWE-Bench Verified67,2 %66ᵉ / 100llm-statsAuto-déclaré
Vibe-Eval67,2 %1ᵉ / 8llm-statsAuto-déclaré
SimpleQA54,0 %12ᵉ / 45llm-statsAuto-déclaré
Humanity's Last Exam21,6 %51ᵉ / 86llm-statsAuto-déclaré
MRCR v2 (8-needle)16,4 %10ᵉ / 10llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Gemini 2.5 Pro Preview …100 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ Gemini 2.5 Pro Preview …100 %
Llama 3.3 70B Instruct98 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Google Vertex1,25 $10 $0,125 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable1,33 $
Latence moyenne par benchmark — Benchable24 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. À sa sortie, Gemini 2.5 Pro Preview 06-05 figurait dans le haut du panier de sa génération, notamment avec un classement top 3% sur GPQA parmi les LLM de la même période. Les résultats Benchable indiquent un profil solide sur l’éthique, où il atteint le tout premier rang, ainsi que sur le codage et le suivi d’instructions, deux domaines où il se place nettement dans la partie haute du classement. Sa grande fenêtre de contexte en faisait aussi un modèle adapté aux entrées longues, documents volumineux ou chaînes d’instructions étendues, dans les limites des capacités connues à sa sortie.

Limites et points d'attention. Son ancienneté est le principal point faible : un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par des modèles plus récents. Cette version Preview est aussi à considérer comme potentiellement retirée ou remplacée dans le catalogue de Google. Les résultats en General Knowledge et Email Classification restent élevés en score brut, mais leur rang relatif les place davantage en milieu de tableau qu’au sommet. La licence propriétaire limite enfin l’audit, la réutilisation des poids et l’hébergement autonome.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).