Google

Gemini 2.5 Pro Preview 06-05

Gemini 2.5 Pro Preview 06-05 est un LLM propriétaire de Google, publié le 5 juin 2025, avec des poids non ouverts. À environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à lire surtout comme un modèle marquant de sa période plutôt que comme une…

Son trait le plus distinctif reste sa très grande fenêtre de contexte, autour de 1,0 M de tokens, associée à un positionnement tarifaire économique. Le modèle était 36% moins cher que la moyenne des LLM similaires et nettement sous les modèles frontière, avec des données concordantes issues de trois sources.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Licence	Proprietary (poids non ouverts)
Date de sortie	5 juin 2025
Connaissances jusqu'à	2025-01-31
Multimodal	oui
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	88,0 %	16ᵉ / 252	benchable	✅ Mesuré
Global-MMLU-Lite	89,2 %	1ᵉ / 14	llm-stats	Auto-déclaré
AIME 2025	88,0 %	47ᵉ / 108	llm-stats	Auto-déclaré
FACTS Grounding	87,8 %	1ᵉ / 13	llm-stats	Auto-déclaré
GPQA	86,4 %	34ᵉ / 213	llm-stats	Auto-déclaré
VideoMMMU	83,6 %	12ᵉ / 26	llm-stats	Auto-déclaré
Aider-Polyglot	82,2 %	2ᵉ / 22	llm-stats	Auto-déclaré
MMMU	82,0 %	9ᵉ / 61	llm-stats	Auto-déclaré
LiveCodeBench	69,0 %	23ᵉ / 72	llm-stats	Auto-déclaré
SWE-Bench Verified	67,2 %	66ᵉ / 100	llm-stats	Auto-déclaré
Vibe-Eval	67,2 %	1ᵉ / 8	llm-stats	Auto-déclaré
SimpleQA	54,0 %	12ᵉ / 45	llm-stats	Auto-déclaré
Humanity's Last Exam	21,6 %	51ᵉ / 86	llm-stats	Auto-déclaré
MRCR v2 (8-needle)	16,4 %	10ᵉ / 10	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Gemini 2.5 Pro Preview …100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ Gemini 2.5 Pro Preview …100 %

Llama 3.3 70B Instruct98 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Google Vertex	1,25 $	10 $	0,125 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	1,33 $
Latence moyenne par benchmark — Benchable	24 min 59 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. À sa sortie, Gemini 2.5 Pro Preview 06-05 figurait dans le haut du panier de sa génération, notamment avec un classement top 3% sur GPQA parmi les LLM de la même période. Les résultats Benchable indiquent un profil solide sur l’éthique, où il atteint le tout premier rang, ainsi que sur le codage et le suivi d’instructions, deux domaines où il se place nettement dans la partie haute du classement. Sa grande fenêtre de contexte en faisait aussi un modèle adapté aux entrées longues, documents volumineux ou chaînes d’instructions étendues, dans les limites des capacités connues à sa sortie.

Limites et points d'attention. Son ancienneté est le principal point faible : un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par des modèles plus récents. Cette version Preview est aussi à considérer comme potentiellement retirée ou remplacée dans le catalogue de Google. Les résultats en General Knowledge et Email Classification restent élevés en score brut, mais leur rang relatif les place davantage en milieu de tableau qu’au sommet. La licence propriétaire limite enfin l’audit, la réutilisation des poids et l’hébergement autonome.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Gemini 2.5 Pro Preview 06-05

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast