Google

gemini-2.5-pro-preview-03-25

gemini-2.5-pro-preview-03-25 est un LLM de Google référencé dans Benchable avec un profil très solide sur les tests de base. Ses meilleurs signaux concernent l’éthique et les connaissances générales, deux catégories où le modèle atteint le plafond de score observé dans les données…

La fiche met surtout en évidence un modèle équilibré, capable d’obtenir de très bons résultats en code, en mathématiques, en classification d’e-mails et en réduction des hallucinations. La couverture disponible reste toutefois limitée à une seule source de données concordante.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,8 %	63ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,8 %	24ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	84,0 %	31ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ gemini-2.5-pro-preview-…100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

DeepSeek R1 Distill Lla…100 %

▶ gemini-2.5-pro-preview-…100 %

nemotron-nano-12b-v2-vl100 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	1,04 $
Latence moyenne par benchmark — Benchable	29 min 21 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gemini-2.5-pro-preview-03-25 se distingue d’abord sur Ethics (Baseline), où il occupe le tout premier rang du classement Benchable et figure dans le top 10. Le modèle affiche aussi un niveau élevé en Coding (Baseline) et Mathematics (Baseline), deux domaines où son classement le place nettement dans le haut du tableau. General Knowledge (Baseline) confirme une très bonne maîtrise des connaissances générales, même si le rang indique une forte densité de modèles au score maximal ou proche. L’ensemble dessine un LLM polyvalent, avec des résultats particulièrement solides sur les tâches de raisonnement, de programmation et de conformité comportementale.

Limites et points d'attention. Les résultats les moins différenciants concernent Email Classification (Baseline) et Hallucinations (Baseline) : les scores restent élevés, mais les rangs sont plus éloignés des premières places que sur le code, les mathématiques ou l’éthique. Le benchmark Hallucinations montre notamment que la fiabilité factuelle n’est pas son avantage le plus net dans ce corpus. La couverture repose sur une seule source concordante, ce qui limite la robustesse de l’évaluation disponible. gemini-2.5-pro-preview-03-25 apparaît surtout pertinent pour des usages généralistes exigeant un bon niveau en raisonnement, code et mathématiques, avec une attention particulière à la vérification des réponses factuelles.

Sources des données : Benchable.ai (benchable.ai).

gemini-2.5-pro-preview-03-25

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast