gemini-2.5-pro-preview-03-25

gemini-2.5-pro-preview-03-25 est un LLM de Google référencé dans Benchable avec un profil très solide sur les tests de base. Ses meilleurs signaux concernent l’éthique et les connaissances générales, deux catégories où le modèle atteint le plafond de score observé dans les données…

gemini-2.5-pro-preview-03-25 est un LLM de Google référencé dans Benchable avec un profil très solide sur les tests de base. Ses meilleurs signaux concernent l’éthique et les connaissances générales, deux catégories où le modèle atteint le plafond de score observé dans les données fournies.

La fiche met surtout en évidence un modèle équilibré, capable d’obtenir de très bons résultats en code, en mathématiques, en classification d’e-mails et en réduction des hallucinations. La couverture disponible reste toutefois limitée à une seule source de données concordante.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,8 %63ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,8 %24ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)84,0 %31ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ gemini-2.5-pro-preview-…100 %

Benchable : General Knowledge (Baseline)

Gemini 2.5 Flash100 %
GPT-5100 %
▶ gemini-2.5-pro-preview-…100 %
nemotron-nano-12b-v2-vl100 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable1,04 $
Latence moyenne par benchmark — Benchable29 min 21 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gemini-2.5-pro-preview-03-25 se distingue d’abord sur Ethics (Baseline), où il occupe le tout premier rang du classement Benchable et figure dans le top 10. Le modèle affiche aussi un niveau élevé en Coding (Baseline) et Mathematics (Baseline), deux domaines où son classement le place nettement dans le haut du tableau. General Knowledge (Baseline) confirme une très bonne maîtrise des connaissances générales, même si le rang indique une forte densité de modèles au score maximal ou proche. L’ensemble dessine un LLM polyvalent, avec des résultats particulièrement solides sur les tâches de raisonnement, de programmation et de conformité comportementale.

Limites et points d'attention. Les résultats les moins différenciants concernent Email Classification (Baseline) et Hallucinations (Baseline) : les scores restent élevés, mais les rangs sont plus éloignés des premières places que sur le code, les mathématiques ou l’éthique. Le benchmark Hallucinations montre notamment que la fiabilité factuelle n’est pas son avantage le plus net dans ce corpus. La couverture repose sur une seule source concordante, ce qui limite la robustesse de l’évaluation disponible. gemini-2.5-pro-preview-03-25 apparaît surtout pertinent pour des usages généralistes exigeant un bon niveau en raisonnement, code et mathématiques, avec une attention particulière à la vérification des réponses factuelles.


Sources des données : Benchable.ai (benchable.ai).