Google: Gemini 3.1 Pro Preview Custom Tools

Google: Gemini 3.1 Pro Preview Custom Tools est un LLM de Google sorti le 25 février 2026, positionné sur une combinaison rare : grande fenêtre de contexte, tarifs économiques et résultats Benchable élevés sur plusieurs tâches de base. Sa fenêtre d’environ 1,0 M de tokens le place dans…

Google: Gemini 3.1 Pro Preview Custom Tools est un LLM de Google sorti le 25 février 2026, positionné sur une combinaison rare : grande fenêtre de contexte, tarifs économiques et résultats Benchable élevés sur plusieurs tâches de base. Sa fenêtre d’environ 1,0 M de tokens le place dans la catégorie des modèles capables d’accepter des entrées très longues.

La fiche repose sur deux sources de données concordantes. Le modèle se distingue surtout par des scores Benchable au plus haut niveau en hallucinations, raisonnement et éthique, tout en conservant un prix d’entrée bas par rapport aux modèles haut de gamme.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
Date de sortie25 février 2026
Multimodaloui
Fenêtre de contexte1 048 756 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,audio,image,video,file → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)96,9 %10ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,9 %22ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)94,9 %8ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ Gemini 3.1 Pro …100 %
Nemotron Nano 9B v298 %

Benchable : Reasoning (Baseline)

GPT-5.5100 %
qwen3-32b-04-28100 %
▶ Gemini 3.1 Pro …100 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Google AI Studio2 $12 $0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,73 $
Latence moyenne par benchmark — Benchable19 min 28 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Google: Gemini 3.1 Pro Preview Custom Tools atteint le meilleur niveau Benchable en Hallucinations, Reasoning et Ethics, ce qui signale un profil solide sur la fiabilité des réponses, le raisonnement et les critères éthiques de l’évaluation Baseline. Le modèle figure aussi dans le top 10 en Coding, un point fort notable pour un LLM économique. Sa très grande fenêtre de contexte renforce son intérêt pour les tâches impliquant de longs documents, des historiques étendus ou des corpus volumineux. Côté prix, le tarif reste seulement légèrement au-dessus de la moyenne des LLM similaires, tout en étant nettement inférieur à celui des modèles frontière.

Limites et points d'attention. Les résultats sont moins différenciants en General Knowledge, où le modèle se situe hors du tout premier groupe, et en Email Classification, où le rang relatif est nettement plus faible malgré un score absolu élevé. Les données disponibles portent sur des benchmarks Benchable Baseline, sans détail fourni ici sur d’autres scénarios d’usage ou conditions d’évaluation. Le positionnement économique ne signifie pas prix minimal : il reste au-dessus de la moyenne des modèles comparables. Profil le plus cohérent : analyse de longs contextes, génération de code et tâches où le raisonnement et la réduction des hallucinations priment sur la spécialisation en classification d’emails.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).