Google

Google: Gemini 3.1 Pro Preview Custom Tools

Google: Gemini 3.1 Pro Preview Custom Tools est un LLM de Google sorti le 25 février 2026, positionné sur une combinaison rare : grande fenêtre de contexte, tarifs économiques et résultats Benchable élevés sur plusieurs tâches de base. Sa fenêtre d’environ 1,0 M de tokens le place dans…

La fiche repose sur deux sources de données concordantes. Le modèle se distingue surtout par des scores Benchable au plus haut niveau en hallucinations, raisonnement et éthique, tout en conservant un prix d’entrée bas par rapport aux modèles haut de gamme.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Date de sortie	25 février 2026
Multimodal	oui
Fenêtre de contexte	1 048 756 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,audio,image,video,file → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,9 %	10ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,9 %	22ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	94,9 %	8ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Gemini 3.1 Pro …100 %

Nemotron Nano 9B v298 %

Benchable : Reasoning (Baseline)

DeepSeek V4 Flash100 %

Gemini 3.1 Pro Preview100 %

GPT-5.5100 %

qwen3-32b-04-28100 %

▶ Gemini 3.1 Pro …100 %

Claude Opus 4.598 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Google AI Studio	2 $	12 $	0,2 $

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,73 $
Latence moyenne par benchmark — Benchable	19 min 28 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Google: Gemini 3.1 Pro Preview Custom Tools atteint le meilleur niveau Benchable en Hallucinations, Reasoning et Ethics, ce qui signale un profil solide sur la fiabilité des réponses, le raisonnement et les critères éthiques de l’évaluation Baseline. Le modèle figure aussi dans le top 10 en Coding, un point fort notable pour un LLM économique. Sa très grande fenêtre de contexte renforce son intérêt pour les tâches impliquant de longs documents, des historiques étendus ou des corpus volumineux. Côté prix, le tarif reste seulement légèrement au-dessus de la moyenne des LLM similaires, tout en étant nettement inférieur à celui des modèles frontière.

Limites et points d'attention. Les résultats sont moins différenciants en General Knowledge, où le modèle se situe hors du tout premier groupe, et en Email Classification, où le rang relatif est nettement plus faible malgré un score absolu élevé. Les données disponibles portent sur des benchmarks Benchable Baseline, sans détail fourni ici sur d’autres scénarios d’usage ou conditions d’évaluation. Le positionnement économique ne signifie pas prix minimal : il reste au-dessus de la moyenne des modèles comparables. Profil le plus cohérent : analyse de longs contextes, génération de code et tâches où le raisonnement et la réduction des hallucinations priment sur la spécialisation en classification d’emails.

Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Google: Gemini 3.1 Pro Preview Custom Tools

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast