Google: Gemini 3.1 Pro Preview Custom Tools
Google: Gemini 3.1 Pro Preview Custom Tools est un LLM de Google sorti le 25 février 2026, positionné sur une combinaison rare : grande fenêtre de contexte, tarifs économiques et résultats Benchable élevés sur plusieurs tâches de base. Sa fenêtre d’environ 1,0 M de tokens le place dans…
Google: Gemini 3.1 Pro Preview Custom Tools est un LLM de Google sorti le 25 février 2026, positionné sur une combinaison rare : grande fenêtre de contexte, tarifs économiques et résultats Benchable élevés sur plusieurs tâches de base. Sa fenêtre d’environ 1,0 M de tokens le place dans la catégorie des modèles capables d’accepter des entrées très longues.
La fiche repose sur deux sources de données concordantes. Le modèle se distingue surtout par des scores Benchable au plus haut niveau en hallucinations, raisonnement et éthique, tout en conservant un prix d’entrée bas par rapport aux modèles haut de gamme.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Date de sortie | 25 février 2026 |
| Multimodal | oui |
| Fenêtre de contexte | 1 048 756 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,audio,image,video,file → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,9 % | 10ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,9 % | 22ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 94,9 % | 8ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Reasoning (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Google AI Studio | 2 $ | 12 $ | 0,2 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,73 $ |
| Latence moyenne par benchmark — Benchable | 19 min 28 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Google: Gemini 3.1 Pro Preview Custom Tools atteint le meilleur niveau Benchable en Hallucinations, Reasoning et Ethics, ce qui signale un profil solide sur la fiabilité des réponses, le raisonnement et les critères éthiques de l’évaluation Baseline. Le modèle figure aussi dans le top 10 en Coding, un point fort notable pour un LLM économique. Sa très grande fenêtre de contexte renforce son intérêt pour les tâches impliquant de longs documents, des historiques étendus ou des corpus volumineux. Côté prix, le tarif reste seulement légèrement au-dessus de la moyenne des LLM similaires, tout en étant nettement inférieur à celui des modèles frontière.
Limites et points d'attention. Les résultats sont moins différenciants en General Knowledge, où le modèle se situe hors du tout premier groupe, et en Email Classification, où le rang relatif est nettement plus faible malgré un score absolu élevé. Les données disponibles portent sur des benchmarks Benchable Baseline, sans détail fourni ici sur d’autres scénarios d’usage ou conditions d’évaluation. Le positionnement économique ne signifie pas prix minimal : il reste au-dessus de la moyenne des modèles comparables. Profil le plus cohérent : analyse de longs contextes, génération de code et tâches où le raisonnement et la réduction des hallucinations priment sur la spécialisation en classification d’emails.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).