gemini-3-pro-preview-11-2025-high

gemini-3-pro-preview-11-2025-high est un LLM de Google évalué dans LiveBench avec un profil plutôt généraliste. Son résultat global le place dans la première partie du classement, avec un point fort net sur la compréhension du langage.

gemini-3-pro-preview-11-2025-high est un LLM de Google évalué dans LiveBench avec un profil plutôt généraliste. Son résultat global le place dans la première partie du classement, avec un point fort net sur la compréhension du langage.

Le modèle apparaît moins spécialisé qu’un pur modèle de calcul ou de code, mais ses scores restent homogènes sur plusieurs familles de tâches. La fiche repose sur une source de données concordante, ce qui invite à lire ses résultats comme un instantané benchmarké plutôt que comme une caractérisation exhaustive.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
LiveBench: Language84,6 %4ᵉ / 76livebench✅ Mesuré
LiveBench: Mathematics81,8 %33ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning77,4 %24ᵉ / 76livebench✅ Mesuré
LiveBench: Coding74,6 %25ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis74,4 %13ᵉ / 76livebench✅ Mesuré
LiveBench: Global average73,4 %16ᵉ / 76livebench✅ Mesuré
LiveBench: IF65,8 %14ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding55,0 %15ᵉ / 76livebench✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

LiveBench: Language

GPT-5.588 %
▶ gemini-3-pro-preview-11…85 %
Qwen3.7 Max80 %

LiveBench: Mathematics

GPT-5.596 %
Qwen3.7 Max85 %
▶ gemini-3-pro-preview-11…82 %
Nemotron 3 Ultra55 %

Notre analyse

Forces. gemini-3-pro-preview-11-2025-high ressort surtout sur LiveBench: Language (compréhension du langage), où il figure dans le top 10 du classement. Ce signal indique une bonne capacité à traiter des consignes, interpréter du texte et maintenir une compréhension solide dans des tâches linguistiques variées. Son score en LiveBench: Data Analysis (analyse de données) le place aussi dans une zone favorable du classement, ce qui renforce l’intérêt du modèle pour des usages mêlant lecture, synthèse et interprétation structurée d’informations. Son niveau global, situé dans le haut du tableau, montre un modèle équilibré plutôt qu’un modèle limité à une seule compétence.

Limites et points d'attention. Les résultats en Mathematics, Reasoning et Coding sont plus en retrait que son niveau en langage. Le modèle reste compétent sur ces axes, mais son classement y suggère une concurrence plus forte et une différenciation moins nette, notamment pour les tâches de programmation ou de raisonnement exigeant une précision élevée. La couverture disponible se limite à une source concordante, ce qui réduit la profondeur de validation publique. Ce profil convient surtout à des usages généralistes centrés sur le texte, l’analyse et la synthèse, avec prudence sur les tâches techniques critiques.


Sources des données : LiveBench (livebench.ai).