Google

Gemma 4 31B

Gemma 4 31B est un LLM de Google publié le 2 avril 2026, avec 31 milliards de paramètres et des poids ouverts sous licence Apache 2.0, autorisant l’usage commercial. Son positionnement combine une très grande fenêtre de contexte, une distribution open-weights et un coût d’accès indiqué…

Le modèle se distingue surtout par son rapport capacité-prix : sa tarification est donnée comme 100% inférieure à la moyenne des LLM similaires. À sa sortie, Gemma 4 31B se situait dans le top 23% des LLM de sa génération sur GPQA, un repère utile pour évaluer son niveau à son époque.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	2 avril 2026
Connaissances jusqu'à	2025-01-01
Multimodal	oui
Paramètres	31 milliards
Fenêtre de contexte	262 144 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	29.4	66ᵉ / 136
Code Index	43.4	31ᵉ / 50
Agentic Index	14.4	34ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,9 %	89ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	98,7 %	131ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,9 %	54ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,2 %	66ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	88,7 %	15ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	82,2 %	111ᵉ / 239	benchable	✅ Mesuré
LiveBench: Mathematics	73,9 %	50ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	71,3 %	40ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	67,6 %	10ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	61,6 %	40ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	60,3 %	70ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	59,4 %	50ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	58,8 %	36ᵉ / 76	livebench	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	52,7 %	43ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Agentic Coding	40,0 %	44ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	9,6 %	50ᵉ / 52	epoch	✅ Mesuré
AIME 2026	89,2 %	11ᵉ / 17	llm-stats	Auto-déclaré
MMMLU	88,4 %	18ᵉ / 49	llm-stats	Auto-déclaré
t2-bench	86,4 %	5ᵉ / 23	llm-stats	Auto-déclaré
MathVision	85,6 %	8ᵉ / 31	llm-stats	Auto-déclaré
MMLU-Pro	85,2 %	15ᵉ / 125	llm-stats	Auto-déclaré
GPQA	84,3 %	47ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench v6	80,0 %	21ᵉ / 53	llm-stats	Auto-déclaré
MMMU-Pro	76,9 %	19ᵉ / 60	llm-stats	Auto-déclaré
BIG-Bench Extra Hard	74,4 %	1ᵉ / 11	llm-stats	Auto-déclaré
MRCR v2	66,4 %	2ᵉ / 8	llm-stats	Auto-déclaré
MedXpertQA	61,3 %	5ᵉ / 12	llm-stats	Auto-déclaré
Humanity's Last Exam	26,5 %	42ᵉ / 86	llm-stats	Auto-déclaré
GDPval-AA	26,1 %	33ᵉ / 33	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Gemma 4 31B29.4

Nova 2.0 Pro Preview21.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Mistral Medium 3.546.9

▶ Gemma 4 31B43.4

Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1451	44ᵉ
Arena Document	1424	20ᵉ
Arena Code	1374	52ᵉ
Arena Vision	1255	24ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenInference	gratuit	gratuit	n.d.
Weights & Biases	0,12 $	0,35 $	0,09 $
deepinfra	0,13 $	0,38 $	n.d.
friendli	0,14 $	0,4 $	n.d.
together	0,39 $	0,97 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	1,84 $
Durée d'exécution — PinchBench	5 h 52 min
Indice valeur/coût — PinchBench	75,07
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	26 min 37 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemma 4 31B affiche ses meilleurs résultats sur les évaluations Benchable liées aux hallucinations et à l’éthique, où il apparaît dans le top 10, ce qui signale un comportement solide sur la fiabilité de réponse et les garde-fous de base. Les scores Benchable en classification d’e-mails, connaissances générales, code et mathématiques restent élevés en valeur absolue, même si les rangs montrent une concurrence dense. Sa fenêtre de contexte de 262 144 tokens constitue un atout concret pour traiter de longs documents, de gros historiques ou des corpus étendus. L’Arena document le place mieux que l’Arena text et l’Arena code, ce qui renforce l’idée d’un modèle particulièrement pertinent pour les usages documentaires. Sa licence Apache 2.0 et son coût gratuit en entrée comme en sortie en font aussi un modèle très économique à exploiter.

Limites et points d’attention. L’Intelligence Index situe Gemma 4 31B dans une zone intermédiaire du classement, loin des modèles les plus performants. Le Code Index est plus compétitif, mais l’Arena code reste moins favorable, ce qui invite à distinguer les exercices de codage évalués et les préférences comparatives en usage réel. L’Agentic Index est faible dans son panel, ce qui limite son intérêt pour des tâches autonomes, enchaînées ou fortement orientées agent. Les connaissances s’arrêtent au 2025-01-01, un point important pour les sujets récents. Le profil convient surtout aux déploiements open-weights économiques, aux traitements longs et aux applications documentaires où le coût, la licence et la fenêtre de contexte priment sur les performances de tout premier rang.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Gemma 4 31B

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast