Gemma 4 31B

Gemma 4 31B est un LLM de Google publié le 2 avril 2026, avec 31 milliards de paramètres et des poids ouverts sous licence Apache 2.0, autorisant l’usage commercial. Son positionnement combine une très grande fenêtre de contexte, une distribution open-weights et un coût d’accès indiqué…

Gemma 4 31B est un LLM de Google publié le 2 avril 2026, avec 31 milliards de paramètres et des poids ouverts sous licence Apache 2.0, autorisant l’usage commercial. Son positionnement combine une très grande fenêtre de contexte, une distribution open-weights et un coût d’accès indiqué comme gratuit.

Le modèle se distingue surtout par son rapport capacité-prix : sa tarification est donnée comme 100% inférieure à la moyenne des LLM similaires. À sa sortie, Gemma 4 31B se situait dans le top 23% des LLM de sa génération sur GPQA, un repère utile pour évaluer son niveau à son époque.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie2 avril 2026
Connaissances jusqu'à2025-01-01
Multimodaloui
Paramètres31 milliards
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index29.466ᵉ / 136
Code Index43.431ᵉ / 50
Agentic Index14.434ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,9 %89ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)98,7 %131ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)93,9 %54ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)93,2 %66ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)88,7 %15ᵉ / 252benchable✅ Mesuré
Benchable : Reasoning (Baseline)82,2 %111ᵉ / 239benchable✅ Mesuré
LiveBench: Mathematics73,9 %50ᵉ / 76livebench✅ Mesuré
LiveBench: Language71,3 %40ᵉ / 76livebench✅ Mesuré
LiveBench: IF67,6 %10ᵉ / 76livebench✅ Mesuré
LiveBench: Global average61,6 %40ᵉ / 76livebench✅ Mesuré
LiveBench: Coding60,3 %70ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning59,4 %50ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis58,8 %36ᵉ / 76livebench✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)52,7 %43ᵉ / 52pinchbench✅ Mesuré
LiveBench: Agentic Coding40,0 %44ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified9,6 %50ᵉ / 52epoch✅ Mesuré
AIME 202689,2 %11ᵉ / 17llm-statsAuto-déclaré
MMMLU88,4 %18ᵉ / 49llm-statsAuto-déclaré
t2-bench86,4 %5ᵉ / 23llm-statsAuto-déclaré
MathVision85,6 %8ᵉ / 31llm-statsAuto-déclaré
MMLU-Pro85,2 %15ᵉ / 125llm-statsAuto-déclaré
GPQA84,3 %47ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench v680,0 %21ᵉ / 53llm-statsAuto-déclaré
MMMU-Pro76,9 %19ᵉ / 60llm-statsAuto-déclaré
BIG-Bench Extra Hard74,4 %1ᵉ / 11llm-statsAuto-déclaré
MRCR v266,4 %2ᵉ / 8llm-statsAuto-déclaré
MedXpertQA61,3 %5ᵉ / 12llm-statsAuto-déclaré
Humanity's Last Exam26,5 %42ᵉ / 86llm-statsAuto-déclaré
GDPval-AA26,1 %33ᵉ / 33llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Mistral Medium 3.529.9
▶ Gemma 4 31B29.4
Nova 2.0 Pro Preview21.8

Code Index

GPT-5.471.1
Mistral Medium 3.546.9
▶ Gemma 4 31B43.4
Nova 2.0 Pro Preview34.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text145144ᵉ
Arena Document142420ᵉ
Arena Code137452ᵉ
Arena Vision125524ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenInferencegratuitgratuitn.d.
Weights & Biases0,12 $0,35 $0,09 $
deepinfra0,13 $0,38 $n.d.
friendli0,14 $0,4 $n.d.
together0,39 $0,97 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)1,84 $
Durée d'exécution — PinchBench5 h 52 min
Indice valeur/coût — PinchBench75,07
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable26 min 37 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemma 4 31B affiche ses meilleurs résultats sur les évaluations Benchable liées aux hallucinations et à l’éthique, où il apparaît dans le top 10, ce qui signale un comportement solide sur la fiabilité de réponse et les garde-fous de base. Les scores Benchable en classification d’e-mails, connaissances générales, code et mathématiques restent élevés en valeur absolue, même si les rangs montrent une concurrence dense. Sa fenêtre de contexte de 262 144 tokens constitue un atout concret pour traiter de longs documents, de gros historiques ou des corpus étendus. L’Arena document le place mieux que l’Arena text et l’Arena code, ce qui renforce l’idée d’un modèle particulièrement pertinent pour les usages documentaires. Sa licence Apache 2.0 et son coût gratuit en entrée comme en sortie en font aussi un modèle très économique à exploiter.

Limites et points d’attention. L’Intelligence Index situe Gemma 4 31B dans une zone intermédiaire du classement, loin des modèles les plus performants. Le Code Index est plus compétitif, mais l’Arena code reste moins favorable, ce qui invite à distinguer les exercices de codage évalués et les préférences comparatives en usage réel. L’Agentic Index est faible dans son panel, ce qui limite son intérêt pour des tâches autonomes, enchaînées ou fortement orientées agent. Les connaissances s’arrêtent au 2025-01-01, un point important pour les sujets récents. Le profil convient surtout aux déploiements open-weights économiques, aux traitements longs et aux applications documentaires où le coût, la licence et la fenêtre de contexte priment sur les performances de tout premier rang.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).