Gemma 4 31B
Gemma 4 31B est un LLM de Google publié le 2 avril 2026, avec 31 milliards de paramètres et des poids ouverts sous licence Apache 2.0, autorisant l’usage commercial. Son positionnement combine une très grande fenêtre de contexte, une distribution open-weights et un coût d’accès indiqué…
Gemma 4 31B est un LLM de Google publié le 2 avril 2026, avec 31 milliards de paramètres et des poids ouverts sous licence Apache 2.0, autorisant l’usage commercial. Son positionnement combine une très grande fenêtre de contexte, une distribution open-weights et un coût d’accès indiqué comme gratuit.
Le modèle se distingue surtout par son rapport capacité-prix : sa tarification est donnée comme 100% inférieure à la moyenne des LLM similaires. À sa sortie, Gemma 4 31B se situait dans le top 23% des LLM de sa génération sur GPQA, un repère utile pour évaluer son niveau à son époque.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 2 avril 2026 |
| Connaissances jusqu'à | 2025-01-01 |
| Multimodal | oui |
| Paramètres | 31 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 29.4 | 66ᵉ / 136 |
| Code Index | 43.4 | 31ᵉ / 50 |
| Agentic Index | 14.4 | 34ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,9 % | 89ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,7 % | 131ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,9 % | 54ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,2 % | 66ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 88,7 % | 15ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 82,2 % | 111ᵉ / 239 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 73,9 % | 50ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 71,3 % | 40ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 67,6 % | 10ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 61,6 % | 40ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 60,3 % | 70ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 59,4 % | 50ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 58,8 % | 36ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 52,7 % | 43ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Agentic Coding | 40,0 % | 44ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 9,6 % | 50ᵉ / 52 | epoch | ✅ Mesuré |
| AIME 2026 | 89,2 % | 11ᵉ / 17 | llm-stats | Auto-déclaré |
| MMMLU | 88,4 % | 18ᵉ / 49 | llm-stats | Auto-déclaré |
| t2-bench | 86,4 % | 5ᵉ / 23 | llm-stats | Auto-déclaré |
| MathVision | 85,6 % | 8ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU-Pro | 85,2 % | 15ᵉ / 125 | llm-stats | Auto-déclaré |
| GPQA | 84,3 % | 47ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 80,0 % | 21ᵉ / 53 | llm-stats | Auto-déclaré |
| MMMU-Pro | 76,9 % | 19ᵉ / 60 | llm-stats | Auto-déclaré |
| BIG-Bench Extra Hard | 74,4 % | 1ᵉ / 11 | llm-stats | Auto-déclaré |
| MRCR v2 | 66,4 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| MedXpertQA | 61,3 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 26,5 % | 42ᵉ / 86 | llm-stats | Auto-déclaré |
| GDPval-AA | 26,1 % | 33ᵉ / 33 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1451 | 44ᵉ |
| Arena Document | 1424 | 20ᵉ |
| Arena Code | 1374 | 52ᵉ |
| Arena Vision | 1255 | 24ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenInference | gratuit | gratuit | n.d. |
| Weights & Biases | 0,12 $ | 0,35 $ | 0,09 $ |
| deepinfra | 0,13 $ | 0,38 $ | n.d. |
| friendli | 0,14 $ | 0,4 $ | n.d. |
| together | 0,39 $ | 0,97 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 1,84 $ |
| Durée d'exécution — PinchBench | 5 h 52 min |
| Indice valeur/coût — PinchBench | 75,07 |
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 26 min 37 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemma 4 31B affiche ses meilleurs résultats sur les évaluations Benchable liées aux hallucinations et à l’éthique, où il apparaît dans le top 10, ce qui signale un comportement solide sur la fiabilité de réponse et les garde-fous de base. Les scores Benchable en classification d’e-mails, connaissances générales, code et mathématiques restent élevés en valeur absolue, même si les rangs montrent une concurrence dense. Sa fenêtre de contexte de 262 144 tokens constitue un atout concret pour traiter de longs documents, de gros historiques ou des corpus étendus. L’Arena document le place mieux que l’Arena text et l’Arena code, ce qui renforce l’idée d’un modèle particulièrement pertinent pour les usages documentaires. Sa licence Apache 2.0 et son coût gratuit en entrée comme en sortie en font aussi un modèle très économique à exploiter.
Limites et points d’attention. L’Intelligence Index situe Gemma 4 31B dans une zone intermédiaire du classement, loin des modèles les plus performants. Le Code Index est plus compétitif, mais l’Arena code reste moins favorable, ce qui invite à distinguer les exercices de codage évalués et les préférences comparatives en usage réel. L’Agentic Index est faible dans son panel, ce qui limite son intérêt pour des tâches autonomes, enchaînées ou fortement orientées agent. Les connaissances s’arrêtent au 2025-01-01, un point important pour les sujets récents. Le profil convient surtout aux déploiements open-weights économiques, aux traitements longs et aux applications documentaires où le coût, la licence et la fenêtre de contexte priment sur les performances de tout premier rang.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).