Google

Gemma 3 12B

Gemma 3 12B est un LLM de Google publié le 12 mars 2025 sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 12 milliards de paramètres, il se positionne comme un modèle compact, très économique, doté d’une grande fenêtre de contexte et rattaché à la famille…

Son ancienneté, environ un an, est déjà très longue à l’échelle de l’IA. La fiche doit donc être lue comme celle d’un modèle de sa génération, probablement dépassé par les offres récentes et souvent absent des catalogues actuels de l’éditeur.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Licence	Gemma (open-weights, usage commercial autorisé)
Date de sortie	12 mars 2025
Connaissances jusqu'à	2024-08-31
Multimodal	oui
Paramètres	12 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	97,0 %	158ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	85,0 %	147ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	67,0 %	172ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	59,2 %	166ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	19,0 %	215ᵉ / 252	benchable	✅ Mesuré
GSM8k	94,4 %	15ᵉ / 47	llm-stats	Auto-déclaré
IFEval	88,9 %	22ᵉ / 65	llm-stats	Auto-déclaré
DocVQA	87,1 %	22ᵉ / 26	llm-stats	Auto-déclaré
BIG-Bench Hard	85,7 %	5ᵉ / 20	llm-stats	Auto-déclaré
HumanEval	85,4 %	33ᵉ / 65	llm-stats	Auto-déclaré
AI2D	84,2 %	24ᵉ / 32	llm-stats	Auto-déclaré
MATH	83,8 %	14ᵉ / 70	llm-stats	Auto-déclaré
Natural2Code	80,7 %	4ᵉ / 8	llm-stats	Auto-déclaré
FACTS Grounding	75,8 %	6ᵉ / 13	llm-stats	Auto-déclaré
ChartQA	75,7 %	23ᵉ / 24	llm-stats	Auto-déclaré
MBPP	73,0 %	21ᵉ / 33	llm-stats	Auto-déclaré
VQAv2 (val)	71,6 %	1ᵉ / 3	llm-stats	Auto-déclaré
Global-MMLU-Lite	69,5 %	7ᵉ / 14	llm-stats	Auto-déclaré
TextVQA	67,7 %	13ᵉ / 15	llm-stats	Auto-déclaré
InfoVQA	64,9 %	8ᵉ / 9	llm-stats	Auto-déclaré
MathVista-Mini	62,9 %	22ᵉ / 23	llm-stats	Auto-déclaré
MMLU-Pro	60,6 %	99ᵉ / 125	llm-stats	Auto-déclaré
MMMU (val)	59,6 %	10ᵉ / 11	llm-stats	Auto-déclaré
HiddenMath	54,5 %	4ᵉ / 13	llm-stats	Auto-déclaré
WMT24++	51,6 %	15ᵉ / 23	llm-stats	Auto-déclaré
Bird-SQL (dev)	47,9 %	4ᵉ / 7	llm-stats	Auto-déclaré
GPQA	40,9 %	182ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	24,6 %	64ᵉ / 72	llm-stats	Auto-déclaré
BIG-Bench Extra Hard	16,3 %	8ᵉ / 11	llm-stats	Auto-déclaré
ECLeKTic	10,3 %	3ᵉ / 8	llm-stats	Auto-déclaré
SimpleQA	6,3 %	41ᵉ / 45	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Gemma 3 12B99 %

WizardLM-2 8x22B95 %

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Gemma 3 12B98 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1342	188ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,05 $	0,15 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 97 % en dessous de la moyenne des LLM similaires, et 96,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	5 min 58 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemma 3 12B se distingue surtout par son coût très bas, avec une tarification annoncée très inférieure à la moyenne des LLM similaires et nettement sous celle des modèles frontière. Sa fenêtre de contexte de 131 072 tokens reste un atout concret pour traiter de longs documents ou de longues conversations. Côté résultats, Email Classification (Baseline) ressort comme son meilleur point, avec un classement solide parmi plus de 250 modèles. Ethics (Baseline) et General Knowledge (Baseline) affichent aussi des scores élevés, même si leurs rangs le placent davantage en milieu de tableau. À sa sortie, il figurait dans le top 72% des LLM de sa génération sur GPQA, ce qui le situe correctement pour son époque sans en faire un modèle de tout premier plan.

Limites et points d'attention. Son âge pèse lourdement dans l’évaluation actuelle : environ un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par les modèles plus récents. Les benchmarks Benchable montrent des fragilités nettes en Mathematics (Baseline) et en Reasoning (Baseline), deux domaines où il se classe dans la partie basse des modèles évalués. Coding (Baseline) reste utilisable sur le papier, mais son rang indique un positionnement modeste. L’Arena text confirme aussi une compétitivité limitée face à l’ensemble du marché. Sa coupure de connaissances au 31 août 2024 limite enfin la couverture des faits récents. La couverture repose sur 4 sources concordantes, ce qui stabilise les données disponibles, sans modifier le constat principal : Gemma 3 12B relève surtout d’un modèle économique et ouvert de sa période, plus que d’une option de pointe actuelle.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).

Gemma 3 12B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast