Gemma 3 12B

Gemma 3 12B est un LLM de Google publié le 12 mars 2025 sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 12 milliards de paramètres, il se positionne comme un modèle compact, très économique, doté d’une grande fenêtre de contexte et rattaché à la famille…

Gemma 3 12B est un LLM de Google publié le 12 mars 2025 sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 12 milliards de paramètres, il se positionne comme un modèle compact, très économique, doté d’une grande fenêtre de contexte et rattaché à la famille Gemma.

Son ancienneté, environ un an, est déjà très longue à l’échelle de l’IA. La fiche doit donc être lue comme celle d’un modèle de sa génération, probablement dépassé par les offres récentes et souvent absent des catalogues actuels de l’éditeur.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceGemma (open-weights, usage commercial autorisé)
Date de sortie12 mars 2025
Connaissances jusqu'à2024-08-31
Multimodaloui
Paramètres12 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)97,0 %158ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)85,0 %147ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)67,0 %172ᵉ / 217benchable✅ Mesuré
Benchable : Reasoning (Baseline)59,2 %166ᵉ / 239benchable✅ Mesuré
Benchable : Instruction Following (Baseline)19,0 %215ᵉ / 252benchable✅ Mesuré
GSM8k94,4 %15ᵉ / 47llm-statsAuto-déclaré
IFEval88,9 %22ᵉ / 65llm-statsAuto-déclaré
DocVQA87,1 %22ᵉ / 26llm-statsAuto-déclaré
BIG-Bench Hard85,7 %5ᵉ / 20llm-statsAuto-déclaré
HumanEval85,4 %33ᵉ / 65llm-statsAuto-déclaré
AI2D84,2 %24ᵉ / 32llm-statsAuto-déclaré
MATH83,8 %14ᵉ / 70llm-statsAuto-déclaré
Natural2Code80,7 %4ᵉ / 8llm-statsAuto-déclaré
FACTS Grounding75,8 %6ᵉ / 13llm-statsAuto-déclaré
ChartQA75,7 %23ᵉ / 24llm-statsAuto-déclaré
MBPP73,0 %21ᵉ / 33llm-statsAuto-déclaré
VQAv2 (val)71,6 %1ᵉ / 3llm-statsAuto-déclaré
Global-MMLU-Lite69,5 %7ᵉ / 14llm-statsAuto-déclaré
TextVQA67,7 %13ᵉ / 15llm-statsAuto-déclaré
InfoVQA64,9 %8ᵉ / 9llm-statsAuto-déclaré
MathVista-Mini62,9 %22ᵉ / 23llm-statsAuto-déclaré
MMLU-Pro60,6 %99ᵉ / 125llm-statsAuto-déclaré
MMMU (val)59,6 %10ᵉ / 11llm-statsAuto-déclaré
HiddenMath54,5 %4ᵉ / 13llm-statsAuto-déclaré
WMT24++51,6 %15ᵉ / 23llm-statsAuto-déclaré
Bird-SQL (dev)47,9 %4ᵉ / 7llm-statsAuto-déclaré
GPQA40,9 %182ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench24,6 %64ᵉ / 72llm-statsAuto-déclaré
BIG-Bench Extra Hard16,3 %8ᵉ / 11llm-statsAuto-déclaré
ECLeKTic10,3 %3ᵉ / 8llm-statsAuto-déclaré
SimpleQA6,3 %41ᵉ / 45llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

GPT-4 Turbo100 %
nova-premier-v199 %
▶ Gemma 3 12B99 %
WizardLM-2 8x22B95 %

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Gemma 3 12B98 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1342188ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
DeepInfra0,05 $0,15 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 97 % en dessous de la moyenne des LLM similaires, et 96,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable5 min 58 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemma 3 12B se distingue surtout par son coût très bas, avec une tarification annoncée très inférieure à la moyenne des LLM similaires et nettement sous celle des modèles frontière. Sa fenêtre de contexte de 131 072 tokens reste un atout concret pour traiter de longs documents ou de longues conversations. Côté résultats, Email Classification (Baseline) ressort comme son meilleur point, avec un classement solide parmi plus de 250 modèles. Ethics (Baseline) et General Knowledge (Baseline) affichent aussi des scores élevés, même si leurs rangs le placent davantage en milieu de tableau. À sa sortie, il figurait dans le top 72% des LLM de sa génération sur GPQA, ce qui le situe correctement pour son époque sans en faire un modèle de tout premier plan.

Limites et points d'attention. Son âge pèse lourdement dans l’évaluation actuelle : environ un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par les modèles plus récents. Les benchmarks Benchable montrent des fragilités nettes en Mathematics (Baseline) et en Reasoning (Baseline), deux domaines où il se classe dans la partie basse des modèles évalués. Coding (Baseline) reste utilisable sur le papier, mais son rang indique un positionnement modeste. L’Arena text confirme aussi une compétitivité limitée face à l’ensemble du marché. Sa coupure de connaissances au 31 août 2024 limite enfin la couverture des faits récents. La couverture repose sur 4 sources concordantes, ce qui stabilise les données disponibles, sans modifier le constat principal : Gemma 3 12B relève surtout d’un modèle économique et ouvert de sa période, plus que d’une option de pointe actuelle.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).