Gemma 3 12B
Gemma 3 12B est un LLM de Google publié le 12 mars 2025 sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 12 milliards de paramètres, il se positionne comme un modèle compact, très économique, doté d’une grande fenêtre de contexte et rattaché à la famille…
Gemma 3 12B est un LLM de Google publié le 12 mars 2025 sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 12 milliards de paramètres, il se positionne comme un modèle compact, très économique, doté d’une grande fenêtre de contexte et rattaché à la famille Gemma.
Son ancienneté, environ un an, est déjà très longue à l’échelle de l’IA. La fiche doit donc être lue comme celle d’un modèle de sa génération, probablement dépassé par les offres récentes et souvent absent des catalogues actuels de l’éditeur.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Gemma (open-weights, usage commercial autorisé) |
| Date de sortie | 12 mars 2025 |
| Connaissances jusqu'à | 2024-08-31 |
| Multimodal | oui |
| Paramètres | 12 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 97,0 % | 158ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 85,0 % | 147ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 67,0 % | 172ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 59,2 % | 166ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 19,0 % | 215ᵉ / 252 | benchable | ✅ Mesuré |
| GSM8k | 94,4 % | 15ᵉ / 47 | llm-stats | Auto-déclaré |
| IFEval | 88,9 % | 22ᵉ / 65 | llm-stats | Auto-déclaré |
| DocVQA | 87,1 % | 22ᵉ / 26 | llm-stats | Auto-déclaré |
| BIG-Bench Hard | 85,7 % | 5ᵉ / 20 | llm-stats | Auto-déclaré |
| HumanEval | 85,4 % | 33ᵉ / 65 | llm-stats | Auto-déclaré |
| AI2D | 84,2 % | 24ᵉ / 32 | llm-stats | Auto-déclaré |
| MATH | 83,8 % | 14ᵉ / 70 | llm-stats | Auto-déclaré |
| Natural2Code | 80,7 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| FACTS Grounding | 75,8 % | 6ᵉ / 13 | llm-stats | Auto-déclaré |
| ChartQA | 75,7 % | 23ᵉ / 24 | llm-stats | Auto-déclaré |
| MBPP | 73,0 % | 21ᵉ / 33 | llm-stats | Auto-déclaré |
| VQAv2 (val) | 71,6 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| Global-MMLU-Lite | 69,5 % | 7ᵉ / 14 | llm-stats | Auto-déclaré |
| TextVQA | 67,7 % | 13ᵉ / 15 | llm-stats | Auto-déclaré |
| InfoVQA | 64,9 % | 8ᵉ / 9 | llm-stats | Auto-déclaré |
| MathVista-Mini | 62,9 % | 22ᵉ / 23 | llm-stats | Auto-déclaré |
| MMLU-Pro | 60,6 % | 99ᵉ / 125 | llm-stats | Auto-déclaré |
| MMMU (val) | 59,6 % | 10ᵉ / 11 | llm-stats | Auto-déclaré |
| HiddenMath | 54,5 % | 4ᵉ / 13 | llm-stats | Auto-déclaré |
| WMT24++ | 51,6 % | 15ᵉ / 23 | llm-stats | Auto-déclaré |
| Bird-SQL (dev) | 47,9 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| GPQA | 40,9 % | 182ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 24,6 % | 64ᵉ / 72 | llm-stats | Auto-déclaré |
| BIG-Bench Extra Hard | 16,3 % | 8ᵉ / 11 | llm-stats | Auto-déclaré |
| ECLeKTic | 10,3 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| SimpleQA | 6,3 % | 41ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Ethics (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1342 | 188ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,05 $ | 0,15 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 97 % en dessous de la moyenne des LLM similaires, et 96,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 5 min 58 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemma 3 12B se distingue surtout par son coût très bas, avec une tarification annoncée très inférieure à la moyenne des LLM similaires et nettement sous celle des modèles frontière. Sa fenêtre de contexte de 131 072 tokens reste un atout concret pour traiter de longs documents ou de longues conversations. Côté résultats, Email Classification (Baseline) ressort comme son meilleur point, avec un classement solide parmi plus de 250 modèles. Ethics (Baseline) et General Knowledge (Baseline) affichent aussi des scores élevés, même si leurs rangs le placent davantage en milieu de tableau. À sa sortie, il figurait dans le top 72% des LLM de sa génération sur GPQA, ce qui le situe correctement pour son époque sans en faire un modèle de tout premier plan.
Limites et points d'attention. Son âge pèse lourdement dans l’évaluation actuelle : environ un an représente un cycle très long pour les LLM, et ses performances sont aujourd’hui largement dépassées par les modèles plus récents. Les benchmarks Benchable montrent des fragilités nettes en Mathematics (Baseline) et en Reasoning (Baseline), deux domaines où il se classe dans la partie basse des modèles évalués. Coding (Baseline) reste utilisable sur le papier, mais son rang indique un positionnement modeste. L’Arena text confirme aussi une compétitivité limitée face à l’ensemble du marché. Sa coupure de connaissances au 31 août 2024 limite enfin la couverture des faits récents. La couverture repose sur 4 sources concordantes, ce qui stabilise les données disponibles, sans modifier le constat principal : Gemma 3 12B relève surtout d’un modèle économique et ouvert de sa période, plus que d’une option de pointe actuelle.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).