Gemma 3 4B
Gemma 3 4B est un LLM de Google publié le 12 mars 2025 sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 4 milliards de paramètres, il occupe le segment des modèles compacts, à coût très bas, et propose une fenêtre de contexte longue de 131 072 tokens.
Gemma 3 4B est un LLM de Google publié le 12 mars 2025 sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 4 milliards de paramètres, il occupe le segment des modèles compacts, à coût très bas, et propose une fenêtre de contexte longue de 131 072 tokens.
Son ancienneté d’environ un an est déjà importante à l’échelle de l’IA. Gemma 3 4B doit donc être lu comme un modèle de sa génération, avec des connaissances arrêtées au 1 août 2024, plutôt que comme une référence actuelle face aux modèles haut de gamme récents.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Gemma (open-weights, usage commercial autorisé) |
| Date de sortie | 12 mars 2025 |
| Connaissances jusqu'à | 2024-08-01 |
| Multimodal | oui |
| Paramètres | 4 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 96,0 % | 202ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 77,0 % | 246ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 69,8 % | 221ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 68,0 % | 170ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 66,0 % | 206ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 36,0 % | 203ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 10,1 % | 222ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 2,0 % | 222ᵉ / 229 | benchable | ✅ Mesuré |
| IFEval | 90,2 % | 15ᵉ / 65 | llm-stats | Auto-déclaré |
| GSM8k | 89,2 % | 27ᵉ / 47 | llm-stats | Auto-déclaré |
| DocVQA | 75,8 % | 26ᵉ / 26 | llm-stats | Auto-déclaré |
| MATH | 75,6 % | 27ᵉ / 70 | llm-stats | Auto-déclaré |
| AI2D | 74,8 % | 31ᵉ / 32 | llm-stats | Auto-déclaré |
| BIG-Bench Hard | 72,2 % | 10ᵉ / 20 | llm-stats | Auto-déclaré |
| HumanEval | 71,3 % | 55ᵉ / 65 | llm-stats | Auto-déclaré |
| Natural2Code | 70,3 % | 7ᵉ / 8 | llm-stats | Auto-déclaré |
| FACTS Grounding | 70,1 % | 9ᵉ / 13 | llm-stats | Auto-déclaré |
| ChartQA | 68,8 % | 24ᵉ / 24 | llm-stats | Auto-déclaré |
| MBPP | 63,2 % | 28ᵉ / 33 | llm-stats | Auto-déclaré |
| VQAv2 (val) | 62,4 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| TextVQA | 57,8 % | 15ᵉ / 15 | llm-stats | Auto-déclaré |
| Global-MMLU-Lite | 54,5 % | 13ᵉ / 14 | llm-stats | Auto-déclaré |
| InfoVQA | 50,0 % | 9ᵉ / 9 | llm-stats | Auto-déclaré |
| MathVista-Mini | 50,0 % | 23ᵉ / 23 | llm-stats | Auto-déclaré |
| MMMU (val) | 48,8 % | 11ᵉ / 11 | llm-stats | Auto-déclaré |
| WMT24++ | 46,8 % | 18ᵉ / 23 | llm-stats | Auto-déclaré |
| MMLU-Pro | 43,6 % | 118ᵉ / 125 | llm-stats | Auto-déclaré |
| HiddenMath | 43,0 % | 7ᵉ / 13 | llm-stats | Auto-déclaré |
| Bird-SQL (dev) | 36,3 % | 6ᵉ / 7 | llm-stats | Auto-déclaré |
| GPQA | 30,8 % | 200ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 12,6 % | 71ᵉ / 72 | llm-stats | Auto-déclaré |
| BIG-Bench Extra Hard | 11,0 % | 10ᵉ / 11 | llm-stats | Auto-déclaré |
| ECLeKTic | 4,6 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| SimpleQA | 4,0 % | 42ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Email Classification (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,05 $ | 0,1 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 97 % en dessous de la moyenne des LLM similaires, et 96,7 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 4 min 50 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. À sa sortie, Gemma 3 4B figurait dans le haut du panier de sa génération sur GPQA, ce qui le situe comme un petit modèle compétitif pour son époque sur une évaluation exigeante de questions-réponses. Son résultat le plus solide dans les données Benchable concerne Ethics, avec une performance absolue élevée malgré un classement relatif modeste. Sa fenêtre de contexte de 131 072 tokens reste un atout concret pour traiter de longs documents ou conserver davantage d’historique dans une requête. Son autre force majeure est économique : son prix est très inférieur à celui des LLM similaires et environ 96.7 fois plus bas que celui des modèles frontière, tout en conservant une licence open-weights autorisant l’usage commercial.
Limites et points d'attention. Les classements Benchable placent Gemma 3 4B dans le bas de tableau sur plusieurs tâches pratiques, notamment Email Classification, General Knowledge, Coding et Reasoning. Le raisonnement est le point faible le plus net, avec un score bas et un rang défavorable parmi les modèles évalués. Son âge pèse aussi fortement : un an représente un cycle long pour les LLM, et ses performances sont aujourd’hui largement dépassées par les modèles récents. Il peut aussi être absent des catalogues actuels de l’éditeur ou moins mis en avant que les générations suivantes. Aucune donnée chiffrée fournie ne permet de documenter ici le compute d’entraînement, l’équivalent GPU H100 ou le coût d’entraînement.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).