Gemma 3n E4B Instructed
Gemma 3n E4B Instructed est un LLM de Google sorti le 26 juin 2025, sous licence propriétaire avec poids non ouverts. Avec 8 milliards de paramètres et une fenêtre de contexte de 32 768 tokens, il appartient à la catégorie des modèles compacts, pensés pour un coût d’usage très bas plutôt…
Gemma 3n E4B Instructed est un LLM de Google sorti le 26 juin 2025, sous licence propriétaire avec poids non ouverts. Avec 8 milliards de paramètres et une fenêtre de contexte de 32 768 tokens, il appartient à la catégorie des modèles compacts, pensés pour un coût d’usage très bas plutôt que pour la course aux performances maximales.
Son ancienneté d’environ un an est déjà importante à l’échelle de l’IA générative. Le modèle doit donc être lu comme un LLM de sa période, avec des connaissances arrêtées au 1 juin 2024, probablement dépassé par les générations récentes et souvent absent des catalogues actuels de l’éditeur.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 26 juin 2025 |
| Connaissances jusqu'à | 2024-06-01 |
| Multimodal | oui |
| Paramètres | 8 milliards |
| Fenêtre de contexte | 32 768 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 95,0 % | 186ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 71,0 % | 198ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 58,0 % | 167ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 2,0 % | 228ᵉ / 252 | benchable | ✅ Mesuré |
| HumanEval | 75,0 % | 48ᵉ / 65 | llm-stats | Auto-déclaré |
| MGSM | 67,0 % | 22ᵉ / 30 | llm-stats | Auto-déclaré |
| MMLU | 64,9 % | 91ᵉ / 98 | llm-stats | Auto-déclaré |
| Global-MMLU-Lite | 64,5 % | 9ᵉ / 14 | llm-stats | Auto-déclaré |
| MBPP | 63,6 % | 26ᵉ / 33 | llm-stats | Auto-déclaré |
| Global-MMLU | 60,3 % | 2ᵉ / 5 | llm-stats | Auto-déclaré |
| Include | 57,2 % | 26ᵉ / 31 | llm-stats | Auto-déclaré |
| MMLU-Pro | 50,6 % | 109ᵉ / 125 | llm-stats | Auto-déclaré |
| WMT24++ | 50,1 % | 16ᵉ / 23 | llm-stats | Auto-déclaré |
| HiddenMath | 37,7 % | 8ᵉ / 13 | llm-stats | Auto-déclaré |
| LiveCodeBench v5 | 25,7 % | 6ᵉ / 9 | llm-stats | Auto-déclaré |
| GPQA | 23,7 % | 210ᵉ / 213 | llm-stats | Auto-déclaré |
| MMLU-ProX | 19,9 % | 29ᵉ / 32 | llm-stats | Auto-déclaré |
| ECLeKTic | 19,0 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| Codegolf v2.2 | 16,8 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| LiveCodeBench | 13,2 % | 67ᵉ / 72 | llm-stats | Auto-déclaré |
| AIME 2025 | 11,6 % | 105ᵉ / 108 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Together | 0,06 $ | 0,12 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 97 % en dessous de la moyenne des LLM similaires, et 80,6 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 6 min 57 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemma 3n E4B Instructed se distingue surtout par son rapport coût-performance. Sa tarification est très économique, nettement sous la moyenne des LLM similaires et bien inférieure à celle des modèles frontière. Côté évaluations, son meilleur signal vient de Email Classification (Baseline), où il obtient un résultat de tout premier plan, ce qui indique une bonne aptitude aux tâches de tri et de catégorisation de messages. Ethics (Baseline) et General Knowledge (Baseline) montrent aussi des scores élevés, même si leurs classements restent moins dominants. À sa sortie, le modèle figurait dans le top 98% sur GPQA parmi les LLM de sa génération, ce qui le plaçait alors dans le haut du panier sur ce test exigeant.
Limites et points d’attention. Le principal point faible est Instruction Following (Baseline), où le modèle se situe très bas dans le classement, un signal critique pour les usages fondés sur des consignes précises. Coding (Baseline) et Reasoning (Baseline) restent également en retrait, avec des positions de bas de tableau plutôt que de modèle polyvalent avancé. Son statut propriétaire limite l’audit et la réutilisation des poids. Son âge pèse aussi fortement : un an représente un cycle long pour les LLM, et ses performances sont aujourd’hui probablement largement dépassées par les modèles récents. Les données disponibles reposent toutefois sur 3 sources concordantes, ce qui donne une base de comparaison relativement stable pour replacer ce modèle dans son contexte de 2025.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).