Gemma 3 27B
Gemma 3 27B est un LLM de Google publié le 12 mars 2025, sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 27 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il visait un compromis entre taille maîtrisée, contexte long et coûts bas.
Gemma 3 27B est un LLM de Google publié le 12 mars 2025, sous licence Gemma, avec des poids ouverts et un usage commercial autorisé. Avec 27 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il visait un compromis entre taille maîtrisée, contexte long et coûts bas.
Son ancienneté, environ un an, est déjà très longue à l’échelle de l’IA. Gemma 3 27B se lit donc surtout comme un modèle de sa génération : à sa sortie, il se situait dans le top 43% des LLM comparables sur GPQA diamond, mais ses classements globaux indiquent aujourd’hui un net décrochage.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Gemma (open-weights, usage commercial autorisé) |
| Date de sortie | 12 mars 2025 |
| Connaissances jusqu'à | 2024-08-31 |
| Multimodal | oui |
| Paramètres | 27 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 4.8 | 135ᵉ / 136 |
| Code Index | 10.1 | 50ᵉ / 50 |
| Math Index | 20.7 | 46ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 98,0 % | 143ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 89,0 % | 118ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 84,0 % | 139ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 74,0 % | 29ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 66,0 % | 153ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 48,9 % | 83ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 19,7 % | 73ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 8,0 % | 223ᵉ / 252 | benchable | ✅ Mesuré |
| GSM8k | 95,9 % | 7ᵉ / 47 | llm-stats | Auto-déclaré |
| IFEval | 90,4 % | 13ᵉ / 65 | llm-stats | Auto-déclaré |
| MATH | 89,0 % | 7ᵉ / 70 | llm-stats | Auto-déclaré |
| HumanEval | 87,8 % | 27ᵉ / 65 | llm-stats | Auto-déclaré |
| BIG-Bench Hard | 87,6 % | 3ᵉ / 20 | llm-stats | Auto-déclaré |
| DocVQA | 86,6 % | 23ᵉ / 26 | llm-stats | Auto-déclaré |
| AI2D | 84,5 % | 23ᵉ / 32 | llm-stats | Auto-déclaré |
| Natural2Code | 84,5 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| ChartQA | 78,0 % | 21ᵉ / 24 | llm-stats | Auto-déclaré |
| Global-MMLU-Lite | 75,1 % | 6ᵉ / 14 | llm-stats | Auto-déclaré |
| FACTS Grounding | 74,9 % | 7ᵉ / 13 | llm-stats | Auto-déclaré |
| MBPP | 74,4 % | 19ᵉ / 33 | llm-stats | Auto-déclaré |
| VQAv2 (val) | 71,0 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| InfoVQA | 70,6 % | 6ᵉ / 9 | llm-stats | Auto-déclaré |
| MathVista-Mini | 67,6 % | 21ᵉ / 23 | llm-stats | Auto-déclaré |
| MMLU-Pro | 67,5 % | 88ᵉ / 125 | llm-stats | Auto-déclaré |
| TextVQA | 65,1 % | 14ᵉ / 15 | llm-stats | Auto-déclaré |
| MMMU (val) | 64,9 % | 9ᵉ / 11 | llm-stats | Auto-déclaré |
| HiddenMath | 60,3 % | 2ᵉ / 13 | llm-stats | Auto-déclaré |
| Bird-SQL (dev) | 54,4 % | 3ᵉ / 7 | llm-stats | Auto-déclaré |
| WMT24++ | 53,4 % | 14ᵉ / 23 | llm-stats | Auto-déclaré |
| GPQA | 42,4 % | 177ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 29,7 % | 61ᵉ / 72 | llm-stats | Auto-déclaré |
| BIG-Bench Extra Hard | 19,3 % | 7ᵉ / 11 | llm-stats | Auto-déclaré |
| ECLeKTic | 16,7 % | 2ᵉ / 8 | llm-stats | Auto-déclaré |
| SimpleQA | 10,0 % | 40ᵉ / 45 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1366 | 158ᵉ |
| Arena Vision | 1159 | 78ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,08 $ | 0,16 $ | n.d. |
| artificialanalysis | 0,1095 $ | 0,25 $ | 0,09 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 96 % en dessous de la moyenne des LLM similaires, et 60,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 6 min 34 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemma 3 27B garde deux atouts concrets : son coût et certains résultats ciblés. Sa tarification est très économique, 96% sous la moyenne des LLM similaires et environ 60.4 fois moins chère que les modèles frontière, ce qui le plaçait parmi les options les plus accessibles de sa catégorie. Sur Benchable Ethics (Baseline), il atteint le tout premier rang du corpus mesuré, un résultat nettement supérieur au reste de son profil. Ses scores Benchable en General Knowledge, Email Classification, Coding et Mathematics sont élevés en valeur brute, même si les rangs associés le placent plutôt dans le milieu de tableau. Sur Epoch MATH level 5, il reste dans une zone honorable pour un modèle de cette période.
Limites et points d'attention. Les indices synthétiques sont faibles : l’Intelligence Index est presque en bas du classement, le Code Index ferme son groupe de comparaison, et le Math Index reste loin des meilleurs modèles évalués. Les résultats Arena text et Arena vision confirment une position secondaire face aux modèles plus récents. Sa base de connaissances s’arrête au 31 août 2024, ce qui limite son intérêt sur les sujets postérieurs. Comme modèle ancien, Gemma 3 27B est probablement largement dépassé aujourd’hui et souvent retiré des catalogues d’éditeur, malgré une disponibilité en open-weights qui peut conserver un intérêt d’archivage, de comparaison historique ou d’exécution à bas coût.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).