Gemma 2 27B
Gemma 2 27B est un LLM open-weights de Google, publié le 27 juin 2024 sous licence Gemma avec usage commercial autorisé. Avec 27 milliards de paramètres, il visait un compromis entre modèle relativement compact, coût d’usage très bas et performances solides pour sa génération.
Gemma 2 27B est un LLM open-weights de Google, publié le 27 juin 2024 sous licence Gemma avec usage commercial autorisé. Avec 27 milliards de paramètres, il visait un compromis entre modèle relativement compact, coût d’usage très bas et performances solides pour sa génération.
Son ancienneté compte fortement : près de deux ans représentent un cycle très long en IA générative. Gemma 2 27B se lit donc surtout comme un modèle marquant de mi-2024, aujourd’hui probablement dépassé par les modèles récents et souvent absent des catalogues actifs des éditeurs.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Gemma (open-weights, usage commercial autorisé) |
| Date de sortie | 27 juin 2024 |
| Connaissances jusqu'à | 2024-06-30 |
| Multimodal | non |
| Paramètres | 27 milliards |
| Fenêtre de contexte | 8 192 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 97,0 % | 158ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 95,0 % | 207ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 81,0 % | 168ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 72,0 % | 192ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 50,0 % | 188ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 41,0 % | 188ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 36,5 % | 107ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 27,9 % | 59ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 1,4 % | 106ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 0,0 % | 229ᵉ / 252 | benchable | ✅ Mesuré |
| ARC-E | 88,6 % | 1ᵉ / 8 | llm-stats | Auto-déclaré |
| HellaSwag | 86,4 % | 10ᵉ / 27 | llm-stats | Auto-déclaré |
| BoolQ | 84,8 % | 2ᵉ / 10 | llm-stats | Auto-déclaré |
| TriviaQA | 83,7 % | 2ᵉ / 18 | llm-stats | Auto-déclaré |
| Winogrande | 83,7 % | 6ᵉ / 22 | llm-stats | Auto-déclaré |
| PIQA | 83,2 % | 3ᵉ / 11 | llm-stats | Auto-déclaré |
| MMLU | 75,2 % | 73ᵉ / 98 | llm-stats | Auto-déclaré |
| BIG-Bench | 74,9 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| GSM8k | 74,0 % | 41ᵉ / 47 | llm-stats | Auto-déclaré |
| ARC-C | 71,4 % | 19ᵉ / 34 | llm-stats | Auto-déclaré |
| MBPP | 62,6 % | 29ᵉ / 33 | llm-stats | Auto-déclaré |
| AGIEval | 55,1 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| Social IQa | 53,7 % | 4ᵉ / 9 | llm-stats | Auto-déclaré |
| HumanEval | 51,8 % | 62ᵉ / 65 | llm-stats | Auto-déclaré |
| MATH | 42,3 % | 64ᵉ / 70 | llm-stats | Auto-déclaré |
| Natural Questions | 34,5 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NextBit | 0,65 $ | 0,65 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 67 % en dessous de la moyenne des LLM similaires, et 7,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 3 min 19 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemma 2 27B se distingue surtout par son très bon résultat en Ethics (Baseline), où il se place dans le top 10 du panel Benchable, ainsi que par un niveau élevé en General Knowledge (Baseline). La classification d’e-mails ressort aussi comme un usage solide, avec un score élevé malgré un rang moins favorable dans un ensemble très concurrentiel. À sa sortie, son résultat sur GPQA diamond le situait dans le top 42% des LLM de sa génération, ce qui en faisait un modèle crédible pour son époque plutôt qu’un simple modèle d’entrée de gamme. Son autre atout majeur est économique : son prix est très inférieur à la moyenne des LLM similaires et environ 7,4 fois plus bas que celui des modèles frontière.
Limites et points d'attention. Gemma 2 27B montre des faiblesses nettes en Reasoning (Baseline) et en Hallucinations (Baseline), deux dimensions critiques pour les tâches demandant fiabilité, vérification ou enchaînements logiques complexes. Le Coding (Baseline) reste correct mais se situe plutôt en milieu de tableau, sans signal de spécialisation forte. Sa fenêtre de contexte de 8 192 tokens limite les usages sur longs documents ou conversations étendues. Ses connaissances s’arrêtent au 2024-06-30, et son âge pèse lourd : ses performances sont aujourd’hui largement dépassées par les générations plus récentes, avec une disponibilité éditeur souvent réduite ou retirée.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).