Gemma 2 27B

Gemma 2 27B est un LLM open-weights de Google, publié le 27 juin 2024 sous licence Gemma avec usage commercial autorisé. Avec 27 milliards de paramètres, il visait un compromis entre modèle relativement compact, coût d’usage très bas et performances solides pour sa génération.

Gemma 2 27B est un LLM open-weights de Google, publié le 27 juin 2024 sous licence Gemma avec usage commercial autorisé. Avec 27 milliards de paramètres, il visait un compromis entre modèle relativement compact, coût d’usage très bas et performances solides pour sa génération.

Son ancienneté compte fortement : près de deux ans représentent un cycle très long en IA générative. Gemma 2 27B se lit donc surtout comme un modèle marquant de mi-2024, aujourd’hui probablement dépassé par les modèles récents et souvent absent des catalogues actifs des éditeurs.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceGemma (open-weights, usage commercial autorisé)
Date de sortie27 juin 2024
Connaissances jusqu'à2024-06-30
Multimodalnon
Paramètres27 milliards
Fenêtre de contexte8 192 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)97,0 %158ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)95,0 %207ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)81,0 %168ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)72,0 %192ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)50,0 %188ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)41,0 %188ᵉ / 217benchable✅ Mesuré
Epoch: GPQA diamond36,5 %107ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 527,9 %59ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20251,4 %106ᵉ / 111epoch✅ Mesuré
Benchable : Instruction Following (Baseline)0,0 %229ᵉ / 252benchable✅ Mesuré
ARC-E88,6 %1ᵉ / 8llm-statsAuto-déclaré
HellaSwag86,4 %10ᵉ / 27llm-statsAuto-déclaré
BoolQ84,8 %2ᵉ / 10llm-statsAuto-déclaré
TriviaQA83,7 %2ᵉ / 18llm-statsAuto-déclaré
Winogrande83,7 %6ᵉ / 22llm-statsAuto-déclaré
PIQA83,2 %3ᵉ / 11llm-statsAuto-déclaré
MMLU75,2 %73ᵉ / 98llm-statsAuto-déclaré
BIG-Bench74,9 %2ᵉ / 3llm-statsAuto-déclaré
GSM8k74,0 %41ᵉ / 47llm-statsAuto-déclaré
ARC-C71,4 %19ᵉ / 34llm-statsAuto-déclaré
MBPP62,6 %29ᵉ / 33llm-statsAuto-déclaré
AGIEval55,1 %5ᵉ / 10llm-statsAuto-déclaré
Social IQa53,7 %4ᵉ / 9llm-statsAuto-déclaré
HumanEval51,8 %62ᵉ / 65llm-statsAuto-déclaré
MATH42,3 %64ᵉ / 70llm-statsAuto-déclaré
Natural Questions34,5 %1ᵉ / 7llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ Gemma 2 27B100 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
nova-pro-v198 %
▶ Gemma 2 27B97 %
Phi 497 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NextBit0,65 $0,65 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 67 % en dessous de la moyenne des LLM similaires, et 7,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable3 min 19 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemma 2 27B se distingue surtout par son très bon résultat en Ethics (Baseline), où il se place dans le top 10 du panel Benchable, ainsi que par un niveau élevé en General Knowledge (Baseline). La classification d’e-mails ressort aussi comme un usage solide, avec un score élevé malgré un rang moins favorable dans un ensemble très concurrentiel. À sa sortie, son résultat sur GPQA diamond le situait dans le top 42% des LLM de sa génération, ce qui en faisait un modèle crédible pour son époque plutôt qu’un simple modèle d’entrée de gamme. Son autre atout majeur est économique : son prix est très inférieur à la moyenne des LLM similaires et environ 7,4 fois plus bas que celui des modèles frontière.

Limites et points d'attention. Gemma 2 27B montre des faiblesses nettes en Reasoning (Baseline) et en Hallucinations (Baseline), deux dimensions critiques pour les tâches demandant fiabilité, vérification ou enchaînements logiques complexes. Le Coding (Baseline) reste correct mais se situe plutôt en milieu de tableau, sans signal de spécialisation forte. Sa fenêtre de contexte de 8 192 tokens limite les usages sur longs documents ou conversations étendues. Ses connaissances s’arrêtent au 2024-06-30, et son âge pèse lourd : ses performances sont aujourd’hui largement dépassées par les générations plus récentes, avec une disponibilité éditeur souvent réduite ou retirée.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).