Google

Gemma 2 27B

Gemma 2 27B est un LLM open-weights de Google, publié le 27 juin 2024 sous licence Gemma avec usage commercial autorisé. Avec 27 milliards de paramètres, il visait un compromis entre modèle relativement compact, coût d’usage très bas et performances solides pour sa génération.

Son ancienneté compte fortement : près de deux ans représentent un cycle très long en IA générative. Gemma 2 27B se lit donc surtout comme un modèle marquant de mi-2024, aujourd’hui probablement dépassé par les modèles récents et souvent absent des catalogues actifs des éditeurs.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Google
Licence	Gemma (open-weights, usage commercial autorisé)
Date de sortie	27 juin 2024
Connaissances jusqu'à	2024-06-30
Multimodal	non
Paramètres	27 milliards
Fenêtre de contexte	8 192 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	97,0 %	158ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	95,0 %	207ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	81,0 %	168ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	72,0 %	192ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	50,0 %	188ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	41,0 %	188ᵉ / 217	benchable	✅ Mesuré
Epoch: GPQA diamond	36,5 %	107ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	27,9 %	59ᵉ / 84	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	1,4 %	106ᵉ / 111	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	0,0 %	229ᵉ / 252	benchable	✅ Mesuré
ARC-E	88,6 %	1ᵉ / 8	llm-stats	Auto-déclaré
HellaSwag	86,4 %	10ᵉ / 27	llm-stats	Auto-déclaré
BoolQ	84,8 %	2ᵉ / 10	llm-stats	Auto-déclaré
TriviaQA	83,7 %	2ᵉ / 18	llm-stats	Auto-déclaré
Winogrande	83,7 %	6ᵉ / 22	llm-stats	Auto-déclaré
PIQA	83,2 %	3ᵉ / 11	llm-stats	Auto-déclaré
MMLU	75,2 %	73ᵉ / 98	llm-stats	Auto-déclaré
BIG-Bench	74,9 %	2ᵉ / 3	llm-stats	Auto-déclaré
GSM8k	74,0 %	41ᵉ / 47	llm-stats	Auto-déclaré
ARC-C	71,4 %	19ᵉ / 34	llm-stats	Auto-déclaré
MBPP	62,6 %	29ᵉ / 33	llm-stats	Auto-déclaré
AGIEval	55,1 %	5ᵉ / 10	llm-stats	Auto-déclaré
Social IQa	53,7 %	4ᵉ / 9	llm-stats	Auto-déclaré
HumanEval	51,8 %	62ᵉ / 65	llm-stats	Auto-déclaré
MATH	42,3 %	64ᵉ / 70	llm-stats	Auto-déclaré
Natural Questions	34,5 %	1ᵉ / 7	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ Gemma 2 27B100 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nova-pro-v198 %

▶ Gemma 2 27B97 %

Phi 497 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
NextBit	0,65 $	0,65 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 67 % en dessous de la moyenne des LLM similaires, et 7,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	3 min 19 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Gemma 2 27B se distingue surtout par son très bon résultat en Ethics (Baseline), où il se place dans le top 10 du panel Benchable, ainsi que par un niveau élevé en General Knowledge (Baseline). La classification d’e-mails ressort aussi comme un usage solide, avec un score élevé malgré un rang moins favorable dans un ensemble très concurrentiel. À sa sortie, son résultat sur GPQA diamond le situait dans le top 42% des LLM de sa génération, ce qui en faisait un modèle crédible pour son époque plutôt qu’un simple modèle d’entrée de gamme. Son autre atout majeur est économique : son prix est très inférieur à la moyenne des LLM similaires et environ 7,4 fois plus bas que celui des modèles frontière.

Limites et points d'attention. Gemma 2 27B montre des faiblesses nettes en Reasoning (Baseline) et en Hallucinations (Baseline), deux dimensions critiques pour les tâches demandant fiabilité, vérification ou enchaînements logiques complexes. Le Coding (Baseline) reste correct mais se situe plutôt en milieu de tableau, sans signal de spécialisation forte. Sa fenêtre de contexte de 8 192 tokens limite les usages sur longs documents ou conversations étendues. Ses connaissances s’arrêtent au 2024-06-30, et son âge pèse lourd : ses performances sont aujourd’hui largement dépassées par les générations plus récentes, avec une disponibilité éditeur souvent réduite ou retirée.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

Gemma 2 27B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast