Gemma 2 9B

Gemma 2 9B est un LLM de Google publié le 27 juin 2024, sous licence Gemma avec poids ouverts et usage commercial autorisé. Avec 9 milliards de paramètres et une fenêtre de contexte de 8 192 tokens, il appartient à la famille des modèles compacts plutôt qu’aux modèles frontière.

Gemma 2 9B est un LLM de Google publié le 27 juin 2024, sous licence Gemma avec poids ouverts et usage commercial autorisé. Avec 9 milliards de paramètres et une fenêtre de contexte de 8 192 tokens, il appartient à la famille des modèles compacts plutôt qu’aux modèles frontière.

Près de deux ans après sa sortie, Gemma 2 9B doit être lu comme un modèle de sa génération. À l’échelle de l’IA, cette ancienneté est très longue : ses résultats éclairent surtout le niveau des LLM ouverts de mi-2024, davantage qu’un état de l’art actuel.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceGemma (open-weights, usage commercial autorisé)
Date de sortie27 juin 2024
Connaissances jusqu'à2024-06-30
Multimodalnon
Paramètres9 milliards
Fenêtre de contexte8 192 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond27,5 %124ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 521,0 %68ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20250,6 %110ᵉ / 111epoch✅ Mesuré
ARC-E88,0 %2ᵉ / 8llm-statsAuto-déclaré
BoolQ84,2 %4ᵉ / 10llm-statsAuto-déclaré
HellaSwag81,9 %17ᵉ / 27llm-statsAuto-déclaré
PIQA81,7 %4ᵉ / 11llm-statsAuto-déclaré
Winogrande80,6 %11ᵉ / 22llm-statsAuto-déclaré
TriviaQA76,6 %8ᵉ / 18llm-statsAuto-déclaré
MMLU71,3 %78ᵉ / 98llm-statsAuto-déclaré
GSM8k68,6 %44ᵉ / 47llm-statsAuto-déclaré
ARC-C68,4 %25ᵉ / 34llm-statsAuto-déclaré
BIG-Bench68,2 %3ᵉ / 3llm-statsAuto-déclaré
Social IQa53,4 %5ᵉ / 9llm-statsAuto-déclaré
AGIEval52,8 %6ᵉ / 10llm-statsAuto-déclaré
MBPP52,4 %32ᵉ / 33llm-statsAuto-déclaré
HumanEval40,2 %64ᵉ / 65llm-statsAuto-déclaré
MATH36,6 %67ᵉ / 70llm-statsAuto-déclaré
Natural Questions29,2 %3ᵉ / 7llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %
Qwen3.7 Max92 %
Phi 456 %
▶ Gemma 2 9B27 %

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Gemma 2 9B21 %

Notre analyse

Forces. À sa sortie, Gemma 2 9B se situait dans le haut du panier de sa période sur GPQA diamond (questions scientifiques niveau doctorat), avec un classement dans le top 84% des LLM comparables sur la fenêtre de sortie. Son principal intérêt tient aussi à son format : 9 milliards de paramètres, des poids ouverts et une licence autorisant l’usage commercial. Cette combinaison en faisait un modèle relativement accessible à intégrer, auditer ou adapter, avec un horizon de connaissances arrêté au 30 juin 2024.

Limites et points d’attention. Les résultats disponibles montrent des limites nettes sur les tâches de raisonnement exigeantes. Sur MATH level 5, Gemma 2 9B reste en bas de tableau, et son score sur OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) indique une très faible robustesse en mathématiques compétitives. Son ancienneté pèse fortement : les performances sont aujourd’hui largement dépassées par les modèles plus récents, et un modèle de cette génération est souvent absent des catalogues actuels de son éditeur. La fenêtre de contexte de 8 192 tokens limite aussi les usages nécessitant de longs documents ou de longues conversations.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.