Gemma 4 26B-A4B
Gemma 4 26B-A4B est un LLM open-weights de Google, publié le 2 avril 2026 sous licence Apache 2.0, avec usage commercial autorisé. Le modèle compte 25 milliards de paramètres, dont 3 milliards actifs, et se distingue par une fenêtre de contexte très longue de 262 144 tokens.
Gemma 4 26B-A4B est un LLM open-weights de Google, publié le 2 avril 2026 sous licence Apache 2.0, avec usage commercial autorisé. Le modèle compte 25 milliards de paramètres, dont 3 milliards actifs, et se distingue par une fenêtre de contexte très longue de 262 144 tokens.
Son positionnement combine ouverture, coût nul indiqué en entrée comme en sortie, et génération récente, avec des connaissances arrêtées au 1er janvier 2025. À sa sortie, il se plaçait dans le top 30% des LLM de sa génération sur GPQA, selon six sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 2 avril 2026 |
| Connaissances jusqu'à | 2025-01-01 |
| Multimodal | oui |
| Paramètres | 25 milliards |
| Paramètres actifs | 3 milliards |
| Fenêtre de contexte | 262 144 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 25.7 | 77ᵉ / 136 |
| Code Index | 39.3 | 36ᵉ / 50 |
| Agentic Index | 11.0 | 36ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 76,5 % | 161ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 71,0 % | 82ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 68,0 % | 202ᵉ / 248 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 56,4 % | 38ᵉ / 52 | pinchbench | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 8,3 % | 227ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 3,0 % | 233ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 0,0 % | 236ᵉ / 248 | benchable | ✅ Mesuré |
| AIME 2026 | 88,3 % | 12ᵉ / 17 | llm-stats | Auto-déclaré |
| MMMLU | 86,3 % | 24ᵉ / 49 | llm-stats | Auto-déclaré |
| t2-bench | 85,5 % | 6ᵉ / 23 | llm-stats | Auto-déclaré |
| MMLU-Pro | 82,6 % | 33ᵉ / 125 | llm-stats | Auto-déclaré |
| MathVision | 82,4 % | 11ᵉ / 31 | llm-stats | Auto-déclaré |
| GPQA | 82,3 % | 61ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 77,1 % | 23ᵉ / 53 | llm-stats | Auto-déclaré |
| MMMU-Pro | 73,8 % | 30ᵉ / 60 | llm-stats | Auto-déclaré |
| BIG-Bench Extra Hard | 64,8 % | 2ᵉ / 11 | llm-stats | Auto-déclaré |
| MedXpertQA | 58,1 % | 6ᵉ / 12 | llm-stats | Auto-déclaré |
| MRCR v2 | 44,1 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 17,2 % | 59ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1438 | 62ᵉ |
| Arena Code | 1359 | 58ᵉ |
| Arena Vision | 1239 | 37ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Darkbloom | gratuit | gratuit | n.d. |
| DekaLLM | 0,06 $ | 0,33 $ | n.d. |
| novita | 0,13 $ | 0,4 $ | n.d. |
| artificialanalysis | 0,13 $ | 0,4 $ | 0,1 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 1,23 $ |
| Durée d'exécution — PinchBench | 4 h 58 min |
| Indice valeur/coût — PinchBench | 173,09 |
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 4 h 04 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Gemma 4 26B-A4B présente ses meilleurs signaux sur Benchable Hallucinations et Email Classification, deux évaluations où il atteint un niveau élevé par rapport à un large panel de modèles. Le suivi d’instructions ressort aussi comme un point relativement solide, avec un classement placé dans la première moitié du tableau sur Benchable Instruction Following. Sa grande fenêtre de contexte constitue un atout concret pour traiter de longs documents, des historiques étendus ou des corpus volumineux sans découpage agressif. Le modèle conserve aussi un intérêt économique marqué : sa tarification indiquée est gratuite pour l’entrée et la sortie, soit 100% sous la moyenne des LLM similaires.
Limites et points d'attention. Les indices globaux situent Gemma 4 26B-A4B davantage comme un modèle efficient et accessible que comme un modèle haut de gamme. L’Intelligence Index reste en milieu de classement, tandis que le Code Index, l’Agentic Index et PinchBench agentique montrent des limites nettes pour le développement logiciel avancé et les tâches autonomes. Les résultats Benchable en Mathematics et Coding sont également mal classés malgré des scores bruts honorables. Il vise surtout les usages où l’ouverture, le très faible coût, le long contexte et les tâches textuelles générales priment sur la performance maximale.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).