Llama 4 Maverick
Llama 4 Maverick est un LLM de Meta sorti le 5 avril 2025 sous Llama 4 Community License Agreement, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération probablement dépassée, à comparer surtout aux modèles de sa période plutôt…
Llama 4 Maverick est un LLM de Meta sorti le 5 avril 2025 sous Llama 4 Community License Agreement, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération probablement dépassée, à comparer surtout aux modèles de sa période plutôt qu’aux systèmes actuels.
Le modèle se distingue par une très grande fenêtre de contexte, proche de 1,0 M de tokens, et par une architecture de 400 milliards de paramètres dont 17 milliards actifs. Son entraînement reste notable par son ampleur, avec 2,2 × 10²⁴ FLOP, soit environ 623 000 heures-GPU H100.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Licence | Llama 4 Community License Agreement (poids non ouverts) |
| Date de sortie | 5 avril 2025 |
| Connaissances jusqu'à | 2024-08-31 |
| Multimodal | oui |
| Paramètres | 400 milliards |
| Paramètres actifs | 17 milliards |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 14.3 | 115ᵉ / 136 |
| Code Index | 16.3 | 48ᵉ / 50 |
| Agentic Index | 1.3 | 42ᵉ / 42 |
| Math Index | 19.3 | 47ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 73,0 % | 30ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 67,0 % | 61ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 20,6 % | 72ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 0,7 % | 62ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| DocVQA | 94,4 % | 7ᵉ / 26 | llm-stats | Auto-déclaré |
| MGSM | 92,3 % | 1ᵉ / 30 | llm-stats | Auto-déclaré |
| ChartQA | 90,0 % | 2ᵉ / 24 | llm-stats | Auto-déclaré |
| MMLU | 85,5 % | 37ᵉ / 98 | llm-stats | Auto-déclaré |
| MMLU-Pro | 80,5 % | 51ᵉ / 125 | llm-stats | Auto-déclaré |
| MBPP | 77,6 % | 16ᵉ / 33 | llm-stats | Auto-déclaré |
| MathVista | 73,7 % | 8ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 73,4 % | 23ᵉ / 61 | llm-stats | Auto-déclaré |
| GPQA | 69,8 % | 114ᵉ / 213 | llm-stats | Auto-déclaré |
| MATH | 61,2 % | 45ᵉ / 70 | llm-stats | Auto-déclaré |
| MMMU-Pro | 59,6 % | 46ᵉ / 60 | llm-stats | Auto-déclaré |
| LiveCodeBench | 43,4 % | 48ᵉ / 72 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 1147 | 84ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| DeepInfra | 0,15 $ | 0,6 $ | n.d. |
| artificialanalysis | 0,35 $ | 0,85 $ | 0,27 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 2,2 × 10²⁴ FLOP |
| Taille du jeu d'entraînement | 3,0 × 10¹³ |
| Pays | United States of America |
Notre analyse
Forces. Llama 4 Maverick avait un positionnement solide à sa sortie sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, où il figurait dans le top 14% des LLM de sa génération. Son résultat sur MATH level 5 indique aussi une capacité correcte sur des problèmes mathématiques structurés, sans atteindre les tout meilleurs modèles. Sa grande fenêtre de contexte constitue son atout le plus net pour traiter de longs documents ou de vastes historiques. Son autre avantage concret est économique : sa tarification se situe très en dessous de la moyenne des LLM similaires et environ 32,2 fois moins cher que les modèles frontière.
Limites et points d'attention. Llama 4 Maverick est aujourd’hui largement dépassé par les modèles plus récents et peut ne plus être proposé dans les catalogues actuels de l’éditeur. Ses classements globaux sont modestes, avec un Intelligence Index en bas de tableau, un Code Index très faible parmi les modèles évalués et un Agentic Index dernier de son groupe. Les résultats sur FrontierMath montrent une quasi-absence de performance sur les mathématiques de recherche très difficiles. Son classement Arena vision reste également bas. Malgré ces limites, l’effort d’entraînement demeure marquant, avec l’équivalent d’environ 290 GPU H100 tournant trois mois.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.