Llama 4 Maverick

Llama 4 Maverick est un LLM de Meta sorti le 5 avril 2025 sous Llama 4 Community License Agreement, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération probablement dépassée, à comparer surtout aux modèles de sa période plutôt…

Le modèle se distingue par une très grande fenêtre de contexte, proche de 1,0 M de tokens, et par une architecture de 400 milliards de paramètres dont 17 milliards actifs. Son entraînement reste notable par son ampleur, avec 2,2 × 10²⁴ FLOP, soit environ 623 000 heures-GPU H100.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Licence	Llama 4 Community License Agreement (poids non ouverts)
Date de sortie	5 avril 2025
Connaissances jusqu'à	2024-08-31
Multimodal	oui
Paramètres	400 milliards
Paramètres actifs	17 milliards
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	14.3	115ᵉ / 136
Code Index	16.3	48ᵉ / 50
Agentic Index	1.3	42ᵉ / 42
Math Index	19.3	47ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	73,0 %	30ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	67,0 %	61ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	20,6 %	72ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	0,7 %	62ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
DocVQA	94,4 %	7ᵉ / 26	llm-stats	Auto-déclaré
MGSM	92,3 %	1ᵉ / 30	llm-stats	Auto-déclaré
ChartQA	90,0 %	2ᵉ / 24	llm-stats	Auto-déclaré
MMLU	85,5 %	37ᵉ / 98	llm-stats	Auto-déclaré
MMLU-Pro	80,5 %	51ᵉ / 125	llm-stats	Auto-déclaré
MBPP	77,6 %	16ᵉ / 33	llm-stats	Auto-déclaré
MathVista	73,7 %	8ᵉ / 38	llm-stats	Auto-déclaré
MMMU	73,4 %	23ᵉ / 61	llm-stats	Auto-déclaré
GPQA	69,8 %	114ᵉ / 213	llm-stats	Auto-déclaré
MATH	61,2 %	45ᵉ / 70	llm-stats	Auto-déclaré
MMMU-Pro	59,6 %	46ᵉ / 60	llm-stats	Auto-déclaré
LiveCodeBench	43,4 %	48ᵉ / 72	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ Llama 4 Maverick14.3

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Nova 2.0 Pro Preview34.0

▶ Llama 4 Maverick16.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	1147	84ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
DeepInfra	0,15 $	0,6 $	n.d.
artificialanalysis	0,35 $	0,85 $	0,27 $

Prix en dollars US par million de tokens.

Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	2,2 × 10²⁴ FLOP
Taille du jeu d'entraînement	3,0 × 10¹³
Pays	United States of America

Notre analyse

Forces. Llama 4 Maverick avait un positionnement solide à sa sortie sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, où il figurait dans le top 14% des LLM de sa génération. Son résultat sur MATH level 5 indique aussi une capacité correcte sur des problèmes mathématiques structurés, sans atteindre les tout meilleurs modèles. Sa grande fenêtre de contexte constitue son atout le plus net pour traiter de longs documents ou de vastes historiques. Son autre avantage concret est économique : sa tarification se situe très en dessous de la moyenne des LLM similaires et environ 32,2 fois moins cher que les modèles frontière.

Limites et points d'attention. Llama 4 Maverick est aujourd’hui largement dépassé par les modèles plus récents et peut ne plus être proposé dans les catalogues actuels de l’éditeur. Ses classements globaux sont modestes, avec un Intelligence Index en bas de tableau, un Code Index très faible parmi les modèles évalués et un Agentic Index dernier de son groupe. Les résultats sur FrontierMath montrent une quasi-absence de performance sur les mathématiques de recherche très difficiles. Son classement Arena vision reste également bas. Malgré ces limites, l’effort d’entraînement demeure marquant, avec l’équivalent d’environ 290 GPU H100 tournant trois mois.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Llama 4 Maverick

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast