Llama 3.2 90B

Llama 3.2 90B est un LLM de Meta sorti le 24 septembre 2024. À l’échelle de l’IA générative, son ancienneté d’environ deux ans en fait déjà un modèle de génération passée, à lire surtout dans le contexte des LLM disponibles autour de sa sortie.

Llama 3.2 90B est un LLM de Meta sorti le 24 septembre 2024. À l’échelle de l’IA générative, son ancienneté d’environ deux ans en fait déjà un modèle de génération passée, à lire surtout dans le contexte des LLM disponibles autour de sa sortie.

Son principal intérêt historique tient à son positionnement initial : sur GPQA diamond, un test de questions scientifiques de niveau doctorat, il se plaçait dans le top 35% des LLM de sa période. Cette fiche sert donc à distinguer ce qu’il valait à son lancement de ce qu’il représente encore aujourd’hui.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeta
Date de sortie24 septembre 2024

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond41,0 %99ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 539,4 %55ᵉ / 84epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20252,6 %98ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Llama 3.2 90B41 %

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Llama 3.2 90B39 %

Notre analyse

Forces. Le meilleur signal de Llama 3.2 90B vient de GPQA diamond, où le modèle figurait à sa sortie dans le haut de sa génération sur des questions scientifiques avancées. Ce résultat indique une capacité réelle à traiter des problèmes de connaissances complexes, au moins par rapport aux LLM publiés dans la même fenêtre temporelle. MATH level 5 montre aussi une compétence mathématique non négligeable, même si le modèle n’y domine pas le classement. Dans l’ensemble, Llama 3.2 90B apparaît comme un modèle sérieux de sa période, plus intéressant comme repère historique que comme référence actuelle.

Limites et points d'attention. Ses performances sont aujourd’hui largement dépassées par les modèles haut de gamme récents, et son ancienneté rend probable son retrait ou son remplacement dans les catalogues de l’éditeur. Les résultats en raisonnement mathématique compétitif sont particulièrement faibles : OTIS Mock AIME 2024-2025, centré sur des problèmes d’olympiades de niveau lycée, le place très bas dans le classement. Le rang global sur GPQA diamond reste également modeste tous modèles confondus, malgré un bon positionnement relatif à sa sortie. La couverture repose sur une seule source de données concordante, ce qui limite la profondeur de l’évaluation disponible.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.