WizardLM-2 8x22B

WizardLM-2 8x22B est un LLM de Microsoft sorti le 16 avril 2024, avec des connaissances arrêtées au 2024-04-30. Son ancienneté d’environ deux ans est très longue à l’échelle de l’IA: la fiche le situe surtout face aux modèles de sa génération, plutôt que face aux systèmes actuels.

WizardLM-2 8x22B est un LLM de Microsoft sorti le 16 avril 2024, avec des connaissances arrêtées au 2024-04-30. Son ancienneté d’environ deux ans est très longue à l’échelle de l’IA: la fiche le situe surtout face aux modèles de sa génération, plutôt que face aux systèmes actuels.

Le modèle se distingue par une fenêtre de contexte de 65 536 tokens et un positionnement très économique. À sa sortie, il figurait dans le haut du panier de sa période sur Epoch: GPQA diamond, tout en affichant un tarif nettement inférieur à celui des LLM similaires et des modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft
Date de sortie16 avril 2024
Connaissances jusqu'à2024-04-30
Multimodalnon
Fenêtre de contexte65 536 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)98,0 %161ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)95,5 %182ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)95,0 %207ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)86,0 %127ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)62,0 %209ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)50,0 %188ᵉ / 239benchable✅ Mesuré
Epoch: GPQA diamond43,4 %96ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 525,7 %60ᵉ / 84epoch✅ Mesuré
Benchable : Instruction Following (Baseline)0,0 %229ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

▶ WizardLM-2 8x22B98 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
Phi 497 %
▶ WizardLM-2 8x22B96 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
NovitaAI0,62 $0,62 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 68 % en dessous de la moyenne des LLM similaires, et 7,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable5 min 15 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. WizardLM-2 8x22B conserve un profil solide sur les tâches de connaissance générale, d’éthique et de classification d’e-mails, où ses résultats Benchable le placent parmi ses meilleurs usages mesurés. Les mathématiques apparaissent aussi comme un point relativement correct pour un modèle de cette génération. À sa sortie, son classement dans le top 19% des LLM comparables sur Epoch: GPQA diamond indiquait un modèle compétitif dans le haut du panier de sa période. Son autre atout concret reste le coût: avec une tarification très économique, 68% sous la moyenne des LLM similaires et environ 7,8 fois moins chère que les modèles frontière, il visait clairement les usages sensibles au prix.

Limites et points d'attention. WizardLM-2 8x22B est aujourd’hui un modèle ancien, probablement largement dépassé par les LLM récents et souvent plus proposé dans les catalogues actuels de l’éditeur. Ses résultats Benchable en coding et en reasoning signalent des faiblesses nettes pour la programmation, la résolution de problèmes complexes et les chaînes de raisonnement longues. Sa fenêtre de contexte reste confortable pour un modèle de 2024, mais elle ne compense pas l’écart de performance attendu avec les générations plus récentes. Ses connaissances s’arrêtent au 2024-04-30, ce qui limite aussi son intérêt sur les sujets postérieurs.


Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).