Microsoft

WizardLM-2 8x22B

WizardLM-2 8x22B est un LLM de Microsoft sorti le 16 avril 2024, avec des connaissances arrêtées au 2024-04-30. Son ancienneté d’environ deux ans est très longue à l’échelle de l’IA: la fiche le situe surtout face aux modèles de sa génération, plutôt que face aux systèmes actuels.

Le modèle se distingue par une fenêtre de contexte de 65 536 tokens et un positionnement très économique. À sa sortie, il figurait dans le haut du panier de sa période sur Epoch: GPQA diamond, tout en affichant un tarif nettement inférieur à celui des LLM similaires et des modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft
Date de sortie	16 avril 2024
Connaissances jusqu'à	2024-04-30
Multimodal	non
Fenêtre de contexte	65 536 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	98,0 %	161ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	95,5 %	182ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	95,0 %	207ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	86,0 %	127ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	62,0 %	209ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	50,0 %	188ᵉ / 239	benchable	✅ Mesuré
Epoch: GPQA diamond	43,4 %	96ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	25,7 %	60ᵉ / 84	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	0,0 %	229ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ WizardLM-2 8x22B98 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

Phi 497 %

▶ WizardLM-2 8x22B96 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
NovitaAI	0,62 $	0,62 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 68 % en dessous de la moyenne des LLM similaires, et 7,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	5 min 15 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. WizardLM-2 8x22B conserve un profil solide sur les tâches de connaissance générale, d’éthique et de classification d’e-mails, où ses résultats Benchable le placent parmi ses meilleurs usages mesurés. Les mathématiques apparaissent aussi comme un point relativement correct pour un modèle de cette génération. À sa sortie, son classement dans le top 19% des LLM comparables sur Epoch: GPQA diamond indiquait un modèle compétitif dans le haut du panier de sa période. Son autre atout concret reste le coût: avec une tarification très économique, 68% sous la moyenne des LLM similaires et environ 7,8 fois moins chère que les modèles frontière, il visait clairement les usages sensibles au prix.

Limites et points d'attention. WizardLM-2 8x22B est aujourd’hui un modèle ancien, probablement largement dépassé par les LLM récents et souvent plus proposé dans les catalogues actuels de l’éditeur. Ses résultats Benchable en coding et en reasoning signalent des faiblesses nettes pour la programmation, la résolution de problèmes complexes et les chaînes de raisonnement longues. Sa fenêtre de contexte reste confortable pour un modèle de 2024, mais elle ne compense pas l’écart de performance attendu avec les générations plus récentes. Ses connaissances s’arrêtent au 2024-04-30, ce qui limite aussi son intérêt sur les sujets postérieurs.

Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

WizardLM-2 8x22B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast