WizardLM-2 8x22B
WizardLM-2 8x22B est un LLM de Microsoft sorti le 16 avril 2024, avec des connaissances arrêtées au 2024-04-30. Son ancienneté d’environ deux ans est très longue à l’échelle de l’IA: la fiche le situe surtout face aux modèles de sa génération, plutôt que face aux systèmes actuels.
WizardLM-2 8x22B est un LLM de Microsoft sorti le 16 avril 2024, avec des connaissances arrêtées au 2024-04-30. Son ancienneté d’environ deux ans est très longue à l’échelle de l’IA: la fiche le situe surtout face aux modèles de sa génération, plutôt que face aux systèmes actuels.
Le modèle se distingue par une fenêtre de contexte de 65 536 tokens et un positionnement très économique. À sa sortie, il figurait dans le haut du panier de sa période sur Epoch: GPQA diamond, tout en affichant un tarif nettement inférieur à celui des LLM similaires et des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Microsoft |
| Date de sortie | 16 avril 2024 |
| Connaissances jusqu'à | 2024-04-30 |
| Multimodal | non |
| Fenêtre de contexte | 65 536 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 95,5 % | 182ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 95,0 % | 207ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 86,0 % | 127ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 62,0 % | 209ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 50,0 % | 188ᵉ / 239 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 43,4 % | 96ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 25,7 % | 60ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 0,0 % | 229ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| NovitaAI | 0,62 $ | 0,62 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 68 % en dessous de la moyenne des LLM similaires, et 7,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 5 min 15 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. WizardLM-2 8x22B conserve un profil solide sur les tâches de connaissance générale, d’éthique et de classification d’e-mails, où ses résultats Benchable le placent parmi ses meilleurs usages mesurés. Les mathématiques apparaissent aussi comme un point relativement correct pour un modèle de cette génération. À sa sortie, son classement dans le top 19% des LLM comparables sur Epoch: GPQA diamond indiquait un modèle compétitif dans le haut du panier de sa période. Son autre atout concret reste le coût: avec une tarification très économique, 68% sous la moyenne des LLM similaires et environ 7,8 fois moins chère que les modèles frontière, il visait clairement les usages sensibles au prix.
Limites et points d'attention. WizardLM-2 8x22B est aujourd’hui un modèle ancien, probablement largement dépassé par les LLM récents et souvent plus proposé dans les catalogues actuels de l’éditeur. Ses résultats Benchable en coding et en reasoning signalent des faiblesses nettes pour la programmation, la résolution de problèmes complexes et les chaînes de raisonnement longues. Sa fenêtre de contexte reste confortable pour un modèle de 2024, mais elle ne compense pas l’écart de performance attendu avec les générations plus récentes. Ses connaissances s’arrêtent au 2024-04-30, ce qui limite aussi son intérêt sur les sujets postérieurs.
Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).