Qwen2.5 7B Instruct
Qwen2.5 7B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous licence Apache 2.0 avec usage commercial autorisé. Avec 8 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il visait un équilibre entre coût réduit, contexte long et déploiement…
Qwen2.5 7B Instruct est un LLM open-weights de Qwen, publié le 19 septembre 2024 sous licence Apache 2.0 avec usage commercial autorisé. Avec 8 milliards de paramètres et une fenêtre de contexte de 131 072 tokens, il visait un équilibre entre coût réduit, contexte long et déploiement accessible.
Près de deux ans après sa sortie, ce modèle doit être lu comme un représentant de sa génération, non comme une référence actuelle. À sa sortie, il se situait dans le top 69% des LLM comparables sur GPQA. Son tarif reste son marqueur le plus net, avec un positionnement très économique, très inférieur à la moyenne des LLM similaires.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Qwen |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 19 septembre 2024 |
| Connaissances jusqu'à | 2024-06-30 |
| Multimodal | non |
| Paramètres | 8 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 94,0 % | 217ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 83,0 % | 156ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 80,5 % | 151ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 76,5 % | 218ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 61,0 % | 223ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 56,8 % | 172ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 45,5 % | 187ᵉ / 252 | benchable | ✅ Mesuré |
| GSM8k | 91,6 % | 21ᵉ / 47 | llm-stats | Auto-déclaré |
| MT-Bench | 87,5 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| HumanEval | 84,8 % | 36ᵉ / 65 | llm-stats | Auto-déclaré |
| MBPP | 79,2 % | 14ᵉ / 33 | llm-stats | Auto-déclaré |
| MATH | 75,5 % | 28ᵉ / 70 | llm-stats | Auto-déclaré |
| MMLU-Redux | 75,4 % | 43ᵉ / 48 | llm-stats | Auto-déclaré |
| AlignBench | 73,3 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| IFEval | 71,2 % | 61ᵉ / 65 | llm-stats | Auto-déclaré |
| MultiPL-E | 70,4 % | 9ᵉ / 13 | llm-stats | Auto-déclaré |
| MMLU-Pro | 56,3 % | 103ᵉ / 125 | llm-stats | Auto-déclaré |
| Arena Hard | 52,0 % | 18ᵉ / 26 | llm-stats | Auto-déclaré |
| GPQA | 36,4 % | 191ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveBench | 35,9 % | 37ᵉ / 38 | llm-stats | Auto-déclaré |
| LiveCodeBench | 28,7 % | 62ᵉ / 72 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Hallucinations (Baseline)
Benchable : Email Classification (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Phala | 0,04 $ | 0,1 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 98 % en dessous de la moyenne des LLM similaires, et 120,8 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 1 h 06 min |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Qwen2.5 7B Instruct conserve deux atouts concrets : un coût d’usage très bas et une licence permissive. Sa tarification est indiquée comme 98% inférieure à la moyenne des LLM similaires, et environ 120.8 fois moins chère que les modèles frontière, ce qui en faisait un candidat rationnel pour des volumes importants. Côté Benchable, son meilleur signal concerne Hallucinations (Baseline), où il se place dans une zone solide du classement. Ses résultats en Coding (Baseline) et Mathematics (Baseline) montrent aussi une capacité exploitable pour des tâches structurées simples à intermédiaires, surtout dans le contexte des LLM de sa période.
Limites et points d'attention. Son ancienneté est déterminante : près de deux ans représentent un cycle très long dans l’IA générative, et ses performances sont aujourd’hui largement dépassées par des modèles plus récents. Les classements Benchable en Email Classification, General Knowledge et Ethics le situent nettement en retrait, malgré certains scores bruts élevés. Sa connaissance s’arrête au 30 juin 2024, ce qui limite les usages dépendants d’informations récentes. Le modèle peut aussi être absent des catalogues actuels de son éditeur, comme c’est souvent le cas pour des générations remplacées.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).