Qwen

Qwen: Qwen-Turbo

Qwen: Qwen-Turbo est un LLM publié par Qwen le 1 février 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer d’abord aux modèles de sa période plutôt qu’aux modèles haut de gamme actuels.

Son trait le plus marquant dans les données disponibles est sa très grande fenêtre de contexte, fixée à 1 000 000 tokens. Ses connaissances s’arrêtent au 31 mars 2025, et sa fiche repose sur deux sources de données concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Qwen
Date de sortie	1 février 2025
Connaissances jusqu'à	2025-03-31
Multimodal	non
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	56,2 %	42ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	41,8 %	98ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	6,1 %	88ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ Qwen-Turbo56 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ Qwen-Turbo42 %

Notre analyse

Forces. Qwen: Qwen-Turbo se distingue surtout par sa capacité à traiter de très longs contextes, un point utile pour l’analyse de documents volumineux ou de corpus étendus. Sur MATH level 5, il se situe dans le milieu de tableau, ce qui indique une compétence correcte sur des problèmes mathématiques structurés, sans atteindre le niveau des meilleurs modèles évalués. À sa sortie, son résultat sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, le plaçait dans la moitié supérieure des LLM de sa génération, parmi les modèles sortis dans une fenêtre comparable.

Limites et points d'attention. Le modèle montre des faiblesses nettes sur les tâches les plus exigeantes. Son classement global sur GPQA diamond reste bas dans l’ensemble du panel évalué, malgré une position plus honorable face aux modèles de sa période. OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques niveau lycée, met en évidence une performance très faible. Son ancienneté pèse aussi lourdement: les performances sont aujourd’hui largement dépassées, et un modèle de cette période est souvent retiré du catalogue actif de son éditeur. Aucun chiffre vérifié sur le coût ou l’effort d’entraînement n’est disponible dans les données fournies.

Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Qwen: Qwen-Turbo

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast