Qwen: Qwen-Turbo

Qwen: Qwen-Turbo est un LLM publié par Qwen le 1 février 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer d’abord aux modèles de sa période plutôt qu’aux modèles haut de gamme actuels.

Qwen: Qwen-Turbo est un LLM publié par Qwen le 1 février 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération ancienne à l’échelle de l’IA, à comparer d’abord aux modèles de sa période plutôt qu’aux modèles haut de gamme actuels.

Son trait le plus marquant dans les données disponibles est sa très grande fenêtre de contexte, fixée à 1 000 000 tokens. Ses connaissances s’arrêtent au 31 mars 2025, et sa fiche repose sur deux sources de données concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurQwen
Date de sortie1 février 2025
Connaissances jusqu'à2025-03-31
Multimodalnon
Fenêtre de contexte1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 556,2 %42ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond41,8 %98ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20256,1 %88ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Qwen-Turbo56 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
Phi 456 %
▶ Qwen-Turbo42 %

Notre analyse

Forces. Qwen: Qwen-Turbo se distingue surtout par sa capacité à traiter de très longs contextes, un point utile pour l’analyse de documents volumineux ou de corpus étendus. Sur MATH level 5, il se situe dans le milieu de tableau, ce qui indique une compétence correcte sur des problèmes mathématiques structurés, sans atteindre le niveau des meilleurs modèles évalués. À sa sortie, son résultat sur GPQA diamond, un benchmark de questions scientifiques niveau doctorat, le plaçait dans la moitié supérieure des LLM de sa génération, parmi les modèles sortis dans une fenêtre comparable.

Limites et points d'attention. Le modèle montre des faiblesses nettes sur les tâches les plus exigeantes. Son classement global sur GPQA diamond reste bas dans l’ensemble du panel évalué, malgré une position plus honorable face aux modèles de sa période. OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques niveau lycée, met en évidence une performance très faible. Son ancienneté pèse aussi lourdement: les performances sont aujourd’hui largement dépassées, et un modèle de cette période est souvent retiré du catalogue actif de son éditeur. Aucun chiffre vérifié sur le coût ou l’effort d’entraînement n’est disponible dans les données fournies.


Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.