MiMo-V2.5-Pro

MiMo-V2.5-Pro est un LLM open-weights de Xiaomi, publié le 27 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte de 1 048 576 tokens, soit environ 1,0 M, et par une architecture annoncée à 1023 milliards de paramètres, dont…

MiMo-V2.5-Pro est un LLM open-weights de Xiaomi, publié le 27 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte de 1 048 576 tokens, soit environ 1,0 M, et par une architecture annoncée à 1023 milliards de paramètres, dont 42 milliards actifs.

Son positionnement combine grande échelle, accès ouvert et prix très agressif. La tarification est indiquée comme très économique, 78% sous la moyenne des LLM similaires et environ 11,1 fois moins chère que les modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurXiaomi
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie27 avril 2026
Multimodalnon
Paramètres1023 milliards
Paramètres actifs42 milliards
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index42.214ᵉ / 136
Code Index60.212ᵉ / 50
Agentic Index29.118ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)87,5 %7ᵉ / 52pinchbench✅ Mesuré
Benchable : Instruction Following (Baseline)77,0 %58ᵉ / 252benchable✅ Mesuré
GSM8k99,6 %1ᵉ / 47llm-statsAuto-déclaré
ARC-C97,2 %1ᵉ / 34llm-statsAuto-déclaré
MMLU-Redux92,8 %15ᵉ / 48llm-statsAuto-déclaré
C-Eval91,5 %5ᵉ / 18llm-statsAuto-déclaré
CMMLU90,2 %1ᵉ / 6llm-statsAuto-déclaré
HellaSwag89,8 %4ᵉ / 27llm-statsAuto-déclaré
MMLU89,4 %14ᵉ / 98llm-statsAuto-déclaré
BBH88,4 %2ᵉ / 12llm-statsAuto-déclaré
DROP86,3 %3ᵉ / 29llm-statsAuto-déclaré
MATH86,2 %11ᵉ / 70llm-statsAuto-déclaré
Winogrande85,6 %2ᵉ / 22llm-statsAuto-déclaré
Global-MMLU83,6 %1ᵉ / 5llm-statsAuto-déclaré
TriviaQA81,3 %3ᵉ / 18llm-statsAuto-déclaré
SWE-Bench Verified78,9 %16ᵉ / 100llm-statsAuto-déclaré
HumanEval+75,6 %7ᵉ / 10llm-statsAuto-déclaré
MBPP+74,1 %1ᵉ / 4llm-statsAuto-déclaré
TAU3-Bench72,9 %1ᵉ / 5llm-statsAuto-déclaré
MMLU-Pro68,5 %85ᵉ / 125llm-statsAuto-déclaré
Terminal-Bench 2.068,4 %12ᵉ / 48llm-statsAuto-déclaré
GPQA66,7 %123ᵉ / 213llm-statsAuto-déclaré
Claw-Eval64,0 %5ᵉ / 12llm-statsAuto-déclaré
GraphWalks62,0 %3ᵉ / 3llm-statsAuto-déclaré
SWE-Bench Pro57,2 %14ᵉ / 34llm-statsAuto-déclaré
WildClawBench43,0 %3ᵉ / 3llm-statsAuto-déclaré
GDPval-AA42,9 %13ᵉ / 33llm-statsn.d.
Finance Agent v241,5 %14ᵉ / 25llm-statsn.d.
LiveCodeBench v639,6 %50ᵉ / 53llm-statsAuto-déclaré
Humanity's Last Exam34,0 %37ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ MiMo-V2.5-Pro42.2
Grok Build 0.1 061639.8

Code Index

Qwen3.7 Max66.0
▶ MiMo-V2.5-Pro60.2

Classements Arena (Elo)

CatégorieEloRang
Arena Code147121ᵉ
Arena Text146629ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
xiaomi0,435 $0,87 $n.d.
Xiaomi0,435 $0,87 $0,0036 $
deepinfra1 $3 $n.d.
novita2 $6 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)12,13 $
Durée d'exécution — PinchBench4 h 11 min
Indice valeur/coût — PinchBench7,86
Coût moyen par benchmark — Benchable0,31 $
Latence moyenne par benchmark — Benchable26 min 39 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. MiMo-V2.5-Pro affiche ses meilleurs signaux sur les tâches de connaissance générale et d’éthique dans Benchable, où il atteint le top 10. Le volet code est également solide, avec un Code Index placé parmi les meilleurs de son panel, un bon résultat Benchable en Coding et une Arena code compétitive. La fenêtre de contexte d’environ 1,0 M de tokens constitue un atout concret pour traiter de longs documents, des bases de connaissances étendues ou des dépôts volumineux. À sa sortie, le modèle se situait dans le top 66% des LLM de sa génération sur GPQA, ce qui le place dans une zone intermédiaire plutôt qu’au sommet sur ce test.

Limites et points d'attention. L’Agentic Index est moins favorable que le Code Index, ce qui signale un profil moins dominant sur les usages agentiques. Les classements Arena text et Arena code restent en retrait des tout premiers modèles, malgré des scores Elo compétitifs. Les résultats Benchable en Hallucinations et Email Classification sont élevés en pourcentage, mais leurs rangs indiquent une différenciation limitée face à un grand nombre de concurrents. Le principal intérêt opérationnel tient donc à l’équilibre entre performances générales, très grand contexte, licence MIT et coût bas. MiMo-V2.5-Pro convient surtout aux usages nécessitant un modèle ouvert, économique et capable de gérer de longs contextes, avec un accent particulier sur le code et les tâches généralistes.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).