Xiaomi

MiMo-V2.5-Pro

MiMo-V2.5-Pro est un LLM open-weights de Xiaomi, publié le 27 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte de 1 048 576 tokens, soit environ 1,0 M, et par une architecture annoncée à 1023 milliards de paramètres, dont…

Son positionnement combine grande échelle, accès ouvert et prix très agressif. La tarification est indiquée comme très économique, 78% sous la moyenne des LLM similaires et environ 11,1 fois moins chère que les modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Xiaomi
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	27 avril 2026
Multimodal	non
Paramètres	1023 milliards
Paramètres actifs	42 milliards
Fenêtre de contexte	1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	42.2	14ᵉ / 136
Code Index	60.2	12ᵉ / 50
Agentic Index	29.1	18ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	87,5 %	7ᵉ / 52	pinchbench	✅ Mesuré
Benchable : Instruction Following (Baseline)	77,0 %	58ᵉ / 252	benchable	✅ Mesuré
GSM8k	99,6 %	1ᵉ / 47	llm-stats	Auto-déclaré
ARC-C	97,2 %	1ᵉ / 34	llm-stats	Auto-déclaré
MMLU-Redux	92,8 %	15ᵉ / 48	llm-stats	Auto-déclaré
C-Eval	91,5 %	5ᵉ / 18	llm-stats	Auto-déclaré
CMMLU	90,2 %	1ᵉ / 6	llm-stats	Auto-déclaré
HellaSwag	89,8 %	4ᵉ / 27	llm-stats	Auto-déclaré
MMLU	89,4 %	14ᵉ / 98	llm-stats	Auto-déclaré
BBH	88,4 %	2ᵉ / 12	llm-stats	Auto-déclaré
DROP	86,3 %	3ᵉ / 29	llm-stats	Auto-déclaré
MATH	86,2 %	11ᵉ / 70	llm-stats	Auto-déclaré
Winogrande	85,6 %	2ᵉ / 22	llm-stats	Auto-déclaré
Global-MMLU	83,6 %	1ᵉ / 5	llm-stats	Auto-déclaré
TriviaQA	81,3 %	3ᵉ / 18	llm-stats	Auto-déclaré
SWE-Bench Verified	78,9 %	16ᵉ / 100	llm-stats	Auto-déclaré
HumanEval+	75,6 %	7ᵉ / 10	llm-stats	Auto-déclaré
MBPP+	74,1 %	1ᵉ / 4	llm-stats	Auto-déclaré
TAU3-Bench	72,9 %	1ᵉ / 5	llm-stats	Auto-déclaré
MMLU-Pro	68,5 %	85ᵉ / 125	llm-stats	Auto-déclaré
Terminal-Bench 2.0	68,4 %	12ᵉ / 48	llm-stats	Auto-déclaré
GPQA	66,7 %	123ᵉ / 213	llm-stats	Auto-déclaré
Claw-Eval	64,0 %	5ᵉ / 12	llm-stats	Auto-déclaré
GraphWalks	62,0 %	3ᵉ / 3	llm-stats	Auto-déclaré
SWE-Bench Pro	57,2 %	14ᵉ / 34	llm-stats	Auto-déclaré
WildClawBench	43,0 %	3ᵉ / 3	llm-stats	Auto-déclaré
GDPval-AA	42,9 %	13ᵉ / 33	llm-stats	n.d.
Finance Agent v2	41,5 %	14ᵉ / 25	llm-stats	n.d.
LiveCodeBench v6	39,6 %	50ᵉ / 53	llm-stats	Auto-déclaré
Humanity's Last Exam	34,0 %	37ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

DeepSeek V4 Pro44.3

▶ MiMo-V2.5-Pro42.2

Grok Build 0.1 061639.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Qwen3.7 Max66.0

▶ MiMo-V2.5-Pro60.2

DeepSeek V4 Pro59.4

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Code	1471	21ᵉ
Arena Text	1466	29ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
xiaomi	0,435 $	0,87 $	n.d.
Xiaomi	0,435 $	0,87 $	0,0036 $
deepinfra	1 $	3 $	n.d.
novita	2 $	6 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	12,13 $
Durée d'exécution — PinchBench	4 h 11 min
Indice valeur/coût — PinchBench	7,86
Coût moyen par benchmark — Benchable	0,31 $
Latence moyenne par benchmark — Benchable	26 min 39 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. MiMo-V2.5-Pro affiche ses meilleurs signaux sur les tâches de connaissance générale et d’éthique dans Benchable, où il atteint le top 10. Le volet code est également solide, avec un Code Index placé parmi les meilleurs de son panel, un bon résultat Benchable en Coding et une Arena code compétitive. La fenêtre de contexte d’environ 1,0 M de tokens constitue un atout concret pour traiter de longs documents, des bases de connaissances étendues ou des dépôts volumineux. À sa sortie, le modèle se situait dans le top 66% des LLM de sa génération sur GPQA, ce qui le place dans une zone intermédiaire plutôt qu’au sommet sur ce test.

Limites et points d'attention. L’Agentic Index est moins favorable que le Code Index, ce qui signale un profil moins dominant sur les usages agentiques. Les classements Arena text et Arena code restent en retrait des tout premiers modèles, malgré des scores Elo compétitifs. Les résultats Benchable en Hallucinations et Email Classification sont élevés en pourcentage, mais leurs rangs indiquent une différenciation limitée face à un grand nombre de concurrents. Le principal intérêt opérationnel tient donc à l’équilibre entre performances générales, très grand contexte, licence MIT et coût bas. MiMo-V2.5-Pro convient surtout aux usages nécessitant un modèle ouvert, économique et capable de gérer de longs contextes, avec un accent particulier sur le code et les tâches généralistes.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

MiMo-V2.5-Pro

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast