MiMo-V2.5-Pro
MiMo-V2.5-Pro est un LLM open-weights de Xiaomi, publié le 27 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte de 1 048 576 tokens, soit environ 1,0 M, et par une architecture annoncée à 1023 milliards de paramètres, dont…
MiMo-V2.5-Pro est un LLM open-weights de Xiaomi, publié le 27 avril 2026 sous licence MIT avec usage commercial autorisé. Il se distingue par une très grande fenêtre de contexte de 1 048 576 tokens, soit environ 1,0 M, et par une architecture annoncée à 1023 milliards de paramètres, dont 42 milliards actifs.
Son positionnement combine grande échelle, accès ouvert et prix très agressif. La tarification est indiquée comme très économique, 78% sous la moyenne des LLM similaires et environ 11,1 fois moins chère que les modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Xiaomi |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 27 avril 2026 |
| Multimodal | non |
| Paramètres | 1023 milliards |
| Paramètres actifs | 42 milliards |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 42.2 | 14ᵉ / 136 |
| Code Index | 60.2 | 12ᵉ / 50 |
| Agentic Index | 29.1 | 18ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 96,0 % | 11ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 87,5 % | 7ᵉ / 52 | pinchbench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 77,0 % | 58ᵉ / 252 | benchable | ✅ Mesuré |
| GSM8k | 99,6 % | 1ᵉ / 47 | llm-stats | Auto-déclaré |
| ARC-C | 97,2 % | 1ᵉ / 34 | llm-stats | Auto-déclaré |
| MMLU-Redux | 92,8 % | 15ᵉ / 48 | llm-stats | Auto-déclaré |
| C-Eval | 91,5 % | 5ᵉ / 18 | llm-stats | Auto-déclaré |
| CMMLU | 90,2 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| HellaSwag | 89,8 % | 4ᵉ / 27 | llm-stats | Auto-déclaré |
| MMLU | 89,4 % | 14ᵉ / 98 | llm-stats | Auto-déclaré |
| BBH | 88,4 % | 2ᵉ / 12 | llm-stats | Auto-déclaré |
| DROP | 86,3 % | 3ᵉ / 29 | llm-stats | Auto-déclaré |
| MATH | 86,2 % | 11ᵉ / 70 | llm-stats | Auto-déclaré |
| Winogrande | 85,6 % | 2ᵉ / 22 | llm-stats | Auto-déclaré |
| Global-MMLU | 83,6 % | 1ᵉ / 5 | llm-stats | Auto-déclaré |
| TriviaQA | 81,3 % | 3ᵉ / 18 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 78,9 % | 16ᵉ / 100 | llm-stats | Auto-déclaré |
| HumanEval+ | 75,6 % | 7ᵉ / 10 | llm-stats | Auto-déclaré |
| MBPP+ | 74,1 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| TAU3-Bench | 72,9 % | 1ᵉ / 5 | llm-stats | Auto-déclaré |
| MMLU-Pro | 68,5 % | 85ᵉ / 125 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 68,4 % | 12ᵉ / 48 | llm-stats | Auto-déclaré |
| GPQA | 66,7 % | 123ᵉ / 213 | llm-stats | Auto-déclaré |
| Claw-Eval | 64,0 % | 5ᵉ / 12 | llm-stats | Auto-déclaré |
| GraphWalks | 62,0 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 57,2 % | 14ᵉ / 34 | llm-stats | Auto-déclaré |
| WildClawBench | 43,0 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| GDPval-AA | 42,9 % | 13ᵉ / 33 | llm-stats | n.d. |
| Finance Agent v2 | 41,5 % | 14ᵉ / 25 | llm-stats | n.d. |
| LiveCodeBench v6 | 39,6 % | 50ᵉ / 53 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 34,0 % | 37ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1471 | 21ᵉ |
| Arena Text | 1466 | 29ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| xiaomi | 0,435 $ | 0,87 $ | n.d. |
| Xiaomi | 0,435 $ | 0,87 $ | 0,0036 $ |
| deepinfra | 1 $ | 3 $ | n.d. |
| novita | 2 $ | 6 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 78 % en dessous de la moyenne des LLM similaires, et 11,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 12,13 $ |
| Durée d'exécution — PinchBench | 4 h 11 min |
| Indice valeur/coût — PinchBench | 7,86 |
| Coût moyen par benchmark — Benchable | 0,31 $ |
| Latence moyenne par benchmark — Benchable | 26 min 39 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. MiMo-V2.5-Pro affiche ses meilleurs signaux sur les tâches de connaissance générale et d’éthique dans Benchable, où il atteint le top 10. Le volet code est également solide, avec un Code Index placé parmi les meilleurs de son panel, un bon résultat Benchable en Coding et une Arena code compétitive. La fenêtre de contexte d’environ 1,0 M de tokens constitue un atout concret pour traiter de longs documents, des bases de connaissances étendues ou des dépôts volumineux. À sa sortie, le modèle se situait dans le top 66% des LLM de sa génération sur GPQA, ce qui le place dans une zone intermédiaire plutôt qu’au sommet sur ce test.
Limites et points d'attention. L’Agentic Index est moins favorable que le Code Index, ce qui signale un profil moins dominant sur les usages agentiques. Les classements Arena text et Arena code restent en retrait des tout premiers modèles, malgré des scores Elo compétitifs. Les résultats Benchable en Hallucinations et Email Classification sont élevés en pourcentage, mais leurs rangs indiquent une différenciation limitée face à un grand nombre de concurrents. Le principal intérêt opérationnel tient donc à l’équilibre entre performances générales, très grand contexte, licence MIT et coût bas. MiMo-V2.5-Pro convient surtout aux usages nécessitant un modèle ouvert, économique et capable de gérer de longs contextes, avec un accent particulier sur le code et les tâches généralistes.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).