MiMo-V2-Omni

MiMo-V2-Omni est le modèle omni-modal de l'équipe MiMo de Xiaomi, sorti le 18 mars 2026. Il accepte texte, image, vidéo et audio (plus de dix heures) en entrée et produit du texte, avec des encodeurs fusionnés dans un backbone partagé, du tool-calling et du grounding d'interface…

MiMo-V2-Omni est le modèle omni-modal de l'équipe MiMo de Xiaomi, sorti le 18 mars 2026. Il accepte texte, image, vidéo et audio (plus de dix heures) en entrée et produit du texte, avec des encodeurs fusionnés dans un backbone partagé, du tool-calling et du grounding d'interface graphique natifs. Xiaomi n'en divulgue ni la taille ni l'architecture détaillée.

Servi uniquement par API à un tarif modéré, il prolonge la lignée MiMo, partie d'un petit modèle de 7 milliards remarqué pour son raisonnement, vers un modèle multimodal de grande ampleur visant Gemini 3 Pro et Claude Opus.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurXiaomi
LicenceProprietary (poids non ouverts)
Date de sortie18 mars 2026
Multimodaloui
Fenêtre de contexte262 144 tokens
Modalités (entrée → sortie)text,image,audio,video → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
PinchBench81,2 %2ᵉ / 4llm-statsAuto-déclaré
SWE-Bench Verified74,8 %32ᵉ / 100llm-statsAuto-déclaré
Claw-Eval54,8 %11ᵉ / 12llm-statsAuto-déclaré
GDPval-AA47,0 %9ᵉ / 33llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Classements Arena (Elo)

CatégorieEloRang
Arena Text143173ᵉ
Arena Vision121848ᵉ

Notre analyse

Forces. Sa polyvalence modale est son principal atout : un seul modèle pour le texte, l'image, la vidéo et de longues plages audio, avec des capacités agentiques (tool use, navigation d'interface) intégrées. Sur l'agentique et le génie logiciel, il affiche des scores solides (PinchBench, SWE-Bench Verified), et son tarif reste bien inférieur à celui des modèles frontière occidentaux qu'il cible.

Limites et points d'attention. L'architecture et la taille sont opaques, et le modèle est fermé, accessible par API seulement. Comme souvent chez les omni-modèles, l'ampleur des modalités peut se faire au prix d'une spécialisation moindre sur chacune. Les chiffres disponibles proviennent surtout de bancs privés ou de l'éditeur. Il vise les applications multimodales et agentiques sensibles au coût, en particulier autour de l'écosystème Xiaomi.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Arena.ai (arena.ai).