MiniMax M3
MiniMax M3 est un LLM open-weights de MiniMax, publié le 1 juin 2026 sous licence MIT, avec usage commercial autorisé. Le modèle combine 23 milliards de paramètres actifs avec une fenêtre de contexte d’environ 1,0 M tokens, un format adapté aux corpus longs, aux bases documentaires…
MiniMax M3 est un LLM open-weights de MiniMax, publié le 1 juin 2026 sous licence MIT, avec usage commercial autorisé. Le modèle combine 23 milliards de paramètres actifs avec une fenêtre de contexte d’environ 1,0 M tokens, un format adapté aux corpus longs, aux bases documentaires volumineuses et aux workflows nécessitant beaucoup d’historique.
Son positionnement est surtout celui d’un modèle très économique : son tarif est annoncé 85% sous la moyenne des LLM similaires et environ 16,1 fois inférieur à celui des modèles frontière. À sa sortie, MiniMax M3 se situait dans le top 9% de sa génération sur SWE-Bench Verified, ce qui le place parmi les modèles de code notables de sa période.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | MiniMax |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 1 juin 2026 |
| Multimodal | oui |
| Paramètres actifs | 23 milliards |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image,video → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 44.4 | 9ᵉ / 136 |
| Code Index | 58.6 | 16ᵉ / 50 |
| Agentic Index | 35.4 | 9ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 98,0 % | 161ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 76,9 % | 45ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 76,8 % | 22ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 76,2 % | 10ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 74,5 % | 32ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 70,0 % | 26ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 68,2 % | 53ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 66,0 % | 110ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Agentic Coding | 60,0 % | 7ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 57,5 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| OmniDocBench 1.5 | 91,6 % | 1ᵉ / 13 | llm-stats | Auto-déclaré |
| SpreadSheetBench-v1 | 89,3 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| Video-MME | 85,4 % | 6ᵉ / 17 | llm-stats | Auto-déclaré |
| VideoMMMU | 84,6 % | 7ᵉ / 26 | llm-stats | Auto-déclaré |
| BrowseComp | 83,5 % | 10ᵉ / 51 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 80,5 % | 9ᵉ / 100 | llm-stats | Auto-déclaré |
| MMMU-Pro | 78,1 % | 16ᵉ / 60 | llm-stats | Auto-déclaré |
| Claw-Eval | 74,5 % | 3ᵉ / 12 | llm-stats | Auto-déclaré |
| MCP Atlas | 74,2 % | 10ᵉ / 27 | llm-stats | Auto-déclaré |
| OSWorld-Verified | 70,1 % | 11ᵉ / 17 | llm-stats | Auto-déclaré |
| LiveBench | 70,0 % | 31ᵉ / 38 | llm-stats | n.d. |
| Terminal-Bench 2.1 | 66,0 % | 5ᵉ / 6 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 59,0 % | 7ᵉ / 34 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 48,3 % | 8ᵉ / 25 | llm-stats | n.d. |
| GDPval-AA | 47,7 % | 5ᵉ / 33 | llm-stats | n.d. |
| OfficeQA Pro | 45,1 % | 5ᵉ / 5 | llm-stats | Auto-déclaré |
| NL2Repo | 42,1 % | 6ᵉ / 11 | llm-stats | Auto-déclaré |
| PostTrainBench | 37,1 % | 1ᵉ / 4 | llm-stats | Auto-déclaré |
| APEX-Agents | 27,7 % | 5ᵉ / 5 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Code | 1505 | 15ᵉ |
| Arena Text | 1447 | 51ᵉ |
| Arena Document | 1438 | 17ᵉ |
| Arena Vision | 1242 | 33ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| fireworks | 0,3 $ | 1,2 $ | n.d. |
| MiniMax | 0,3 $ | 1,2 $ | 0,06 $ |
| minimax | 0,6 $ | 2,4 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 85 % en dessous de la moyenne des LLM similaires, et 16,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,07 $ |
| Latence moyenne par benchmark — Benchable | 22 min 26 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. MiniMax M3 se distingue par un bon équilibre entre coût, ouverture et performances. Son Intelligence Index et son Agentic Index le placent dans le top 10, ce qui signale une capacité solide sur les tâches générales et les usages orientés agents. Le Code Index, l’Arena code et le classement sur SWE-Bench Verified indiquent un profil particulièrement pertinent pour le développement logiciel, avec un niveau élevé à sa sortie parmi les LLM de même génération. Les résultats Benchable Baseline sont élevés sur le raisonnement, le codage, la classification d’e-mails, les hallucinations et les connaissances générales. La très grande fenêtre de contexte renforce l’intérêt pour l’analyse de documents longs, la recherche dans de grands historiques et les chaînes de traitement nécessitant beaucoup de contexte.
Limites et points d’attention. MiniMax M3 n’apparaît pas comme un leader homogène sur tous les usages : son Arena text est nettement moins bien classé que ses résultats en code et en document, et certains benchmarks Benchable affichent de bons scores absolus tout en restant plus moyens en rang relatif, notamment Ethics et General Knowledge. Le modèle doit donc être évalué sur des cas d’usage concrets, surtout pour la production rédactionnelle généraliste ou les tâches sensibles. Sa licence MIT et son prix très bas en font surtout un candidat pour des déploiements à coût maîtrisé, avec poids ouverts, contexte massif et besoin marqué en code ou en traitement documentaire.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Benchable.ai (benchable.ai).