MiniMax M2.7
MiniMax M2.7 est un LLM open-weights publié par MiniMax le 18 mars 2026, sous licence MIT avec usage commercial autorisé. Son positionnement combine un format relativement compact, avec 10 milliards de paramètres actifs, et une très grande fenêtre de contexte de 204 800 tokens.
MiniMax M2.7 est un LLM open-weights publié par MiniMax le 18 mars 2026, sous licence MIT avec usage commercial autorisé. Son positionnement combine un format relativement compact, avec 10 milliards de paramètres actifs, et une très grande fenêtre de contexte de 204 800 tokens.
Le modèle se distingue surtout par un rapport coût-performance agressif : sa tarification est indiquée comme très économique, 91% sous la moyenne de LLM similaires et environ 26,9 fois moins chère que les modèles frontière. À sa sortie, il se situait dans le top 37% des LLM de sa génération sur LiveBench: Global average.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | MiniMax |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 18 mars 2026 |
| Multimodal | non |
| Paramètres actifs | 10 milliards |
| Fenêtre de contexte | 204 800 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 38.1 | 30ᵉ / 136 |
| Code Index | 52.6 | 24ᵉ / 50 |
| Agentic Index | 25.6 | 23ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,5 % | 79ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 92,0 % | 79ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 90,0 % | 112ᵉ / 217 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 80,5 % | 36ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 74,8 % | 30ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 66,8 % | 48ᵉ / 76 | livebench | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 66,8 % | 32ᵉ / 52 | pinchbench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 65,0 % | 116ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Global average | 63,5 % | 36ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 61,1 % | 30ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 56,3 % | 38ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 54,9 % | 74ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 50,0 % | 30ᵉ / 76 | livebench | ✅ Mesuré |
| SWE-bench Multilingual | 76,5 % | 6ᵉ / 32 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 57,0 % | 25ᵉ / 48 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 56,2 % | 19ᵉ / 34 | llm-stats | Auto-déclaré |
| Multi-SWE-Bench | 52,7 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| Toolathlon | 46,3 % | 12ᵉ / 23 | llm-stats | Auto-déclaré |
| NL2Repo | 39,8 % | 8ᵉ / 11 | llm-stats | Auto-déclaré |
| GDPval-AA | 39,3 % | 19ᵉ / 33 | llm-stats | n.d. |
| Finance Agent v2 | 27,9 % | 25ᵉ / 25 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1417 | 98ᵉ |
| Arena Code | 1395 | 41ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| MARA | 0,18 $ | 0,72 $ | n.d. |
| fireworks | 0,3 $ | 1,2 $ | n.d. |
| artificialanalysis | 0,3 $ | 1,2 $ | 0,06 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 91 % en dessous de la moyenne des LLM similaires, et 26,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 3,11 $ |
| Durée d'exécution — PinchBench | 5 h 05 min |
| Indice valeur/coût — PinchBench | 40,68 |
| Coût moyen par benchmark — Benchable | 0,08 $ |
| Latence moyenne par benchmark — Benchable | 29 min 21 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. MiniMax M2.7 affiche ses meilleurs résultats sur les tâches de connaissances générales, où son benchmark Benchable le place en tête du classement et dans le top 10. Les tâches de classification d’e-mails et de maîtrise des hallucinations ressortent aussi comme des points solides, avec des scores de baseline très élevés. Le modèle reste compétitif en code : son Code Index le situe dans la première moitié du classement disponible, et son Arena code est nettement mieux placé que son Arena text. Sa licence MIT, ses poids ouverts et son prix très bas renforcent son intérêt pour des déploiements où le coût par token, la possibilité d’usage commercial et la maîtrise de l’infrastructure comptent autant que la performance brute.
Limites et points d'attention. Son Intelligence Index le place dans un bon niveau global, mais pas parmi les tout premiers modèles évalués. L’Agentic Index apparaît plus modeste, ce qui invite à éviter de le présenter comme un modèle d’agents avancés. Les résultats Benchable en Ethics, Coding et Reasoning restent élevés en score absolu, mais leurs rangs indiquent une concurrence dense et des baselines parfois peu discriminantes. L’Arena text est également moins favorable que l’Arena code. MiniMax M2.7 convient surtout à des usages économiques en production, à des traitements de contexte long et à des tâches de code ou de classification où l’ouverture des poids et le coût priment sur l’accès aux performances haut de gamme.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).