MAI-Thinking-1

MAI-Thinking-1 est un LLM propriétaire de Microsoft, sorti le 2 juin 2026, avec des poids non ouverts. Son trait le plus visible est son échelle, 1000 milliards de paramètres, qui le place dans la catégorie des très grands modèles fermés.

MAI-Thinking-1 est un LLM propriétaire de Microsoft, sorti le 2 juin 2026, avec des poids non ouverts. Son trait le plus visible est son échelle, 1000 milliards de paramètres, qui le place dans la catégorie des très grands modèles fermés.

À sa sortie, MAI-Thinking-1 se situe dans le top 27% des LLM de sa génération sur GPQA, parmi 172 modèles comparés sur une fenêtre de plus ou moins neuf mois. La fiche repose sur une source de données concordante, ce qui invite à lire ses résultats comme un repère ciblé plutôt qu’un panorama complet.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft
LicenceProprietary (poids non ouverts)
Date de sortie2 juin 2026
Multimodalnon
Paramètres1000 milliards

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
AIME 202597,0 %13ᵉ / 108llm-statsAuto-déclaré
AIME 202694,5 %5ᵉ / 17llm-statsAuto-déclaré
GraphWalks90,0 %1ᵉ / 3llm-statsAuto-déclaré
TruthfulQA88,0 %1ᵉ / 18llm-statsAuto-déclaré
LiveCodeBench v687,7 %6ᵉ / 53llm-statsAuto-déclaré
MMLU-Pro85,0 %17ᵉ / 125llm-statsAuto-déclaré
HMMT Feb 2684,9 %8ᵉ / 11llm-statsAuto-déclaré
GPQA84,2 %48ᵉ / 213llm-statsAuto-déclaré
SWE-Bench Verified73,5 %38ᵉ / 100llm-statsAuto-déclaré
BFCL-v372,0 %4ᵉ / 19llm-statsAuto-déclaré
IFBench69,0 %18ᵉ / 27llm-statsAuto-déclaré
LongBench v261,0 %4ᵉ / 15llm-statsAuto-déclaré
Multi-Challenge53,0 %16ᵉ / 28llm-statsAuto-déclaré
SWE-Bench Pro52,8 %27ᵉ / 34llm-statsAuto-déclaré
Terminal-Bench 2.046,0 %41ᵉ / 48llm-statsAuto-déclaré
MedXpertQA43,0 %9ᵉ / 12llm-statsAuto-déclaré
HealthBench Professional35,0 %4ᵉ / 4llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. MAI-Thinking-1 affiche un positionnement solide à sa sortie sur GPQA, avec une place dans le haut du panier de sa génération plutôt qu’en milieu de tableau. Ce résultat indique une compétitivité réelle sur ce benchmark précis, sans le présenter comme un modèle dominant sur l’ensemble du marché. Son format à 1000 milliards de paramètres signale aussi un choix d’échelle ambitieux de la part de Microsoft, cohérent avec un modèle propriétaire conçu pour rivaliser dans la catégorie des LLM de très grande taille.

Limites et points d'attention. Les poids de MAI-Thinking-1 ne sont pas ouverts, ce qui limite l’audit indépendant, la réutilisation locale et l’analyse détaillée de son comportement. Son classement GPQA le place dans le top 27% à sa sortie, mais pas dans le tout premier groupe des modèles les mieux classés. Aucune donnée fournie ne permet d’évaluer ses performances en code, en mathématiques avancées, en usages agentiques, en coût d’usage ou en efficacité d’entraînement. La couverture repose sur une seule source concordante, ce qui réduit la profondeur de comparaison disponible. Le modèle reste surtout pertinent pour situer l’offre propriétaire de Microsoft dans la génération de LLM sortie autour de mi-2026.


Sources des données : LLM-Stats (llm-stats.com).