Microsoft

MAI-Thinking-1

MAI-Thinking-1 est un LLM propriétaire de Microsoft, sorti le 2 juin 2026, avec des poids non ouverts. Son trait le plus visible est son échelle, 1000 milliards de paramètres, qui le place dans la catégorie des très grands modèles fermés.

À sa sortie, MAI-Thinking-1 se situe dans le top 27% des LLM de sa génération sur GPQA, parmi 172 modèles comparés sur une fenêtre de plus ou moins neuf mois. La fiche repose sur une source de données concordante, ce qui invite à lire ses résultats comme un repère ciblé plutôt qu’un panorama complet.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft
Licence	Proprietary (poids non ouverts)
Date de sortie	2 juin 2026
Multimodal	non
Paramètres	1000 milliards

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
AIME 2025	97,0 %	13ᵉ / 108	llm-stats	Auto-déclaré
AIME 2026	94,5 %	5ᵉ / 17	llm-stats	Auto-déclaré
GraphWalks	90,0 %	1ᵉ / 3	llm-stats	Auto-déclaré
TruthfulQA	88,0 %	1ᵉ / 18	llm-stats	Auto-déclaré
LiveCodeBench v6	87,7 %	6ᵉ / 53	llm-stats	Auto-déclaré
MMLU-Pro	85,0 %	17ᵉ / 125	llm-stats	Auto-déclaré
HMMT Feb 26	84,9 %	8ᵉ / 11	llm-stats	Auto-déclaré
GPQA	84,2 %	48ᵉ / 213	llm-stats	Auto-déclaré
SWE-Bench Verified	73,5 %	38ᵉ / 100	llm-stats	Auto-déclaré
BFCL-v3	72,0 %	4ᵉ / 19	llm-stats	Auto-déclaré
IFBench	69,0 %	18ᵉ / 27	llm-stats	Auto-déclaré
LongBench v2	61,0 %	4ᵉ / 15	llm-stats	Auto-déclaré
Multi-Challenge	53,0 %	16ᵉ / 28	llm-stats	Auto-déclaré
SWE-Bench Pro	52,8 %	27ᵉ / 34	llm-stats	Auto-déclaré
Terminal-Bench 2.0	46,0 %	41ᵉ / 48	llm-stats	Auto-déclaré
MedXpertQA	43,0 %	9ᵉ / 12	llm-stats	Auto-déclaré
HealthBench Professional	35,0 %	4ᵉ / 4	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. MAI-Thinking-1 affiche un positionnement solide à sa sortie sur GPQA, avec une place dans le haut du panier de sa génération plutôt qu’en milieu de tableau. Ce résultat indique une compétitivité réelle sur ce benchmark précis, sans le présenter comme un modèle dominant sur l’ensemble du marché. Son format à 1000 milliards de paramètres signale aussi un choix d’échelle ambitieux de la part de Microsoft, cohérent avec un modèle propriétaire conçu pour rivaliser dans la catégorie des LLM de très grande taille.

Limites et points d'attention. Les poids de MAI-Thinking-1 ne sont pas ouverts, ce qui limite l’audit indépendant, la réutilisation locale et l’analyse détaillée de son comportement. Son classement GPQA le place dans le top 27% à sa sortie, mais pas dans le tout premier groupe des modèles les mieux classés. Aucune donnée fournie ne permet d’évaluer ses performances en code, en mathématiques avancées, en usages agentiques, en coût d’usage ou en efficacité d’entraînement. La couverture repose sur une seule source concordante, ce qui réduit la profondeur de comparaison disponible. Le modèle reste surtout pertinent pour situer l’offre propriétaire de Microsoft dans la génération de LLM sortie autour de mi-2026.

Sources des données : LLM-Stats (llm-stats.com).

MAI-Thinking-1

Caractéristiques

Performances (benchmarks)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast