MAI-Code-1-Flash
MAI-Code-1-Flash est un LLM propriétaire de Microsoft, publié le 2 juin 2026 et issu des États-Unis. Ses poids ne sont pas ouverts, ce qui le place dans la famille des modèles fermés contrôlés par leur éditeur.
MAI-Code-1-Flash est un LLM propriétaire de Microsoft, publié le 2 juin 2026 et issu des États-Unis. Ses poids ne sont pas ouverts, ce qui le place dans la famille des modèles fermés contrôlés par leur éditeur.
À sa sortie, le modèle se situe dans le haut de sa génération sur GPQA, avec un classement dans le top 26% des 172 LLM comparables de la même période. La fiche repose sur 2 sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Microsoft |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 2 juin 2026 |
| Multimodal | non |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| AIME 2026 | 92,5 % | 9ᵉ / 17 | llm-stats | Auto-déclaré |
| GPQA | 84,6 % | 45ᵉ / 213 | llm-stats | Auto-déclaré |
| IFBench | 75,0 % | 9ᵉ / 27 | llm-stats | Auto-déclaré |
| Tau2 Telecom | 71,7 % | 25ᵉ / 34 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 71,6 % | 50ᵉ / 100 | llm-stats | Auto-déclaré |
| SWE-bench Multilingual | 65,5 % | 22ᵉ / 32 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 54,8 % | 28ᵉ / 48 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 51,2 % | 31ᵉ / 34 | llm-stats | Auto-déclaré |
| Artifacts Bench | 36,4 % | 3ᵉ / 3 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 18,0 % | 56ᵉ / 86 | llm-stats | Auto-déclaré |
| FrontierMath | 6,3 % | 12ᵉ / 13 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Pays | United States of America |
Notre analyse
Forces. MAI-Code-1-Flash se distingue surtout par son positionnement solide à sa sortie sur GPQA. Dans un ensemble de 172 LLM publiés dans une fenêtre comparable, il atteint le top 26%, ce qui le place au-dessus d’une large majorité des modèles de sa génération sur ce benchmark. Son statut de modèle Microsoft en fait aussi un LLM propriétaire clairement attribué, avec une origine éditoriale et nationale identifiée.
Limites et points d'attention. Les poids de MAI-Code-1-Flash ne sont pas ouverts, ce qui limite l’audit indépendant, l’hébergement autonome et l’adaptation directe du modèle. Les données vérifiées disponibles restent étroites : aucun chiffre confirmé n’est fourni ici sur l’entraînement, le coût, le contexte, les tarifs, les performances en code ou d’autres benchmarks que GPQA. Le nom suggère un positionnement lié au code, mais aucune performance vérifiée sur des tests de programmation n’est disponible dans les faits fournis. Il s’adresse surtout aux comparaisons de LLM récents où GPQA et la licence propriétaire font partie des critères suivis.
Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.