AI co-mathematician
AI co-mathematician est un système de recherche de Google DeepMind, dévoilé le 8 mai 2026. Ce n'est pas un produit commercial ni un modèle unique, mais un atelier multi-agents conçu pour épauler des mathématiciens professionnels sur des problèmes ouverts. Une hiérarchie d'agents bâtie…
AI co-mathematician est un système de recherche de Google DeepMind, dévoilé le 8 mai 2026. Ce n'est pas un produit commercial ni un modèle unique, mais un atelier multi-agents conçu pour épauler des mathématiciens professionnels sur des problèmes ouverts. Une hiérarchie d'agents bâtie sur Gemini 3.1 Pro (un coordinateur, des agents de littérature, de lemmes, de contre-exemples, avec Gemini Deep Think comme vérificateur de preuves) explore, échoue, et conserve ses tentatives pour repartir d'idées d'abord écartées.
Son accès est restreint à des testeurs de confiance, sans poids ni API publique.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Google DeepMind |
| Date de sortie | 8 mai 2026 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: FrontierMath-Tier-4-v2-Private | 75,6 % | 3ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 47,9 % | 1ᵉ / 55 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: FrontierMath-Tier-4-v2-Private
Epoch: FrontierMath-Tier-4-2025-07-01-Private
Notre analyse
Forces. L'apport du système est spectaculaire et mesurable : sur FrontierMath Tier 4, l'épreuve de mathématiques de recherche la plus difficile, il atteint un niveau record, alors que le modèle Gemini 3.1 Pro seul plafonne bien plus bas. Le gain vient presque entièrement de l'orchestration agentique, et non d'un modèle plus gros. Il a concrètement aidé un mathématicien d'Oxford à résoudre un problème resté ouvert depuis des décennies, en repérant une piste dans une sortie d'abord rejetée.
Limites et points d'attention. Ce n'est ni un produit, ni un système général : il est spécialisé en mathématiques, requiert un expert humain dans la boucle, et coûte cher en calcul. L'accès est confidentiel, sans poids ni API. Deux scores Epoch divergents circulent pour ce système, dont un seul correspond au record médiatisé : la prudence s'impose sur les chiffres. Il intéresse la recherche mathématique de pointe, pas les usages courants.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.