Muse Spark
Muse Spark est un LLM propriétaire de Meta, sorti le 8 avril 2026, avec des poids non ouverts. Son profil le place dans la famille des modèles généralistes haut de gamme, avec des résultats particulièrement solides en raisonnement scientifique, en mathématiques difficiles et en questions…
Muse Spark est un LLM propriétaire de Meta, sorti le 8 avril 2026, avec des poids non ouverts. Son profil le place dans la famille des modèles généralistes haut de gamme, avec des résultats particulièrement solides en raisonnement scientifique, en mathématiques difficiles et en questions factuelles vérifiables.
À sa sortie, Muse Spark se situait dans le top 13% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Les données disponibles reposent sur trois sources concordantes, ce qui donne une base de comparaison cohérente pour situer ses performances.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Meta |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 8 avril 2026 |
| Multimodal | oui |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: GPQA diamond | 89,8 % | 15ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 88,9 % | 23ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 66,3 % | 7ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 39,0 % | 9ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 14,6 % | 13ᵉ / 55 | epoch | ✅ Mesuré |
| Tau2 Telecom | 91,5 % | 15ᵉ / 34 | llm-stats | Auto-déclaré |
| GPQA | 89,5 % | 19ᵉ / 213 | llm-stats | Auto-déclaré |
| CharXiv-R | 86,4 % | 5ᵉ / 42 | llm-stats | Auto-déclaré |
| ScreenSpot Pro | 84,1 % | 3ᵉ / 23 | llm-stats | Auto-déclaré |
| MMMU-Pro | 80,4 % | 9ᵉ / 60 | llm-stats | Auto-déclaré |
| LiveCodeBench Pro | 80,0 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| MedXpertQA | 78,4 % | 1ᵉ / 12 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 77,4 % | 23ᵉ / 100 | llm-stats | Auto-déclaré |
| DeepSearchQA | 74,8 % | 6ᵉ / 6 | llm-stats | Auto-déclaré |
| SimpleVQA | 71,3 % | 4ᵉ / 13 | llm-stats | Auto-déclaré |
| ERQA | 64,7 % | 7ᵉ / 22 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 59,0 % | 23ᵉ / 48 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 58,4 % | 3ᵉ / 86 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 52,4 % | 29ᵉ / 34 | llm-stats | Auto-déclaré |
| HealthBench Hard | 42,8 % | 1ᵉ / 6 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 42,5 % | 9ᵉ / 16 | llm-stats | Auto-déclaré |
| GDPval-AA | 38,8 % | 20ᵉ / 33 | llm-stats | n.d. |
| FrontierScience Research | 38,3 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| ZEROBench | 33,0 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: GPQA diamond
Epoch: OTIS Mock AIME 2024-2025
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1487 | 6ᵉ |
| Arena Document | 1442 | 15ᵉ |
| Arena Vision | 1294 | 6ᵉ |
Notre analyse
Forces. Muse Spark ressort surtout par son niveau élevé sur les tâches de raisonnement exigeantes. Sur GPQA diamond, il appartient au haut du panier de sa génération pour les questions scientifiques avancées. Il figure aussi dans le top 10 sur SimpleQA Verified, ce qui signale une bonne tenue sur les questions factuelles vérifiables, un point important pour un LLM généraliste. Ses résultats sur FrontierMath montrent également une capacité notable à traiter des problèmes mathématiques de recherche très difficiles, avec une place dans le top 10 sur l’une des évaluations privées. Dans les classements Arena, le modèle est particulièrement compétitif en texte et en vision, deux usages centraux pour un modèle généraliste.
Limites et points d'attention. Muse Spark reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations profondes. Ses performances sont moins homogènes selon les contextes : l’Arena document le situe plus en retrait que l’Arena text et l’Arena vision. En mathématiques de recherche, FrontierMath-Tier-4 reste un point dur, avec un taux de réussite faible malgré un classement encore solide. Le modèle apparaît donc très performant, mais pas uniformément dominant sur les tâches les plus spécialisées et les plus difficiles.
Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.