Muse Spark

Muse Spark est un LLM propriétaire de Meta, sorti le 8 avril 2026, avec des poids non ouverts. Son profil le place dans la famille des modèles généralistes haut de gamme, avec des résultats particulièrement solides en raisonnement scientifique, en mathématiques difficiles et en questions…

Muse Spark est un LLM propriétaire de Meta, sorti le 8 avril 2026, avec des poids non ouverts. Son profil le place dans la famille des modèles généralistes haut de gamme, avec des résultats particulièrement solides en raisonnement scientifique, en mathématiques difficiles et en questions factuelles vérifiables.

À sa sortie, Muse Spark se situait dans le top 13% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Les données disponibles reposent sur trois sources concordantes, ce qui donne une base de comparaison cohérente pour situer ses performances.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMeta
LicenceProprietary (poids non ouverts)
Date de sortie8 avril 2026
Multimodaloui

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: GPQA diamond89,8 %15ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202588,9 %23ᵉ / 111epoch✅ Mesuré
Epoch: SimpleQA Verified66,3 %7ᵉ / 52epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private39,0 %9ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private14,6 %13ᵉ / 55epoch✅ Mesuré
Tau2 Telecom91,5 %15ᵉ / 34llm-statsAuto-déclaré
GPQA89,5 %19ᵉ / 213llm-statsAuto-déclaré
CharXiv-R86,4 %5ᵉ / 42llm-statsAuto-déclaré
ScreenSpot Pro84,1 %3ᵉ / 23llm-statsAuto-déclaré
MMMU-Pro80,4 %9ᵉ / 60llm-statsAuto-déclaré
LiveCodeBench Pro80,0 %3ᵉ / 4llm-statsAuto-déclaré
MedXpertQA78,4 %1ᵉ / 12llm-statsAuto-déclaré
SWE-Bench Verified77,4 %23ᵉ / 100llm-statsAuto-déclaré
DeepSearchQA74,8 %6ᵉ / 6llm-statsAuto-déclaré
SimpleVQA71,3 %4ᵉ / 13llm-statsAuto-déclaré
ERQA64,7 %7ᵉ / 22llm-statsAuto-déclaré
Terminal-Bench 2.059,0 %23ᵉ / 48llm-statsAuto-déclaré
Humanity's Last Exam58,4 %3ᵉ / 86llm-statsAuto-déclaré
SWE-Bench Pro52,4 %29ᵉ / 34llm-statsAuto-déclaré
HealthBench Hard42,8 %1ᵉ / 6llm-statsAuto-déclaré
ARC-AGI v242,5 %9ᵉ / 16llm-statsAuto-déclaré
GDPval-AA38,8 %20ᵉ / 33llm-statsn.d.
FrontierScience Research38,3 %1ᵉ / 3llm-statsAuto-déclaré
ZEROBench33,0 %3ᵉ / 8llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

Qwen3.7 Max92 %
▶ Muse Spark90 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
▶ Muse Spark89 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text14876ᵉ
Arena Document144215ᵉ
Arena Vision12946ᵉ

Notre analyse

Forces. Muse Spark ressort surtout par son niveau élevé sur les tâches de raisonnement exigeantes. Sur GPQA diamond, il appartient au haut du panier de sa génération pour les questions scientifiques avancées. Il figure aussi dans le top 10 sur SimpleQA Verified, ce qui signale une bonne tenue sur les questions factuelles vérifiables, un point important pour un LLM généraliste. Ses résultats sur FrontierMath montrent également une capacité notable à traiter des problèmes mathématiques de recherche très difficiles, avec une place dans le top 10 sur l’une des évaluations privées. Dans les classements Arena, le modèle est particulièrement compétitif en texte et en vision, deux usages centraux pour un modèle généraliste.

Limites et points d'attention. Muse Spark reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations profondes. Ses performances sont moins homogènes selon les contextes : l’Arena document le situe plus en retrait que l’Arena text et l’Arena vision. En mathématiques de recherche, FrontierMath-Tier-4 reste un point dur, avec un taux de réussite faible malgré un classement encore solide. Le modèle apparaît donc très performant, mais pas uniformément dominant sur les tâches les plus spécialisées et les plus difficiles.


Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.