Muse Spark

Muse Spark est un LLM propriétaire de Meta, sorti le 8 avril 2026, avec des poids non ouverts. Son profil le place dans la famille des modèles généralistes haut de gamme, avec des résultats particulièrement solides en raisonnement scientifique, en mathématiques difficiles et en questions…

À sa sortie, Muse Spark se situait dans le top 13% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Les données disponibles reposent sur trois sources concordantes, ce qui donne une base de comparaison cohérente pour situer ses performances.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Meta
Licence	Proprietary (poids non ouverts)
Date de sortie	8 avril 2026
Multimodal	oui

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	89,8 %	15ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	88,9 %	23ᵉ / 111	epoch	✅ Mesuré
Epoch: SimpleQA Verified	66,3 %	7ᵉ / 52	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	39,0 %	9ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	14,6 %	13ᵉ / 55	epoch	✅ Mesuré
Tau2 Telecom	91,5 %	15ᵉ / 34	llm-stats	Auto-déclaré
GPQA	89,5 %	19ᵉ / 213	llm-stats	Auto-déclaré
CharXiv-R	86,4 %	5ᵉ / 42	llm-stats	Auto-déclaré
ScreenSpot Pro	84,1 %	3ᵉ / 23	llm-stats	Auto-déclaré
MMMU-Pro	80,4 %	9ᵉ / 60	llm-stats	Auto-déclaré
LiveCodeBench Pro	80,0 %	3ᵉ / 4	llm-stats	Auto-déclaré
MedXpertQA	78,4 %	1ᵉ / 12	llm-stats	Auto-déclaré
SWE-Bench Verified	77,4 %	23ᵉ / 100	llm-stats	Auto-déclaré
DeepSearchQA	74,8 %	6ᵉ / 6	llm-stats	Auto-déclaré
SimpleVQA	71,3 %	4ᵉ / 13	llm-stats	Auto-déclaré
ERQA	64,7 %	7ᵉ / 22	llm-stats	Auto-déclaré
Terminal-Bench 2.0	59,0 %	23ᵉ / 48	llm-stats	Auto-déclaré
Humanity's Last Exam	58,4 %	3ᵉ / 86	llm-stats	Auto-déclaré
SWE-Bench Pro	52,4 %	29ᵉ / 34	llm-stats	Auto-déclaré
HealthBench Hard	42,8 %	1ᵉ / 6	llm-stats	Auto-déclaré
ARC-AGI v2	42,5 %	9ᵉ / 16	llm-stats	Auto-déclaré
GDPval-AA	38,8 %	20ᵉ / 33	llm-stats	n.d.
FrontierScience Research	38,3 %	1ᵉ / 3	llm-stats	Auto-déclaré
ZEROBench	33,0 %	3ᵉ / 8	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Claude Opus 4.891 %

▶ Muse Spark90 %

DeepSeek V4 Pro90 %

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Grok 4.3 Beta93 %

▶ Muse Spark89 %

Mistral Medium…32 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1487	6ᵉ
Arena Document	1442	15ᵉ
Arena Vision	1294	6ᵉ

Notre analyse

Forces. Muse Spark ressort surtout par son niveau élevé sur les tâches de raisonnement exigeantes. Sur GPQA diamond, il appartient au haut du panier de sa génération pour les questions scientifiques avancées. Il figure aussi dans le top 10 sur SimpleQA Verified, ce qui signale une bonne tenue sur les questions factuelles vérifiables, un point important pour un LLM généraliste. Ses résultats sur FrontierMath montrent également une capacité notable à traiter des problèmes mathématiques de recherche très difficiles, avec une place dans le top 10 sur l’une des évaluations privées. Dans les classements Arena, le modèle est particulièrement compétitif en texte et en vision, deux usages centraux pour un modèle généraliste.

Limites et points d'attention. Muse Spark reste un modèle propriétaire, avec des poids non ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et les adaptations profondes. Ses performances sont moins homogènes selon les contextes : l’Arena document le situe plus en retrait que l’Arena text et l’Arena vision. En mathématiques de recherche, FrontierMath-Tier-4 reste un point dur, avec un taux de réussite faible malgré un classement encore solide. Le modèle apparaît donc très performant, mais pas uniformément dominant sur les tâches les plus spécialisées et les plus difficiles.

Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

Muse Spark

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast