Mercury 2

Mercury 2 est un LLM propriétaire d’Inception, sorti le 24 février 2026, avec des poids non ouverts. Le modèle se distingue surtout par une fenêtre de contexte longue de 128 000 tokens et par un positionnement tarifaire très économique, nettement inférieur à la moyenne des LLM similaires.

Mercury 2 est un LLM propriétaire d’Inception, sorti le 24 février 2026, avec des poids non ouverts. Le modèle se distingue surtout par une fenêtre de contexte longue de 128 000 tokens et par un positionnement tarifaire très économique, nettement inférieur à la moyenne des LLM similaires.

Son profil combine un coût d’usage bas, environ 87% sous la moyenne de sa catégorie, et des résultats très contrastés selon les tâches. À sa sortie, Mercury 2 se situait dans le top 45% des LLM de sa génération sur GPQA, ce qui le place davantage comme un modèle compétitif et accessible que comme un modèle frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurInception
LicenceProprietary (poids non ouverts)
Date de sortie24 février 2026
Multimodalnon
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index25.381ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)93,0 %212ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)62,0 %175ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)60,0 %210ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)52,5 %165ᵉ / 252benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)39,6 %47ᵉ / 52pinchbench✅ Mesuré
Benchable : General Knowledge (Baseline)7,0 %232ᵉ / 250benchable✅ Mesuré
AIME 202591,1 %38ᵉ / 108llm-statsAuto-déclaré
GPQA74,0 %97ᵉ / 213llm-statsAuto-déclaré
IFBench71,0 %13ᵉ / 27llm-statsAuto-déclaré
LiveCodeBench67,0 %24ᵉ / 72llm-statsAuto-déclaré
Tau2 Airline53,0 %18ᵉ / 22llm-statsAuto-déclaré
SciCode38,0 %14ᵉ / 18llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Mistral Medium 3.529.9
▶ Mercury 225.3
Nova 2.0 Pro Preview21.8

Benchable : Hallucinations (Baseline)

Qwen2.5 72B Instruct100 %
▶ Mercury 2100 %
Nemotron Nano 9B v298 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text1347180ᵉ
Arena Code116587ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
inception0,25 $0,75 $n.d.
Inception0,25 $0,75 $0,025 $
artificialanalysis0,25 $0,75 $0,025 $

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)0,65 $
Durée d'exécution — PinchBench41 min 07 s
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable1 min 17 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mercury 2 obtient son meilleur signal sur Benchable Hallucinations (Baseline), où il apparaît dans le tout premier rang du classement, un point notable pour les usages où la fiabilité des réponses est prioritaire. Ses résultats sont aussi solides en Email Classification (Baseline) et en Reasoning (Baseline), avec des classements situés dans la partie haute des évaluations correspondantes. Sa fenêtre de contexte de 128 000 tokens renforce son intérêt pour le traitement de documents longs ou de conversations étendues. Le tarif constitue un autre avantage net : Mercury 2 est classé comme très économique, avec un coût environ 19,3 fois inférieur à celui des modèles frontière.

Limites et points d'attention. Le profil général reste inégal. L’Intelligence Index place Mercury 2 en milieu de tableau, loin des meilleurs modèles évalués. Les résultats Benchable en Mathematics (Baseline) et en Coding (Baseline) sont faibles, avec des classements proches du bas de leurs panels, tandis que Ethics (Baseline) ressort comme un point fragile. Les classements Arena confirment ce positionnement intermédiaire : le texte reste modeste, le code est mieux placé mais sans atteindre le haut de gamme. La licence propriétaire limite aussi l’audit et l’hébergement indépendant. Mercury 2 convient surtout aux usages à coût contraint, avec priorité à la classification, au raisonnement général et à la réduction des hallucinations, plutôt qu’aux tâches exigeantes en code ou en mathématiques.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).