Inception

Mercury 2

Mercury 2 est un LLM propriétaire d’Inception, sorti le 24 février 2026, avec des poids non ouverts. Le modèle se distingue surtout par une fenêtre de contexte longue de 128 000 tokens et par un positionnement tarifaire très économique, nettement inférieur à la moyenne des LLM similaires.

Son profil combine un coût d’usage bas, environ 87% sous la moyenne de sa catégorie, et des résultats très contrastés selon les tâches. À sa sortie, Mercury 2 se situait dans le top 45% des LLM de sa génération sur GPQA, ce qui le place davantage comme un modèle compétitif et accessible que comme un modèle frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Inception
Licence	Proprietary (poids non ouverts)
Date de sortie	24 février 2026
Multimodal	non
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	25.3	81ᵉ / 136

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	93,0 %	212ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	62,0 %	175ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	60,0 %	210ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	52,5 %	165ᵉ / 252	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	39,6 %	47ᵉ / 52	pinchbench	✅ Mesuré
Benchable : General Knowledge (Baseline)	7,0 %	232ᵉ / 250	benchable	✅ Mesuré
AIME 2025	91,1 %	38ᵉ / 108	llm-stats	Auto-déclaré
GPQA	74,0 %	97ᵉ / 213	llm-stats	Auto-déclaré
IFBench	71,0 %	13ᵉ / 27	llm-stats	Auto-déclaré
LiveCodeBench	67,0 %	24ᵉ / 72	llm-stats	Auto-déclaré
Tau2 Airline	53,0 %	18ᵉ / 22	llm-stats	Auto-déclaré
SciCode	38,0 %	14ᵉ / 18	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Mistral Medium 3.529.9

▶ Mercury 225.3

Nova 2.0 Pro Preview21.8

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Mercury 2100 %

Nemotron Nano 9B v298 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1347	180ᵉ
Arena Code	1165	87ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
inception	0,25 $	0,75 $	n.d.
Inception	0,25 $	0,75 $	0,025 $
artificialanalysis	0,25 $	0,75 $	0,025 $

Prix en dollars US par million de tokens.

Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	0,65 $
Durée d'exécution — PinchBench	41 min 07 s
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	1 min 17 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Mercury 2 obtient son meilleur signal sur Benchable Hallucinations (Baseline), où il apparaît dans le tout premier rang du classement, un point notable pour les usages où la fiabilité des réponses est prioritaire. Ses résultats sont aussi solides en Email Classification (Baseline) et en Reasoning (Baseline), avec des classements situés dans la partie haute des évaluations correspondantes. Sa fenêtre de contexte de 128 000 tokens renforce son intérêt pour le traitement de documents longs ou de conversations étendues. Le tarif constitue un autre avantage net : Mercury 2 est classé comme très économique, avec un coût environ 19,3 fois inférieur à celui des modèles frontière.

Limites et points d'attention. Le profil général reste inégal. L’Intelligence Index place Mercury 2 en milieu de tableau, loin des meilleurs modèles évalués. Les résultats Benchable en Mathematics (Baseline) et en Coding (Baseline) sont faibles, avec des classements proches du bas de leurs panels, tandis que Ethics (Baseline) ressort comme un point fragile. Les classements Arena confirment ce positionnement intermédiaire : le texte reste modeste, le code est mieux placé mais sans atteindre le haut de gamme. La licence propriétaire limite aussi l’audit et l’hébergement indépendant. Mercury 2 convient surtout aux usages à coût contraint, avec priorité à la classification, au raisonnement général et à la réduction des hallucinations, plutôt qu’aux tâches exigeantes en code ou en mathématiques.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Mercury 2

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast