Mercury 2
Mercury 2 est un LLM propriétaire d’Inception, sorti le 24 février 2026, avec des poids non ouverts. Le modèle se distingue surtout par une fenêtre de contexte longue de 128 000 tokens et par un positionnement tarifaire très économique, nettement inférieur à la moyenne des LLM similaires.
Mercury 2 est un LLM propriétaire d’Inception, sorti le 24 février 2026, avec des poids non ouverts. Le modèle se distingue surtout par une fenêtre de contexte longue de 128 000 tokens et par un positionnement tarifaire très économique, nettement inférieur à la moyenne des LLM similaires.
Son profil combine un coût d’usage bas, environ 87% sous la moyenne de sa catégorie, et des résultats très contrastés selon les tâches. À sa sortie, Mercury 2 se situait dans le top 45% des LLM de sa génération sur GPQA, ce qui le place davantage comme un modèle compétitif et accessible que comme un modèle frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Inception |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 24 février 2026 |
| Multimodal | non |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 25.3 | 81ᵉ / 136 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 93,0 % | 212ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 62,0 % | 175ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 60,0 % | 210ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 52,5 % | 165ᵉ / 252 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 39,6 % | 47ᵉ / 52 | pinchbench | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 7,0 % | 232ᵉ / 250 | benchable | ✅ Mesuré |
| AIME 2025 | 91,1 % | 38ᵉ / 108 | llm-stats | Auto-déclaré |
| GPQA | 74,0 % | 97ᵉ / 213 | llm-stats | Auto-déclaré |
| IFBench | 71,0 % | 13ᵉ / 27 | llm-stats | Auto-déclaré |
| LiveCodeBench | 67,0 % | 24ᵉ / 72 | llm-stats | Auto-déclaré |
| Tau2 Airline | 53,0 % | 18ᵉ / 22 | llm-stats | Auto-déclaré |
| SciCode | 38,0 % | 14ᵉ / 18 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Benchable : Hallucinations (Baseline)
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1347 | 180ᵉ |
| Arena Code | 1165 | 87ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| inception | 0,25 $ | 0,75 $ | n.d. |
| Inception | 0,25 $ | 0,75 $ | 0,025 $ |
| artificialanalysis | 0,25 $ | 0,75 $ | 0,025 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 87 % en dessous de la moyenne des LLM similaires, et 19,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 0,65 $ |
| Durée d'exécution — PinchBench | 41 min 07 s |
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 1 min 17 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Mercury 2 obtient son meilleur signal sur Benchable Hallucinations (Baseline), où il apparaît dans le tout premier rang du classement, un point notable pour les usages où la fiabilité des réponses est prioritaire. Ses résultats sont aussi solides en Email Classification (Baseline) et en Reasoning (Baseline), avec des classements situés dans la partie haute des évaluations correspondantes. Sa fenêtre de contexte de 128 000 tokens renforce son intérêt pour le traitement de documents longs ou de conversations étendues. Le tarif constitue un autre avantage net : Mercury 2 est classé comme très économique, avec un coût environ 19,3 fois inférieur à celui des modèles frontière.
Limites et points d'attention. Le profil général reste inégal. L’Intelligence Index place Mercury 2 en milieu de tableau, loin des meilleurs modèles évalués. Les résultats Benchable en Mathematics (Baseline) et en Coding (Baseline) sont faibles, avec des classements proches du bas de leurs panels, tandis que Ethics (Baseline) ressort comme un point fragile. Les classements Arena confirment ce positionnement intermédiaire : le texte reste modeste, le code est mieux placé mais sans atteindre le haut de gamme. La licence propriétaire limite aussi l’audit et l’hébergement indépendant. Mercury 2 convient surtout aux usages à coût contraint, avec priorité à la classification, au raisonnement général et à la réduction des hallucinations, plutôt qu’aux tâches exigeantes en code ou en mathématiques.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).