AionLabs: Aion-1.0

Aion-1.0 est un service de raisonnement édité par AionLabs (à ne pas confondre avec le studio pharmaceutique homonyme), distribué via OpenRouter à partir du 4 février 2025. Ce n'est pas un modèle entraîné de zéro mais une orchestration bâtie sur DeepSeek-R1, augmentée d'une exploration…

Aion-1.0 est un service de raisonnement édité par AionLabs (à ne pas confondre avec le studio pharmaceutique homonyme), distribué via OpenRouter à partir du 4 février 2025. Ce n'est pas un modèle entraîné de zéro mais une orchestration bâtie sur DeepSeek-R1, augmentée d'une exploration en arbre de pensées (Tree of Thoughts) et d'un mélange d'experts. Sa taille n'est pas publiée et il n'est accessible que par API, sans poids ouverts.

Avec une fenêtre de 131 072 tokens, il cible le raisonnement, le code et la classification.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
Éditeuraion-labs
Date de sortie4 février 2025
Multimodalnon
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Reasoning (Baseline)97,9 %38ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)96,0 %11ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
Benchable : Hallucinations (Baseline)92,0 %140ᵉ / 229benchable✅ Mesuré
Benchable : Ethics (Baseline)91,0 %215ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)0,0 %229ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %
Gemini 2.5 Flash-Lite100 %
GPT-4 Turbo100 %
Qwen 3.5 Plus100 %
▶ Aion-1.0100 %
Claude Sonnet 499 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %
Gemini 2.5 Flash100 %
GPT-5100 %
nemotron-nano-12b-v2-vl100 %
▶ Aion-1.0100 %
Llama 3.3 70B Instruct98 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
AionLabs4 $8 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 105 % au-dessus de la moyenne des LLM similaires, et 1,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,64 $
Latence moyenne par benchmark — Benchable22 min 45 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Sur les épreuves de raisonnement et de code, le système affiche de bons résultats, l'orchestration multi-passes au-dessus de DeepSeek-R1 cherchant à extraire de meilleures réponses qu'un appel direct. L'API est compatible avec le format OpenAI et le contexte de 131K convient aux tâches longues.

Limites et points d'attention. C'est avant tout un sur-coût payé pour de l'orchestration : à tarif élevé (quatre dollars en entrée, huit en sortie par million de tokens), on paie l'enrobage d'un modèle ouvert que l'on peut utiliser directement et bien moins cher. La latence est très élevée, cohérente avec un raisonnement en plusieurs passes. L'opacité est totale (ni taille, ni poids, ni évaluation tierce indépendante), et le seul score « Instruction Following » nul rapporté est presque certainement un artefact de mesure. Il intéresse surtout qui veut un raisonnement clé en main sans gérer l'orchestration.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).