aion-labs

AionLabs: Aion-1.0

Aion-1.0 est un service de raisonnement édité par AionLabs (à ne pas confondre avec le studio pharmaceutique homonyme), distribué via OpenRouter à partir du 4 février 2025. Ce n'est pas un modèle entraîné de zéro mais une orchestration bâtie sur DeepSeek-R1, augmentée d'une exploration en arbre de pensées (Tree of Thoughts) et d'un mélange d'experts. Sa taille n'est pas publiée et il n'est accessible que par API, sans poids ouverts.

Avec une fenêtre de 131 072 tokens, il cible le raisonnement, le code et la classification.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	aion-labs
Date de sortie	4 février 2025
Multimodal	non
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	97,9 %	38ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	96,0 %	11ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	92,0 %	140ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	91,0 %	215ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	0,0 %	229ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Qwen 3.5 Plus100 %

▶ Aion-1.0100 %

Claude Sonnet 499 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

nemotron-nano-12b-v2-vl100 %

▶ Aion-1.0100 %

Llama 3.3 70B Instruct98 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
AionLabs	4 $	8 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 105 % au-dessus de la moyenne des LLM similaires, et 1,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,64 $
Latence moyenne par benchmark — Benchable	22 min 45 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Sur les épreuves de raisonnement et de code, le système affiche de bons résultats, l'orchestration multi-passes au-dessus de DeepSeek-R1 cherchant à extraire de meilleures réponses qu'un appel direct. L'API est compatible avec le format OpenAI et le contexte de 131K convient aux tâches longues.

Limites et points d'attention. C'est avant tout un sur-coût payé pour de l'orchestration : à tarif élevé (quatre dollars en entrée, huit en sortie par million de tokens), on paie l'enrobage d'un modèle ouvert que l'on peut utiliser directement et bien moins cher. La latence est très élevée, cohérente avec un raisonnement en plusieurs passes. L'opacité est totale (ni taille, ni poids, ni évaluation tierce indépendante), et le seul score « Instruction Following » nul rapporté est presque certainement un artefact de mesure. Il intéresse surtout qui veut un raisonnement clé en main sans gérer l'orchestration.

Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

AionLabs: Aion-1.0

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast