sakana

Sakana: Fugu Ultra

Fugu Ultra est le modèle haut de gamme de Sakana AI, le laboratoire japonais cofondé par Llion Jones (coauteur de « Attention Is All You Need ») et David Ha, lancé le 22 juin 2026. Fait notable, ce n'est pas un fusionnement évolutionnaire de modèles, la spécialité historique de Sakana, mais un système d'orchestration multi-agents vendu comme un modèle unique : Fugu décide, pour chaque requête, s'il répond lui-même ou délègue à un pool de modèles spécialistes, puis vérifie et synthétise, en pouvant s'appeler récursivement.

Fermé et accessible par une API compatible OpenAI (avec une fenêtre d'un million de tokens), il est indisponible dans l'Union européenne.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	sakana
Date de sortie	24 juin 2026
Multimodal	oui
Fenêtre de contexte	1 000 000 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	98,0 %	23ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	88,0 %	16ᵉ / 252	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	69,5 %	27ᵉ / 52	pinchbench	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ Fugu Ultra100 %

Nemotron Nano 9B v298 %

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ Fugu Ultra99 %

WizardLM-2 8x22B95 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Sakana	5 $	30 $	0,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	91,05 $
Durée d'exécution — PinchBench	7 h 26 min
Indice valeur/coût — PinchBench	0,84
Coût moyen par benchmark — Benchable	3,31 $
Latence moyenne par benchmark — Benchable	25 min 00 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Le pari est d'atteindre le niveau frontière par l'orchestration plutôt que par la taille brute, et les chiffres avancés vont dans ce sens : en tête de son panel sur le code agentique (SWE-Bench Pro) devant Claude Opus 4.8, et au sommet sur les sciences (GPQA Diamond). Il gère un contexte d'un million de tokens, son API est compatible OpenAI, et l'approche évite de dépendre d'un unique modèle propriétaire.

Limites et points d'attention. Réserve majeure : tous les benchmarks sont auto-rapportés par Sakana et non reproduits par des tiers, et le pool de modèles orchestrés (part de modèles fermés ou ouverts) reste une boîte noire. L'orchestration ajoute un surcoût de latence et de prix (les tokens internes sont facturés, la sortie est chère), il est fermé, sans poids, et indisponible dans l'Union européenne. Il vise le raisonnement complexe, le code et l'agentique pour qui peut s'accommoder de son opacité.

Sources des données : OpenRouter (openrouter.ai) · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).

Sakana: Fugu Ultra

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast