rekaai

Reka Flash 3

Reka Flash 3 est un modèle de raisonnement compact de Reka AI, une start-up américaine fondée par d'anciens de DeepMind et FAIR, annoncé le 11 mars 2025. C'est un modèle dense d'environ 21 milliards de paramètres, texte seul, qui raisonne via des balises explicites et un « budget forcing » permettant de contrôler la durée de réflexion. Il est publié en poids ouverts sous licence Apache 2.0 et tient sur un GPU grand public (environ 11 Go en quantification 4 bits).

Il visait, à sa sortie, le niveau d'o1-mini avec un modèle bien plus petit et entièrement ouvert.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	rekaai
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	12 mars 2025
Connaissances jusqu'à	2025-01-31
Multimodal	non
Paramètres	21 milliards
Fenêtre de contexte	32 768 tokens
Modalités (entrée → sortie)	text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	100,0 %	1ᵉ / 254	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	96,0 %	175ᵉ / 250	benchable	✅ Mesuré
Benchable : Coding (Baseline)	89,0 %	118ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	0,0 %	229ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

Qwen 3.5 Plus100 %

▶ Reka Flash 3100 %

Claude Sonnet 499 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

Phi 497 %

▶ Reka Flash 396 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Reka AI	0,1 $	0,2 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0 $
Latence moyenne par benchmark — Benchable	20 min 44 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Son rapport capacité/taille était remarquable à sa sortie : un raisonnement proche d'o1-mini dans un modèle de 21 milliards de paramètres déployable sur une seule carte, sous licence Apache 2.0 et compatible avec l'écosystème Llama. Le « budget forcing » offre un contrôle utile sur le compromis qualité/latence. Il s'inscrit dans la vague du début 2025 des modèles de raisonnement ouverts et compacts.

Limites et points d'attention. Il est essentiellement anglophone (il « pense » en anglais même sur des requêtes dans d'autres langues) et faible sur les connaissances factuelles, au point que Reka recommande de le coupler à une recherche web. Son alignement est minimal et il vieillit vite : à la mi-2026, il figure parmi les modèles ouverts les moins performants et plutôt chers à l'usage. Il a depuis été remplacé par la lignée Flash 3.1. Son intérêt actuel est surtout celui d'un jalon.

Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

Reka Flash 3

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast