Reka Flash 3

Reka Flash 3 est un modèle de raisonnement compact de Reka AI, une start-up américaine fondée par d'anciens de DeepMind et FAIR, annoncé le 11 mars 2025. C'est un modèle dense d'environ 21 milliards de paramètres, texte seul, qui raisonne via des balises explicites et un « budget forcing…

Reka Flash 3 est un modèle de raisonnement compact de Reka AI, une start-up américaine fondée par d'anciens de DeepMind et FAIR, annoncé le 11 mars 2025. C'est un modèle dense d'environ 21 milliards de paramètres, texte seul, qui raisonne via des balises explicites et un « budget forcing » permettant de contrôler la durée de réflexion. Il est publié en poids ouverts sous licence Apache 2.0 et tient sur un GPU grand public (environ 11 Go en quantification 4 bits).

Il visait, à sa sortie, le niveau d'o1-mini avec un modèle bien plus petit et entièrement ouvert.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
Éditeurrekaai
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie12 mars 2025
Connaissances jusqu'à2025-01-31
Multimodalnon
Paramètres21 milliards
Fenêtre de contexte32 768 tokens
Modalités (entrée → sortie)text → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)100,0 %1ᵉ / 254benchable✅ Mesuré
Benchable : General Knowledge (Baseline)96,0 %175ᵉ / 250benchable✅ Mesuré
Benchable : Coding (Baseline)89,0 %118ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)0,0 %229ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

▶ Reka Flash 3100 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
Phi 497 %
▶ Reka Flash 396 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Reka AI0,1 $0,2 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0 $
Latence moyenne par benchmark — Benchable20 min 44 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Son rapport capacité/taille était remarquable à sa sortie : un raisonnement proche d'o1-mini dans un modèle de 21 milliards de paramètres déployable sur une seule carte, sous licence Apache 2.0 et compatible avec l'écosystème Llama. Le « budget forcing » offre un contrôle utile sur le compromis qualité/latence. Il s'inscrit dans la vague du début 2025 des modèles de raisonnement ouverts et compacts.

Limites et points d'attention. Il est essentiellement anglophone (il « pense » en anglais même sur des requêtes dans d'autres langues) et faible sur les connaissances factuelles, au point que Reka recommande de le coupler à une recherche web. Son alignement est minimal et il vieillit vite : à la mi-2026, il figure parmi les modèles ouverts les moins performants et plutôt chers à l'usage. Il a depuis été remplacé par la lignée Flash 3.1. Son intérêt actuel est surtout celui d'un jalon.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).