Reka Flash 3
Reka Flash 3 est un modèle de raisonnement compact de Reka AI, une start-up américaine fondée par d'anciens de DeepMind et FAIR, annoncé le 11 mars 2025. C'est un modèle dense d'environ 21 milliards de paramètres, texte seul, qui raisonne via des balises explicites et un « budget forcing…
Reka Flash 3 est un modèle de raisonnement compact de Reka AI, une start-up américaine fondée par d'anciens de DeepMind et FAIR, annoncé le 11 mars 2025. C'est un modèle dense d'environ 21 milliards de paramètres, texte seul, qui raisonne via des balises explicites et un « budget forcing » permettant de contrôler la durée de réflexion. Il est publié en poids ouverts sous licence Apache 2.0 et tient sur un GPU grand public (environ 11 Go en quantification 4 bits).
Il visait, à sa sortie, le niveau d'o1-mini avec un modèle bien plus petit et entièrement ouvert.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | rekaai |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 12 mars 2025 |
| Connaissances jusqu'à | 2025-01-31 |
| Multimodal | non |
| Paramètres | 21 milliards |
| Fenêtre de contexte | 32 768 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 100,0 % | 1ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 96,0 % | 175ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 89,0 % | 118ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 0,0 % | 229ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : General Knowledge (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| Reka AI | 0,1 $ | 0,2 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 95 % en dessous de la moyenne des LLM similaires, et 48,3 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0 $ |
| Latence moyenne par benchmark — Benchable | 20 min 44 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Son rapport capacité/taille était remarquable à sa sortie : un raisonnement proche d'o1-mini dans un modèle de 21 milliards de paramètres déployable sur une seule carte, sous licence Apache 2.0 et compatible avec l'écosystème Llama. Le « budget forcing » offre un contrôle utile sur le compromis qualité/latence. Il s'inscrit dans la vague du début 2025 des modèles de raisonnement ouverts et compacts.
Limites et points d'attention. Il est essentiellement anglophone (il « pense » en anglais même sur des requêtes dans d'autres langues) et faible sur les connaissances factuelles, au point que Reka recommande de le coupler à une recherche web. Son alignement est minimal et il vieillit vite : à la mi-2026, il figure parmi les modèles ouverts les moins performants et plutôt chers à l'usage. Il a depuis été remplacé par la lignée Flash 3.1. Son intérêt actuel est surtout celui d'un jalon.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).