gpt-4o-mini-search-preview-2025-03-11
gpt-4o-mini-search-preview-2025-03-11 est un LLM d’OpenAI sorti le 12 mars 2025, dans une déclinaison preview dont le nom l’associe à la famille « search ». Avec environ un an d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer d’abord aux modèles…
gpt-4o-mini-search-preview-2025-03-11 est un LLM d’OpenAI sorti le 12 mars 2025, dans une déclinaison preview dont le nom l’associe à la famille « search ». Avec environ un an d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer d’abord aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes récents.
Son intérêt historique tient surtout à son positionnement très économique : ses prix d’entrée et de sortie le plaçaient nettement sous la moyenne des LLM similaires, et environ 32,2 fois sous les modèles frontière. La fiche repose sur deux sources de données concordantes, avec des résultats Benchable qui décrivent un modèle efficace sur les tâches générales, mais plus inégal dès que le raisonnement se complexifie.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Date de sortie | 12 mars 2025 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 99,0 % | 114ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 96,0 % | 197ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 84,0 % | 139ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 80,0 % | 174ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 66,0 % | 153ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 28,0 % | 218ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 0,0 % | 229ᵉ / 252 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : General Knowledge (Baseline)
Benchable : Ethics (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 0,15 $ | 0,6 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 4 min 58 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. À sa sortie, gpt-4o-mini-search-preview-2025-03-11 se situait dans le haut du panier de sa génération pour General Knowledge (connaissances générales) et Ethics (réponses alignées sur des choix éthiques de base), deux Benchable où il obtient ses meilleurs résultats. Email Classification reste également solide, ce qui indique une bonne aptitude aux tâches de tri textuel structurées. Le modèle garde aussi un profil attractif sur le plan économique : sa tarification est 92% inférieure à la moyenne des LLM similaires et largement sous celle des modèles haut de gamme.
Limites et points d'attention. Son âge change fortement la lecture des résultats : environ un an représente un cycle très long pour les LLM, et ce type de variante preview est probablement dépassé, voire souvent retiré du catalogue de l’éditeur. Les scores Benchable les moins favorables se concentrent sur Reasoning (raisonnement), Coding (génération et compréhension de code) et, dans une moindre mesure, Mathematics (résolution mathématique), ce qui limite son intérêt pour les tâches complexes, vérifiables ou multi-étapes. Aucune donnée chiffrée sur l’effort d’entraînement, en équivalent GPU H100 ou en coût, n’est fournie dans les faits vérifiés.
Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).