gpt-4o-search-preview-2025-03-11

gpt-4o-search-preview-2025-03-11 est un LLM d’OpenAI sorti le 12 mars 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer surtout aux modèles disponibles au moment de sa sortie plutôt qu’aux systèmes actuels.

gpt-4o-search-preview-2025-03-11 est un LLM d’OpenAI sorti le 12 mars 2025. Avec environ un an d’ancienneté, il appartient déjà à une génération très datée à l’échelle de l’IA, à comparer surtout aux modèles disponibles au moment de sa sortie plutôt qu’aux systèmes actuels.

Son profil Benchable montre un modèle solide sur plusieurs tâches de base, notamment l’éthique, la culture générale, la classification d’e-mails, les mathématiques et le code. Son prix se situe dans la moyenne du marché, mais reste supérieur à celui des LLM similaires, tout en demeurant nettement inférieur aux modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
Date de sortie12 mars 2025

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)99,0 %114ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)96,0 %175ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)96,0 %197ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,0 %92ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)89,0 %118ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)0,0 %229ᵉ / 252benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ gpt-4o-search-preview-2…99 %

Benchable : General Knowledge (Baseline)

GPT-5100 %
Phi 497 %
▶ gpt-4o-search-preview-2…96 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAIAdapter2,5 $10 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 28 % au-dessus de la moyenne des LLM similaires, et 1,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,15 $
Latence moyenne par benchmark — Benchable7 min 41 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. gpt-4o-search-preview-2025-03-11 obtient ses résultats les plus convaincants sur Ethics (Baseline), General Knowledge (Baseline) et Email Classification (Baseline), ce qui indique un comportement fiable sur des évaluations de conformité, de connaissances générales et de tri de contenus simples. Mathematics (Baseline) ressort aussi comme un point relativement solide, avec un classement plus favorable que sur plusieurs autres catégories. Coding (Baseline) reste exploitable dans ce référentiel, sans atteindre le haut du tableau. À sa sortie, le modèle s’inscrivait dans une génération déjà compétitive, avec des scores bruts élevés sur plusieurs tests de base, mais sans domination nette dans les classements.

Limites et points d'attention. Le signal le plus faible concerne Instruction Following (Baseline), où le score nul et le rang très bas indiquent une difficulté majeure à respecter précisément les consignes dans ce benchmark. Son ancienneté pèse fortement : ses performances sont aujourd’hui largement dépassées et ce type de préversion est souvent retiré du catalogue de l’éditeur. Le prix n’est pas particulièrement agressif, car il dépasse la moyenne des LLM similaires, même s’il reste environ 1,9 fois moins cher que les modèles frontière. Les données disponibles reposent sur 2 sources concordantes, mais aucun chiffre vérifié sur l’entraînement, le coût de calcul ou l’équivalent GPU H100 n’est fourni.


Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).