OpenAI: GPT-4.5 (Preview)

OpenAI: GPT-4.5 (Preview) est un LLM d’OpenAI sorti le 27 février 2025, aujourd’hui ancien à l’échelle de l’IA. Avec environ un an de recul, cette préversion se lit surtout comme un modèle de transition de sa période, probablement dépassé et souvent retiré du catalogue de l’éditeur.

OpenAI: GPT-4.5 (Preview) est un LLM d’OpenAI sorti le 27 février 2025, aujourd’hui ancien à l’échelle de l’IA. Avec environ un an de recul, cette préversion se lit surtout comme un modèle de transition de sa période, probablement dépassé et souvent retiré du catalogue de l’éditeur.

Le modèle combine une grande fenêtre de contexte de 128 000 tokens avec des connaissances arrêtées au 31 octobre 2023. À sa sortie, il se situait dans le top 10% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat, d’après trois sources de données concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
Date de sortie27 février 2025
Connaissances jusqu'à2023-10-31
Multimodaloui
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 578,6 %27ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond68,7 %59ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202537,8 %64ᵉ / 111epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Mistral Medium…82 %
▶ GPT-4.579 %
Llama 4 Maverick73 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %
Qwen3.7 Max92 %
Grok 4.3 Beta89 %
▶ GPT-4.569 %
Mistral Medium…60 %

Classements Arena (Elo)

CatégorieEloRang
Arena Text144555ᵉ
Arena Vision122545ᵉ

Notre analyse

Forces. OpenAI: GPT-4.5 (Preview) se distinguait surtout, à sa sortie, par son niveau scientifique relatif sur GPQA diamond, où il appartenait au haut du panier des LLM de sa génération. Son résultat sur MATH level 5 le place aussi dans une zone solide pour le raisonnement mathématique structuré, sans atteindre les tout premiers rangs du classement global. Sa fenêtre de contexte de 128 000 tokens constituait un atout concret pour traiter de longs documents, de longues conversations ou des corpus volumineux, dans les limites des capacités réelles du modèle. Les classements Arena en texte et en vision indiquent un modèle compétitif pour son époque, mais pas dominant sur l’ensemble des usages évalués publiquement.

Limites et points d'attention. L’ancienneté est le principal point faible : un modèle preview sorti début 2025 avec des connaissances arrêtées fin 2023 est largement dépassé par les modèles frontière et haut de gamme plus récents. Son classement global sur GPQA diamond devient moins favorable lorsqu’il est comparé à un ensemble plus large de modèles, ce qui nuance son statut de très bon modèle de sa génération. OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques niveau lycée, révèle une faiblesse plus nette en résolution de problèmes mathématiques difficiles. Le statut Preview signale aussi un modèle de passage, souvent moins durable dans les catalogues qu’une version stable.


Sources des données : OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.