OpenAI

OpenAI: GPT-4.5 (Preview)

OpenAI: GPT-4.5 (Preview) est un LLM d’OpenAI sorti le 27 février 2025, aujourd’hui ancien à l’échelle de l’IA. Avec environ un an de recul, cette préversion se lit surtout comme un modèle de transition de sa période, probablement dépassé et souvent retiré du catalogue de l’éditeur.

Le modèle combine une grande fenêtre de contexte de 128 000 tokens avec des connaissances arrêtées au 31 octobre 2023. À sa sortie, il se situait dans le top 10% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat, d’après trois sources de données concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Date de sortie	27 février 2025
Connaissances jusqu'à	2023-10-31
Multimodal	oui
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: MATH level 5	78,6 %	27ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	68,7 %	59ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	37,8 %	64ᵉ / 111	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Mistral Medium…82 %

▶ GPT-4.579 %

Llama 4 Maverick73 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Grok 4.3 Beta89 %

▶ GPT-4.569 %

Mistral Medium…60 %

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1445	55ᵉ
Arena Vision	1225	45ᵉ

Notre analyse

Forces. OpenAI: GPT-4.5 (Preview) se distinguait surtout, à sa sortie, par son niveau scientifique relatif sur GPQA diamond, où il appartenait au haut du panier des LLM de sa génération. Son résultat sur MATH level 5 le place aussi dans une zone solide pour le raisonnement mathématique structuré, sans atteindre les tout premiers rangs du classement global. Sa fenêtre de contexte de 128 000 tokens constituait un atout concret pour traiter de longs documents, de longues conversations ou des corpus volumineux, dans les limites des capacités réelles du modèle. Les classements Arena en texte et en vision indiquent un modèle compétitif pour son époque, mais pas dominant sur l’ensemble des usages évalués publiquement.

Limites et points d'attention. L’ancienneté est le principal point faible : un modèle preview sorti début 2025 avec des connaissances arrêtées fin 2023 est largement dépassé par les modèles frontière et haut de gamme plus récents. Son classement global sur GPQA diamond devient moins favorable lorsqu’il est comparé à un ensemble plus large de modèles, ce qui nuance son statut de très bon modèle de sa génération. OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques niveau lycée, révèle une faiblesse plus nette en résolution de problèmes mathématiques difficiles. Le statut Preview signale aussi un modèle de passage, souvent moins durable dans les catalogues qu’une version stable.

Sources des données : OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.

OpenAI: GPT-4.5 (Preview)

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast