OpenAI: GPT-4.5 (Preview)
OpenAI: GPT-4.5 (Preview) est un LLM d’OpenAI sorti le 27 février 2025, aujourd’hui ancien à l’échelle de l’IA. Avec environ un an de recul, cette préversion se lit surtout comme un modèle de transition de sa période, probablement dépassé et souvent retiré du catalogue de l’éditeur.
OpenAI: GPT-4.5 (Preview) est un LLM d’OpenAI sorti le 27 février 2025, aujourd’hui ancien à l’échelle de l’IA. Avec environ un an de recul, cette préversion se lit surtout comme un modèle de transition de sa période, probablement dépassé et souvent retiré du catalogue de l’éditeur.
Le modèle combine une grande fenêtre de contexte de 128 000 tokens avec des connaissances arrêtées au 31 octobre 2023. À sa sortie, il se situait dans le top 10% des LLM de sa génération sur GPQA diamond, un test de questions scientifiques niveau doctorat, d’après trois sources de données concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Date de sortie | 27 février 2025 |
| Connaissances jusqu'à | 2023-10-31 |
| Multimodal | oui |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 78,6 % | 27ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 68,7 % | 59ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 37,8 % | 64ᵉ / 111 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: MATH level 5
Epoch: GPQA diamond
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1445 | 55ᵉ |
| Arena Vision | 1225 | 45ᵉ |
Notre analyse
Forces. OpenAI: GPT-4.5 (Preview) se distinguait surtout, à sa sortie, par son niveau scientifique relatif sur GPQA diamond, où il appartenait au haut du panier des LLM de sa génération. Son résultat sur MATH level 5 le place aussi dans une zone solide pour le raisonnement mathématique structuré, sans atteindre les tout premiers rangs du classement global. Sa fenêtre de contexte de 128 000 tokens constituait un atout concret pour traiter de longs documents, de longues conversations ou des corpus volumineux, dans les limites des capacités réelles du modèle. Les classements Arena en texte et en vision indiquent un modèle compétitif pour son époque, mais pas dominant sur l’ensemble des usages évalués publiquement.
Limites et points d'attention. L’ancienneté est le principal point faible : un modèle preview sorti début 2025 avec des connaissances arrêtées fin 2023 est largement dépassé par les modèles frontière et haut de gamme plus récents. Son classement global sur GPQA diamond devient moins favorable lorsqu’il est comparé à un ensemble plus large de modèles, ce qui nuance son statut de très bon modèle de sa génération. OTIS Mock AIME 2024-2025, centré sur des olympiades de mathématiques niveau lycée, révèle une faiblesse plus nette en résolution de problèmes mathématiques difficiles. Le statut Preview signale aussi un modèle de passage, souvent moins durable dans les catalogues qu’une version stable.
Sources des données : OpenRouter (openrouter.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0.