GPT-4
GPT-4 est un LLM propriétaire d’OpenAI, publié le 28 août 2023, avec des poids non ouverts. Avec près de trois ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, ce qui le situe davantage comme un jalon historique que comme une référence actuelle.
GPT-4 est un LLM propriétaire d’OpenAI, publié le 28 août 2023, avec des poids non ouverts. Avec près de trois ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, ce qui le situe davantage comme un jalon historique que comme une référence actuelle.
Son profil reste marqué par un entraînement massif, estimé à 2,1 × 10²⁵ FLOP, soit environ 5,8 millions d’heures-GPU H100, et un coût estimé à ~37,3 millions de dollars (USD 2023). Sa fenêtre de contexte de 32 768 tokens et ses connaissances arrêtées au 31 décembre 2022 cadrent ses usages techniques.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 28 août 2023 |
| Connaissances jusqu'à | 2022-12-31 |
| Multimodal | oui |
| Fenêtre de contexte | 32 768 tokens |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 67,0 % | 106ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 35,7 % | 109ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 23,0 % | 64ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Coding (Baseline) | 7,0 % | 231ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 1,1 % | 107ᵉ / 111 | epoch | ✅ Mesuré |
| HellaSwag | 95,3 % | 2ᵉ / 27 | llm-stats | Auto-déclaré |
| Winogrande | 87,5 % | 1ᵉ / 22 | llm-stats | Auto-déclaré |
| MMLU | 86,4 % | 28ᵉ / 98 | llm-stats | Auto-déclaré |
| DROP | 80,9 % | 10ᵉ / 29 | llm-stats | Auto-déclaré |
| MGSM | 74,5 % | 20ᵉ / 30 | llm-stats | Auto-déclaré |
| HumanEval | 67,0 % | 58ᵉ / 65 | llm-stats | Auto-déclaré |
| MATH | 42,0 % | 65ᵉ / 70 | llm-stats | Auto-déclaré |
| GPQA | 35,7 % | 193ᵉ / 213 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Ethics (Baseline)
Benchable : Instruction Following (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 30 $ | 60 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 1439 % au-dessus de la moyenne des LLM similaires, et 6,2 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 1,21 $ |
| Latence moyenne par benchmark — Benchable | 8 min 10 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 2,1 × 10²⁵ FLOP |
| Taille du jeu d'entraînement | 5,4 × 10¹² |
| Jeu de données | Unspecified unreleased |
| Coût d'entraînement estimé | ≈ 37 334 305 $ (USD 2023) |
| Matériel | NVIDIA A100 SXM4 40 GB |
| Nombre de puces | 25 000 |
| Puissance électrique | 19 904 435 W |
| Durée d'entraînement | 2 280 h |
| Pays | United States of America |
Notre analyse
Forces. GPT-4 conserve un point fort net sur Ethics (Baseline), où il se place dans le top 10, ce qui indique un comportement solide sur ce benchmark d’évaluation éthique. Son score en Instruction Following (Baseline) le situe plutôt dans une zone intermédiaire, mais encore exploitable pour des consignes structurées. À sa sortie, son niveau d’investissement en calcul et sa fenêtre de contexte de 32 768 tokens le plaçaient dans le haut du panier de sa génération, avec une capacité à traiter des échanges ou documents plus longs que de nombreux modèles plus modestes de la même période.
Limites et points d'attention. GPT-4 est aujourd’hui largement dépassé sur plusieurs mesures exigeantes : Coding (Baseline) est très faible, GPQA diamond (questions scientifiques niveau doctorat) reste bas, MATH level 5 est limité, et OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) est quasi nul. Son ancienneté pèse aussi sur les connaissances, arrêtées à fin 2022, et sur sa disponibilité, car ce type de modèle est souvent retiré du catalogue de l’éditeur. Son coût d’usage reste particulièrement défavorable : positionnement premium, 1439% au-dessus de la moyenne des LLM similaires, et environ 6,2 fois plus cher que les modèles frontière. Le contraste est donc marqué entre un effort d’entraînement exceptionnel, 5,8 millions d’heures-GPU H100 et ~37,3 millions de dollars, et des performances actuelles devenues peu compétitives.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).