GPT-4

GPT-4 est un LLM propriétaire d’OpenAI, publié le 28 août 2023, avec des poids non ouverts. Avec près de trois ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, ce qui le situe davantage comme un jalon historique que comme une référence actuelle.

GPT-4 est un LLM propriétaire d’OpenAI, publié le 28 août 2023, avec des poids non ouverts. Avec près de trois ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, ce qui le situe davantage comme un jalon historique que comme une référence actuelle.

Son profil reste marqué par un entraînement massif, estimé à 2,1 × 10²⁵ FLOP, soit environ 5,8 millions d’heures-GPU H100, et un coût estimé à ~37,3 millions de dollars (USD 2023). Sa fenêtre de contexte de 32 768 tokens et ses connaissances arrêtées au 31 décembre 2022 cadrent ses usages techniques.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie28 août 2023
Connaissances jusqu'à2022-12-31
Multimodaloui
Fenêtre de contexte32 768 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Instruction Following (Baseline)67,0 %106ᵉ / 252benchable✅ Mesuré
Epoch: GPQA diamond35,7 %109ᵉ / 132epoch✅ Mesuré
Epoch: MATH level 523,0 %64ᵉ / 84epoch✅ Mesuré
Benchable : Coding (Baseline)7,0 %231ᵉ / 248benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-20251,1 %107ᵉ / 111epoch✅ Mesuré
HellaSwag95,3 %2ᵉ / 27llm-statsAuto-déclaré
Winogrande87,5 %1ᵉ / 22llm-statsAuto-déclaré
MMLU86,4 %28ᵉ / 98llm-statsAuto-déclaré
DROP80,9 %10ᵉ / 29llm-statsAuto-déclaré
MGSM74,5 %20ᵉ / 30llm-statsAuto-déclaré
HumanEval67,0 %58ᵉ / 65llm-statsAuto-déclaré
MATH42,0 %65ᵉ / 70llm-statsAuto-déclaré
GPQA35,7 %193ᵉ / 213llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Qwen2.5 72B Instruct100 %
▶ GPT-4100 %

Benchable : Instruction Following (Baseline)

Nemotron 3 Ultra100 %
Mistral Medium 3.571 %
▶ GPT-467 %
Llama 3.3 70B Instruct62 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAI30 $60 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 1439 % au-dessus de la moyenne des LLM similaires, et 6,2 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable1,21 $
Latence moyenne par benchmark — Benchable8 min 10 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement2,1 × 10²⁵ FLOP
Taille du jeu d'entraînement5,4 × 10¹²
Jeu de donnéesUnspecified unreleased
Coût d'entraînement estimé≈ 37 334 305 $ (USD 2023)
MatérielNVIDIA A100 SXM4 40 GB
Nombre de puces25 000
Puissance électrique19 904 435 W
Durée d'entraînement2 280 h
PaysUnited States of America

Notre analyse

Forces. GPT-4 conserve un point fort net sur Ethics (Baseline), où il se place dans le top 10, ce qui indique un comportement solide sur ce benchmark d’évaluation éthique. Son score en Instruction Following (Baseline) le situe plutôt dans une zone intermédiaire, mais encore exploitable pour des consignes structurées. À sa sortie, son niveau d’investissement en calcul et sa fenêtre de contexte de 32 768 tokens le plaçaient dans le haut du panier de sa génération, avec une capacité à traiter des échanges ou documents plus longs que de nombreux modèles plus modestes de la même période.

Limites et points d'attention. GPT-4 est aujourd’hui largement dépassé sur plusieurs mesures exigeantes : Coding (Baseline) est très faible, GPQA diamond (questions scientifiques niveau doctorat) reste bas, MATH level 5 est limité, et OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) est quasi nul. Son ancienneté pèse aussi sur les connaissances, arrêtées à fin 2022, et sur sa disponibilité, car ce type de modèle est souvent retiré du catalogue de l’éditeur. Son coût d’usage reste particulièrement défavorable : positionnement premium, 1439% au-dessus de la moyenne des LLM similaires, et environ 6,2 fois plus cher que les modèles frontière. Le contraste est donc marqué entre un effort d’entraînement exceptionnel, 5,8 millions d’heures-GPU H100 et ~37,3 millions de dollars, et des performances actuelles devenues peu compétitives.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).