OpenAI

GPT-4

GPT-4 est un LLM propriétaire d’OpenAI, publié le 28 août 2023, avec des poids non ouverts. Avec près de trois ans d’ancienneté, il appartient déjà à une génération très ancienne à l’échelle de l’IA, ce qui le situe davantage comme un jalon historique que comme une référence actuelle.

Son profil reste marqué par un entraînement massif, estimé à 2,1 × 10²⁵ FLOP, soit environ 5,8 millions d’heures-GPU H100, et un coût estimé à ~37,3 millions de dollars (USD 2023). Sa fenêtre de contexte de 32 768 tokens et ses connaissances arrêtées au 31 décembre 2022 cadrent ses usages techniques.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	28 août 2023
Connaissances jusqu'à	2022-12-31
Multimodal	oui
Fenêtre de contexte	32 768 tokens
Modalités (entrée → sortie)	text,image → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	67,0 %	106ᵉ / 252	benchable	✅ Mesuré
Epoch: GPQA diamond	35,7 %	109ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	23,0 %	64ᵉ / 84	epoch	✅ Mesuré
Benchable : Coding (Baseline)	7,0 %	231ᵉ / 248	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	1,1 %	107ᵉ / 111	epoch	✅ Mesuré
HellaSwag	95,3 %	2ᵉ / 27	llm-stats	Auto-déclaré
Winogrande	87,5 %	1ᵉ / 22	llm-stats	Auto-déclaré
MMLU	86,4 %	28ᵉ / 98	llm-stats	Auto-déclaré
DROP	80,9 %	10ᵉ / 29	llm-stats	Auto-déclaré
MGSM	74,5 %	20ᵉ / 30	llm-stats	Auto-déclaré
HumanEval	67,0 %	58ᵉ / 65	llm-stats	Auto-déclaré
MATH	42,0 %	65ᵉ / 70	llm-stats	Auto-déclaré
GPQA	35,7 %	193ᵉ / 213	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Ethics (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

Gemini 2.5 Flash Lite P…100 %

Qwen2.5 72B Instruct100 %

▶ GPT-4100 %

Benchable : Instruction Following (Baseline)

DeepSeek-R1100 %

Nemotron 3 Ultra100 %

Gemini 3.1 Pro …95 %

Mistral Medium 3.571 %

▶ GPT-467 %

Llama 3.3 70B Instruct62 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenAI	30 $	60 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 1439 % au-dessus de la moyenne des LLM similaires, et 6,2 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	1,21 $
Latence moyenne par benchmark — Benchable	8 min 10 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	2,1 × 10²⁵ FLOP
Taille du jeu d'entraînement	5,4 × 10¹²
Jeu de données	Unspecified unreleased
Coût d'entraînement estimé	≈ 37 334 305 $ (USD 2023)
Matériel	NVIDIA A100 SXM4 40 GB
Nombre de puces	25 000
Puissance électrique	19 904 435 W
Durée d'entraînement	2 280 h
Pays	United States of America

Notre analyse

Forces. GPT-4 conserve un point fort net sur Ethics (Baseline), où il se place dans le top 10, ce qui indique un comportement solide sur ce benchmark d’évaluation éthique. Son score en Instruction Following (Baseline) le situe plutôt dans une zone intermédiaire, mais encore exploitable pour des consignes structurées. À sa sortie, son niveau d’investissement en calcul et sa fenêtre de contexte de 32 768 tokens le plaçaient dans le haut du panier de sa génération, avec une capacité à traiter des échanges ou documents plus longs que de nombreux modèles plus modestes de la même période.

Limites et points d'attention. GPT-4 est aujourd’hui largement dépassé sur plusieurs mesures exigeantes : Coding (Baseline) est très faible, GPQA diamond (questions scientifiques niveau doctorat) reste bas, MATH level 5 est limité, et OTIS Mock AIME 2024-2025 (olympiades de mathématiques niveau lycée) est quasi nul. Son ancienneté pèse aussi sur les connaissances, arrêtées à fin 2022, et sur sa disponibilité, car ce type de modèle est souvent retiré du catalogue de l’éditeur. Son coût d’usage reste particulièrement défavorable : positionnement premium, 1439% au-dessus de la moyenne des LLM similaires, et environ 6,2 fois plus cher que les modèles frontière. Le contraste est donc marqué entre un effort d’entraînement exceptionnel, 5,8 millions d’heures-GPU H100 et ~37,3 millions de dollars, et des performances actuelles devenues peu compétitives.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

GPT-4

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast