OpenAI

GPT-4o

GPT-4o est un LLM propriétaire d’OpenAI, publié le 27 mars 2025, avec des poids non ouverts. À l’échelle de l’IA, son ancienneté d’environ un an le place déjà dans une génération passée, à comparer surtout aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes les plus récents.

Le modèle combine une grande fenêtre de contexte de 128 000 tokens et une coupure de connaissances au 31 octobre 2023. Son positionnement tarifaire reste intermédiaire, mais légèrement au-dessus de la moyenne des LLM similaires, tout en restant nettement moins cher que les modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	27 mars 2025
Connaissances jusqu'à	2023-10-31
Multimodal	oui
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	11.2	124ᵉ / 136
Code Index	24.2	46ᵉ / 50
Math Index	6.0	54ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	90,0 %	112ᵉ / 217	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	84,0 %	106ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	69,0 %	98ᵉ / 252	benchable	✅ Mesuré
Epoch: MATH level 5	53,3 %	44ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	49,2 %	80ᵉ / 132	epoch	✅ Mesuré
Epoch: SWE-Bench verified	31,0 %	32ᵉ / 32	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	6,4 %	87ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	0,3 %	65ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
AI2D	94,2 %	3ᵉ / 32	llm-stats	Auto-déclaré
DocVQA	92,8 %	15ᵉ / 26	llm-stats	Auto-déclaré
MGSM	90,5 %	8ᵉ / 30	llm-stats	Auto-déclaré
HumanEval	90,2 %	11ᵉ / 65	llm-stats	Auto-déclaré
ChartQA	85,7 %	12ᵉ / 24	llm-stats	Auto-déclaré
MMLU	85,7 %	35ᵉ / 98	llm-stats	Auto-déclaré
CharXiv-D	85,3 %	12ᵉ / 16	llm-stats	Auto-déclaré
DROP	83,4 %	7ᵉ / 29	llm-stats	Auto-déclaré
MMMLU	81,4 %	38ᵉ / 49	llm-stats	Auto-déclaré
IFEval	81,0 %	51ᵉ / 65	llm-stats	Auto-déclaré
MATH	76,6 %	24ᵉ / 70	llm-stats	Auto-déclaré
MMLU-Pro	74,7 %	69ᵉ / 125	llm-stats	Auto-déclaré
EgoSchema	72,2 %	3ᵉ / 9	llm-stats	Auto-déclaré
MMMU	72,2 %	26ᵉ / 61	llm-stats	Auto-déclaré
GPQA	70,1 %	112ᵉ / 213	llm-stats	Auto-déclaré
ComplexFuncBench	66,5 %	1ᵉ / 7	llm-stats	Auto-déclaré
Tau2 Retail	63,4 %	22ᵉ / 25	llm-stats	Auto-déclaré
MathVista	61,4 %	25ᵉ / 38	llm-stats	Auto-déclaré
VideoMMMU	61,2 %	25ᵉ / 26	llm-stats	Auto-déclaré
COLLIE	61,0 %	8ᵉ / 10	llm-stats	Auto-déclaré
Multi-IF	60,9 %	19ᵉ / 20	llm-stats	Auto-déclaré
TAU-bench Retail	60,3 %	19ᵉ / 24	llm-stats	Auto-déclaré
MMMU-Pro	59,9 %	45ᵉ / 60	llm-stats	Auto-déclaré
CharXiv-R	58,8 %	31ᵉ / 42	llm-stats	Auto-déclaré
Tau2 Airline	45,5 %	20ᵉ / 22	llm-stats	Auto-déclaré
TAU-bench Airline	42,8 %	18ᵉ / 22	llm-stats	Auto-déclaré
Graphwalks BFS <128k	41,7 %	9ᵉ / 10	llm-stats	Auto-déclaré
Multi-Challenge	40,3 %	21ᵉ / 28	llm-stats	Auto-déclaré
SimpleQA	38,2 %	21ᵉ / 45	llm-stats	Auto-déclaré
Graphwalks parents <128k	35,4 %	9ᵉ / 10	llm-stats	Auto-déclaré
ERQA	35,2 %	22ᵉ / 22	llm-stats	Auto-déclaré
SWE-Bench Verified	33,2 %	95ᵉ / 100	llm-stats	Auto-déclaré
SWE-Lancer	32,6 %	3ᵉ / 4	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 128k	31,9 %	7ᵉ / 8	llm-stats	Auto-déclaré
Aider-Polyglot	30,7 %	20ᵉ / 22	llm-stats	Auto-déclaré
Internal API instruction following (hard)	29,2 %	7ᵉ / 7	llm-stats	Auto-déclaré
Tau2 Telecom	23,5 %	33ᵉ / 34	llm-stats	Auto-déclaré
Aider-Polyglot Edit	18,2 %	9ᵉ / 10	llm-stats	Auto-déclaré
AIME 2024	13,1 %	52ᵉ / 52	llm-stats	Auto-déclaré
SWE-Lancer (IC-Diamond subset)	12,4 %	5ᵉ / 6	llm-stats	Auto-déclaré
Humanity's Last Exam	5,3 %	81ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Llama 4 Maverick14.3

▶ GPT-4o11.2

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Nova 2.0 Pro Preview34.0

▶ GPT-4o24.2

Llama 4 Maverick16.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1346	184ᵉ
Arena Text	1335	196ᵉ
Arena Vision	1162	75ᵉ
Arena Vision	1119	98ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
azure	2,5 $	10 $	n.d.
OpenAI	2,5 $	10 $	1,25 $
artificialanalysis	2,5 $	10 $	1,375 $
Azure	5 $	15 $	n.d.
artificialanalysis	5 $	15 $	3,75 $

Prix en dollars US par million de tokens.

Sa tarification se situe 28 % au-dessus de la moyenne des LLM similaires, et 1,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,11 $
Latence moyenne par benchmark — Benchable	2 min 53 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. À sa sortie, GPT-4o se situait dans le top 39% des LLM de sa génération sur Epoch: GPQA diamond, ce qui en faisait un modèle compétitif pour son époque sans occuper le tout premier rang. Ses meilleurs signaux viennent des benchmarks Benchable: il atteint le top 10 sur Hallucinations (Baseline) et Ethics (Baseline), deux domaines utiles pour juger la fiabilité de base et le comportement général. Il obtient aussi de très bons résultats en Email Classification (Baseline), et reste solide sur Coding (Baseline) et Mathematics (Baseline), même si ces scores doivent être lus avec les classements associés. Sa fenêtre de 128 000 tokens reste un atout concret pour traiter de longs documents ou de longues conversations.

Limites et points d'attention. GPT-4o apparaît aujourd’hui largement dépassé par les modèles plus récents, et il n’est souvent plus proposé par l’éditeur. Ses indices globaux sont faibles dans le paysage comparé: Intelligence Index en bas de tableau, Code Index parmi les derniers modèles évalués, Math Index presque en queue de classement. Les classements Arena text et Arena vision confirment une position éloignée des meilleurs systèmes actuels. Le prix n’est pas particulièrement agressif: il se situe dans la moyenne, mais reste 28% au-dessus des LLM similaires, malgré un coût environ 1.9 fois inférieur aux modèles frontière.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).