OpenAI

GPT-4o mini

GPT-4o mini est un LLM propriétaire d’OpenAI, lancé le 18 juillet 2024, avec des poids non ouverts et une origine américaine. Son positionnement central est économique : ses tarifs d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et loin des prix des…

Avec environ deux ans d’ancienneté, GPT-4o mini appartient déjà à une génération ancienne à l’échelle de l’IA. À sa sortie, il se situait dans le top 38% des LLM de sa période sur GPQA diamond, avec une fenêtre de contexte longue et des connaissances arrêtées au 1er octobre 2023.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	18 juillet 2024
Connaissances jusqu'à	2023-10-01
Multimodal	oui
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	6.9	133ᵉ / 136
Math Index	14.7	49ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	87,0 %	135ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	76,0 %	187ᵉ / 229	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	71,0 %	165ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	60,5 %	140ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	56,0 %	173ᵉ / 239	benchable	✅ Mesuré
Epoch: MATH level 5	52,6 %	45ᵉ / 84	epoch	✅ Mesuré
Epoch: GPQA diamond	37,7 %	105ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	6,9 %	85ᵉ / 111	epoch	✅ Mesuré
HumanEval	87,2 %	28ᵉ / 65	llm-stats	Auto-déclaré
MGSM	87,0 %	12ᵉ / 30	llm-stats	Auto-déclaré
MMLU	82,0 %	48ᵉ / 98	llm-stats	Auto-déclaré
DROP	79,7 %	12ᵉ / 29	llm-stats	Auto-déclaré
MATH	70,2 %	37ᵉ / 70	llm-stats	Auto-déclaré
MMMU	59,4 %	43ᵉ / 61	llm-stats	Auto-déclaré
MathVista	56,7 %	29ᵉ / 38	llm-stats	Auto-déclaré
GPQA	40,2 %	185ᵉ / 213	llm-stats	Auto-déclaré
SWE-Bench Verified	8,7 %	100ᵉ / 100	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Llama 4 Maverick14.3

▶ GPT-4o mini6.9

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Llama 4 Maverick19.3

▶ GPT-4o mini14.7

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	1098	101ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Azure	0,15 $	0,6 $	0,075 $

Prix en dollars US par million de tokens.

Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	2 min 09 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. GPT-4o mini ressort surtout par son rapport coût-volume : sa tarification très économique, 92% sous la moyenne des LLM similaires et environ 32.2 fois inférieure à celle des modèles frontière, en faisait un candidat attractif pour les usages nombreux ou répétitifs à sa période. Ses meilleurs résultats Benchable concernent Ethics (Baseline), où il atteint le top 10, ainsi que General Knowledge (Baseline) et Email Classification (Baseline), deux tâches où ses scores restent élevés dans les données disponibles. Sa fenêtre de contexte de 128 000 tokens constituait aussi un atout concret pour traiter de longs contenus dans un modèle compact et peu coûteux.

Limites et points d'attention. GPT-4o mini est aujourd’hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent retiré du catalogue de l’éditeur. Son Intelligence Index le place en bas de classement, et son Math Index reste faible face aux modèles comparés. Les résultats Benchable confirment ce profil : Coding (Baseline) est au milieu-bas du tableau, Mathematics (Baseline) est nettement moins compétitif, et Hallucinations (Baseline) signale un risque de fiabilité à surveiller. Son évaluation Arena vision reste également éloignée des meilleurs modèles mesurés.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).