GPT-4o mini

GPT-4o mini est un LLM propriétaire d’OpenAI, lancé le 18 juillet 2024, avec des poids non ouverts et une origine américaine. Son positionnement central est économique : ses tarifs d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et loin des prix des…

GPT-4o mini est un LLM propriétaire d’OpenAI, lancé le 18 juillet 2024, avec des poids non ouverts et une origine américaine. Son positionnement central est économique : ses tarifs d’entrée et de sortie le placent très nettement sous la moyenne des LLM similaires et loin des prix des modèles frontière.

Avec environ deux ans d’ancienneté, GPT-4o mini appartient déjà à une génération ancienne à l’échelle de l’IA. À sa sortie, il se situait dans le top 38% des LLM de sa période sur GPQA diamond, avec une fenêtre de contexte longue et des connaissances arrêtées au 1er octobre 2023.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie18 juillet 2024
Connaissances jusqu'à2023-10-01
Multimodaloui
Fenêtre de contexte128 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index6.9133ᵉ / 136
Math Index14.749ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Coding (Baseline)87,0 %135ᵉ / 248benchable✅ Mesuré
Benchable : Hallucinations (Baseline)76,0 %187ᵉ / 229benchable✅ Mesuré
Benchable : Mathematics (Baseline)71,0 %165ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)60,5 %140ᵉ / 252benchable✅ Mesuré
Benchable : Reasoning (Baseline)56,0 %173ᵉ / 239benchable✅ Mesuré
Epoch: MATH level 552,6 %45ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond37,7 %105ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-20256,9 %85ᵉ / 111epoch✅ Mesuré
HumanEval87,2 %28ᵉ / 65llm-statsAuto-déclaré
MGSM87,0 %12ᵉ / 30llm-statsAuto-déclaré
MMLU82,0 %48ᵉ / 98llm-statsAuto-déclaré
DROP79,7 %12ᵉ / 29llm-statsAuto-déclaré
MATH70,2 %37ᵉ / 70llm-statsAuto-déclaré
MMMU59,4 %43ᵉ / 61llm-statsAuto-déclaré
MathVista56,7 %29ᵉ / 38llm-statsAuto-déclaré
GPQA40,2 %185ᵉ / 213llm-statsAuto-déclaré
SWE-Bench Verified8,7 %100ᵉ / 100llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Llama 4 Maverick14.3
▶ GPT-4o mini6.9

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
Llama 4 Maverick19.3
▶ GPT-4o mini14.7

Classements Arena (Elo)

CatégorieEloRang
Arena Vision1098101ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
Azure0,15 $0,6 $0,075 $

Prix en dollars US par million de tokens.

Sa tarification se situe 92 % en dessous de la moyenne des LLM similaires, et 32,2 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable2 min 09 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. GPT-4o mini ressort surtout par son rapport coût-volume : sa tarification très économique, 92% sous la moyenne des LLM similaires et environ 32.2 fois inférieure à celle des modèles frontière, en faisait un candidat attractif pour les usages nombreux ou répétitifs à sa période. Ses meilleurs résultats Benchable concernent Ethics (Baseline), où il atteint le top 10, ainsi que General Knowledge (Baseline) et Email Classification (Baseline), deux tâches où ses scores restent élevés dans les données disponibles. Sa fenêtre de contexte de 128 000 tokens constituait aussi un atout concret pour traiter de longs contenus dans un modèle compact et peu coûteux.

Limites et points d'attention. GPT-4o mini est aujourd’hui un modèle ancien, probablement dépassé par les générations plus récentes et souvent retiré du catalogue de l’éditeur. Son Intelligence Index le place en bas de classement, et son Math Index reste faible face aux modèles comparés. Les résultats Benchable confirment ce profil : Coding (Baseline) est au milieu-bas du tableau, Mathematics (Baseline) est nettement moins compétitif, et Hallucinations (Baseline) signale un risque de fiabilité à surveiller. Son évaluation Arena vision reste également éloignée des meilleurs modèles mesurés.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).