GPT-4.1 mini

GPT-4.1 mini est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent…

GPT-4.1 mini est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent retiré des catalogues actuels.

Son positionnement repose sur un compromis coût-capacité : une très grande fenêtre de contexte d’environ 1,0 M de tokens, des connaissances arrêtées au 31 mai 2024, et un tarif très économique, nettement sous la moyenne des LLM similaires et bien inférieur aux modèles frontière.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie14 avril 2025
Connaissances jusqu'à2024-05-31
Multimodaloui
Fenêtre de contexte1 047 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index16.3111ᵉ / 136
Math Index46.335ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : General Knowledge (Baseline)99,0 %113ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Mathematics (Baseline)95,0 %25ᵉ / 217benchable✅ Mesuré
Benchable : Coding (Baseline)92,0 %80ᵉ / 248benchable✅ Mesuré
Epoch: MATH level 587,3 %18ᵉ / 84epoch✅ Mesuré
Benchable : Instruction Following (Baseline)76,4 %64ᵉ / 252benchable✅ Mesuré
Benchable : Reasoning (Baseline)72,0 %142ᵉ / 239benchable✅ Mesuré
Benchable : Hallucinations (Baseline)70,0 %194ᵉ / 229benchable✅ Mesuré
Epoch: GPQA diamond65,8 %63ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202544,7 %62ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public10,0 %31ᵉ / 64epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private4,5 %48ᵉ / 69epoch✅ Mesuré
CharXiv-D88,4 %6ᵉ / 16llm-statsAuto-déclaré
MMLU87,5 %21ᵉ / 98llm-statsAuto-déclaré
IFEval84,1 %41ᵉ / 65llm-statsAuto-déclaré
MMMLU78,5 %40ᵉ / 49llm-statsAuto-déclaré
MathVista73,1 %9ᵉ / 38llm-statsAuto-déclaré
MMMU72,7 %25ᵉ / 61llm-statsAuto-déclaré
Multi-IF67,0 %17ᵉ / 20llm-statsAuto-déclaré
GPQA65,0 %133ᵉ / 213llm-statsAuto-déclaré
Graphwalks BFS <128k61,7 %6ᵉ / 10llm-statsAuto-déclaré
Graphwalks parents <128k60,5 %5ᵉ / 10llm-statsAuto-déclaré
CharXiv-R56,8 %32ᵉ / 42llm-statsAuto-déclaré
TAU-bench Retail55,8 %21ᵉ / 24llm-statsAuto-déclaré
COLLIE54,6 %9ᵉ / 10llm-statsAuto-déclaré
AIME 202449,6 %46ᵉ / 52llm-statsAuto-déclaré
ComplexFuncBench49,3 %5ᵉ / 7llm-statsAuto-déclaré
OpenAI-MRCR: 2 needle 128k47,2 %4ᵉ / 8llm-statsAuto-déclaré
Internal API instruction following (hard)45,1 %5ᵉ / 7llm-statsAuto-déclaré
AIME 202540,2 %103ᵉ / 108llm-statsAuto-déclaré
TAU-bench Airline36,0 %19ᵉ / 22llm-statsAuto-déclaré
Multi-Challenge35,8 %25ᵉ / 28llm-statsAuto-déclaré
HMMT 202535,0 %31ᵉ / 33llm-statsAuto-déclaré
Aider-Polyglot34,7 %19ᵉ / 22llm-statsAuto-déclaré
OpenAI-MRCR: 2 needle 1M33,3 %3ᵉ / 4llm-statsAuto-déclaré
Aider-Polyglot Edit31,6 %8ᵉ / 10llm-statsAuto-déclaré
SWE-Bench Verified23,6 %97ᵉ / 100llm-statsAuto-déclaré
Graphwalks BFS >128k15,0 %7ᵉ / 8llm-statsAuto-déclaré
Graphwalks parents >128k11,0 %6ᵉ / 7llm-statsAuto-déclaré
Humanity's Last Exam3,7 %86ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Nova 2.0 Pro Preview21.8
▶ GPT-4.1 mini16.3
Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7
gemini-3-flash97.0
DeepSeek V3.292.0
Qwen3-235B-A22B-Instruc…71.7
▶ GPT-4.1 mini46.3
Llama 4 Maverick19.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text1383143ᵉ
Arena Vision120257ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAI0,4 $1,6 $0,1 $
openai0,4 $1,6 $n.d.
artificialanalysis0,4 $1,6 $0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable2 min 54 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. À sa sortie, GPT-4.1 mini se situait dans le haut du panier de sa génération, notamment avec un classement dans le top 17% sur Epoch: GPQA diamond parmi les LLM de la même période. Ses meilleurs signaux viennent des évaluations Benchable : excellent résultat en Ethics (Baseline), très bon niveau en General Knowledge, Email Classification, Mathematics et Coding. Le score élevé sur Epoch: MATH level 5 confirme une vraie solidité sur des tâches mathématiques difficiles pour un modèle mini de cette période. Sa très grande fenêtre de contexte constituait aussi un atout concret pour traiter de longs documents ou de longues conversations, avec un coût d’usage particulièrement bas.

Limites et points d'attention. GPT-4.1 mini affiche aujourd’hui une ancienneté pénalisante : ses performances sont largement dépassées par les modèles plus récents, et ce type de modèle est souvent déjà absent du catalogue actif de son éditeur. Son Intelligence Index le place en bas de classement, tandis que l’Arena text le situe loin des meilleurs modèles conversationnels. Les bons résultats sur certains benchmarks ne compensent donc pas une compétitivité globale limitée face aux modèles actuels. La licence propriétaire limite aussi l’audit et l’hébergement indépendant des poids.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).