OpenAI

GPT-4.1 mini

GPT-4.1 mini est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent…

Son positionnement repose sur un compromis coût-capacité : une très grande fenêtre de contexte d’environ 1,0 M de tokens, des connaissances arrêtées au 31 mai 2024, et un tarif très économique, nettement sous la moyenne des LLM similaires et bien inférieur aux modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	14 avril 2025
Connaissances jusqu'à	2024-05-31
Multimodal	oui
Fenêtre de contexte	1 047 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	16.3	111ᵉ / 136
Math Index	46.3	35ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,0 %	113ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	95,0 %	25ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	92,0 %	80ᵉ / 248	benchable	✅ Mesuré
Epoch: MATH level 5	87,3 %	18ᵉ / 84	epoch	✅ Mesuré
Benchable : Instruction Following (Baseline)	76,4 %	64ᵉ / 252	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	72,0 %	142ᵉ / 239	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	70,0 %	194ᵉ / 229	benchable	✅ Mesuré
Epoch: GPQA diamond	65,8 %	63ᵉ / 132	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	44,7 %	62ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	10,0 %	31ᵉ / 64	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	4,5 %	48ᵉ / 69	epoch	✅ Mesuré
CharXiv-D	88,4 %	6ᵉ / 16	llm-stats	Auto-déclaré
MMLU	87,5 %	21ᵉ / 98	llm-stats	Auto-déclaré
IFEval	84,1 %	41ᵉ / 65	llm-stats	Auto-déclaré
MMMLU	78,5 %	40ᵉ / 49	llm-stats	Auto-déclaré
MathVista	73,1 %	9ᵉ / 38	llm-stats	Auto-déclaré
MMMU	72,7 %	25ᵉ / 61	llm-stats	Auto-déclaré
Multi-IF	67,0 %	17ᵉ / 20	llm-stats	Auto-déclaré
GPQA	65,0 %	133ᵉ / 213	llm-stats	Auto-déclaré
Graphwalks BFS <128k	61,7 %	6ᵉ / 10	llm-stats	Auto-déclaré
Graphwalks parents <128k	60,5 %	5ᵉ / 10	llm-stats	Auto-déclaré
CharXiv-R	56,8 %	32ᵉ / 42	llm-stats	Auto-déclaré
TAU-bench Retail	55,8 %	21ᵉ / 24	llm-stats	Auto-déclaré
COLLIE	54,6 %	9ᵉ / 10	llm-stats	Auto-déclaré
AIME 2024	49,6 %	46ᵉ / 52	llm-stats	Auto-déclaré
ComplexFuncBench	49,3 %	5ᵉ / 7	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 128k	47,2 %	4ᵉ / 8	llm-stats	Auto-déclaré
Internal API instruction following (hard)	45,1 %	5ᵉ / 7	llm-stats	Auto-déclaré
AIME 2025	40,2 %	103ᵉ / 108	llm-stats	Auto-déclaré
TAU-bench Airline	36,0 %	19ᵉ / 22	llm-stats	Auto-déclaré
Multi-Challenge	35,8 %	25ᵉ / 28	llm-stats	Auto-déclaré
HMMT 2025	35,0 %	31ᵉ / 33	llm-stats	Auto-déclaré
Aider-Polyglot	34,7 %	19ᵉ / 22	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 1M	33,3 %	3ᵉ / 4	llm-stats	Auto-déclaré
Aider-Polyglot Edit	31,6 %	8ᵉ / 10	llm-stats	Auto-déclaré
SWE-Bench Verified	23,6 %	97ᵉ / 100	llm-stats	Auto-déclaré
Graphwalks BFS >128k	15,0 %	7ᵉ / 8	llm-stats	Auto-déclaré
Graphwalks parents >128k	11,0 %	6ᵉ / 7	llm-stats	Auto-déclaré
Humanity's Last Exam	3,7 %	86ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ GPT-4.1 mini16.3

Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ GPT-4.1 mini46.3

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1383	143ᵉ
Arena Vision	1202	57ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenAI	0,4 $	1,6 $	0,1 $
openai	0,4 $	1,6 $	n.d.
artificialanalysis	0,4 $	1,6 $	0,1 $

Prix en dollars US par million de tokens.

Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	2 min 54 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. À sa sortie, GPT-4.1 mini se situait dans le haut du panier de sa génération, notamment avec un classement dans le top 17% sur Epoch: GPQA diamond parmi les LLM de la même période. Ses meilleurs signaux viennent des évaluations Benchable : excellent résultat en Ethics (Baseline), très bon niveau en General Knowledge, Email Classification, Mathematics et Coding. Le score élevé sur Epoch: MATH level 5 confirme une vraie solidité sur des tâches mathématiques difficiles pour un modèle mini de cette période. Sa très grande fenêtre de contexte constituait aussi un atout concret pour traiter de longs documents ou de longues conversations, avec un coût d’usage particulièrement bas.

Limites et points d'attention. GPT-4.1 mini affiche aujourd’hui une ancienneté pénalisante : ses performances sont largement dépassées par les modèles plus récents, et ce type de modèle est souvent déjà absent du catalogue actif de son éditeur. Son Intelligence Index le place en bas de classement, tandis que l’Arena text le situe loin des meilleurs modèles conversationnels. Les bons résultats sur certains benchmarks ne compensent donc pas une compétitivité globale limitée face aux modèles actuels. La licence propriétaire limite aussi l’audit et l’hébergement indépendant des poids.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

GPT-4.1 mini

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast