OpenAI

GPT-4.1

GPT-4.1 est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son trait le plus distinctif est sa très grande fenêtre de contexte, d’environ 1,0 M de tokens, qui le plaçait parmi les modèles conçus pour traiter de longs volumes de texte à son lancement.

Avec près d’un an d’ancienneté, GPT-4.1 appartient déjà à une génération ancienne à l’échelle de l’IA. À sa sortie, il figurait dans le top 16% des LLM de sa période sur GPQA diamond, tandis que son prix le positionnait comme une option économique, nettement moins chère que les modèles frontière.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	14 avril 2025
Connaissances jusqu'à	2024-06-01
Multimodal	oui
Fenêtre de contexte	1 047 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	19.4	102ᵉ / 136
Math Index	34.7	41ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	96,0 %	13ᵉ / 217	benchable	✅ Mesuré
Benchable : Coding (Baseline)	91,0 %	98ᵉ / 248	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	88,0 %	158ᵉ / 229	benchable	✅ Mesuré
Epoch: MATH level 5	83,0 %	23ᵉ / 84	epoch	✅ Mesuré
Benchable : Reasoning (Baseline)	82,0 %	112ᵉ / 239	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	76,0 %	65ᵉ / 252	benchable	✅ Mesuré
Epoch: GPQA diamond	66,9 %	62ᵉ / 132	epoch	✅ Mesuré
Epoch: SWE-Bench verified	48,5 %	31ᵉ / 32	epoch	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	38,3 %	63ᵉ / 111	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	5,5 %	46ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	0,0 %	47ᵉ / 55	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Public	0,0 %	3ᵉ / 36	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public	0,0 %	35ᵉ / 64	epoch	✅ Mesuré
MMLU	90,2 %	8ᵉ / 98	llm-stats	Auto-déclaré
CharXiv-D	87,9 %	8ᵉ / 16	llm-stats	Auto-déclaré
IFEval	87,4 %	33ᵉ / 65	llm-stats	Auto-déclaré
MMMLU	87,3 %	20ᵉ / 49	llm-stats	Auto-déclaré
MMMU	74,8 %	21ᵉ / 61	llm-stats	Auto-déclaré
MathVista	72,2 %	11ᵉ / 38	llm-stats	Auto-déclaré
Multi-IF	70,8 %	15ᵉ / 20	llm-stats	Auto-déclaré
TAU-bench Retail	68,0 %	14ᵉ / 24	llm-stats	Auto-déclaré
GPQA	66,3 %	126ᵉ / 213	llm-stats	Auto-déclaré
COLLIE	65,8 %	6ᵉ / 10	llm-stats	Auto-déclaré
ComplexFuncBench	65,5 %	2ᵉ / 7	llm-stats	Auto-déclaré
Graphwalks BFS <128k	61,7 %	6ᵉ / 10	llm-stats	Auto-déclaré
Graphwalks parents <128k	58,0 %	7ᵉ / 10	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 128k	57,2 %	3ᵉ / 8	llm-stats	Auto-déclaré
CharXiv-R	56,7 %	33ᵉ / 42	llm-stats	Auto-déclaré
SWE-Bench Verified	54,6 %	80ᵉ / 100	llm-stats	Auto-déclaré
Aider-Polyglot Edit	52,9 %	6ᵉ / 10	llm-stats	Auto-déclaré
Aider-Polyglot	51,6 %	15ᵉ / 22	llm-stats	Auto-déclaré
TAU-bench Airline	49,4 %	12ᵉ / 22	llm-stats	Auto-déclaré
Internal API instruction following (hard)	49,1 %	4ᵉ / 7	llm-stats	Auto-déclaré
AIME 2024	48,1 %	47ᵉ / 52	llm-stats	Auto-déclaré
AIME 2025	46,4 %	100ᵉ / 108	llm-stats	Auto-déclaré
OpenAI-MRCR: 2 needle 1M	46,3 %	2ᵉ / 4	llm-stats	Auto-déclaré
Multi-Challenge	38,3 %	24ᵉ / 28	llm-stats	Auto-déclaré
HMMT 2025	28,9 %	33ᵉ / 33	llm-stats	Auto-déclaré
Graphwalks parents >128k	25,0 %	5ᵉ / 7	llm-stats	Auto-déclaré
Graphwalks BFS >128k	19,0 %	6ᵉ / 8	llm-stats	Auto-déclaré
Humanity's Last Exam	5,4 %	80ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ GPT-4.119.4

Llama 4 Maverick14.3

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

DeepSeek V3.292.0

Qwen3-235B-A22B-Instruc…71.7

▶ GPT-4.134.7

Llama 4 Maverick19.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1414	103ᵉ
Arena Vision	1214	51ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	2 $	8 $	n.d.
Azure	2 $	8 $	0,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,08 $
Latence moyenne par benchmark — Benchable	2 min 33 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. GPT-4.1 se distinguait surtout, à sa sortie, par son compromis entre contexte massif, coût contenu et résultats solides sur plusieurs tâches structurées. Les benchmarks Benchable le placent tout en haut sur Ethics (Baseline) et à un très bon niveau en Mathematics (Baseline), avec aussi de bons scores en General Knowledge, Email Classification et Coding. Sa tarification reste un point fort de positionnement, avec un prix seulement légèrement supérieur à la moyenne des LLM similaires et environ 2,4 fois inférieur à celui des modèles frontière. Pour un modèle de sa génération, l’ensemble formait une offre crédible pour des usages textuels longs et des tâches standardisées.

Limites et points d'attention. GPT-4.1 est désormais ancien, avec des connaissances arrêtées au 2024-06-01 et des performances probablement dépassées par les modèles plus récents. Ses classements globaux restent modestes sur l’Intelligence Index, le Math Index, Arena text et Arena vision, ce qui limite sa place face aux systèmes haut de gamme actuels. Le score Benchable Hallucinations (Baseline) apparaît aussi moins compétitif que ses meilleurs résultats, signe d’une fiabilité à surveiller sur les réponses factuelles. Comme beaucoup de modèles de cette période, il est souvent retiré du catalogue de l’éditeur aujourd’hui, ce qui réduit son intérêt pratique hors comparaison historique.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).

GPT-4.1

Caractéristiques

Indices de synthèse

Performances (benchmarks)

Comment se situe-t-il ?

Classements Arena (Elo)

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast