GPT-4.1
GPT-4.1 est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son trait le plus distinctif est sa très grande fenêtre de contexte, d’environ 1,0 M de tokens, qui le plaçait parmi les modèles conçus pour traiter de longs volumes de texte à son lancement.
GPT-4.1 est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son trait le plus distinctif est sa très grande fenêtre de contexte, d’environ 1,0 M de tokens, qui le plaçait parmi les modèles conçus pour traiter de longs volumes de texte à son lancement.
Avec près d’un an d’ancienneté, GPT-4.1 appartient déjà à une génération ancienne à l’échelle de l’IA. À sa sortie, il figurait dans le top 16% des LLM de sa période sur GPQA diamond, tandis que son prix le positionnait comme une option économique, nettement moins chère que les modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 14 avril 2025 |
| Connaissances jusqu'à | 2024-06-01 |
| Multimodal | oui |
| Fenêtre de contexte | 1 047 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 19.4 | 102ᵉ / 136 |
| Math Index | 34.7 | 41ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 96,0 % | 13ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 91,0 % | 98ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 88,0 % | 158ᵉ / 229 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 83,0 % | 23ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 82,0 % | 112ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 76,0 % | 65ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 66,9 % | 62ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: SWE-Bench verified | 48,5 % | 31ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 38,3 % | 63ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 5,5 % | 46ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 0,0 % | 47ᵉ / 55 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Public | 0,0 % | 3ᵉ / 36 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| MMLU | 90,2 % | 8ᵉ / 98 | llm-stats | Auto-déclaré |
| CharXiv-D | 87,9 % | 8ᵉ / 16 | llm-stats | Auto-déclaré |
| IFEval | 87,4 % | 33ᵉ / 65 | llm-stats | Auto-déclaré |
| MMMLU | 87,3 % | 20ᵉ / 49 | llm-stats | Auto-déclaré |
| MMMU | 74,8 % | 21ᵉ / 61 | llm-stats | Auto-déclaré |
| MathVista | 72,2 % | 11ᵉ / 38 | llm-stats | Auto-déclaré |
| Multi-IF | 70,8 % | 15ᵉ / 20 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 68,0 % | 14ᵉ / 24 | llm-stats | Auto-déclaré |
| GPQA | 66,3 % | 126ᵉ / 213 | llm-stats | Auto-déclaré |
| COLLIE | 65,8 % | 6ᵉ / 10 | llm-stats | Auto-déclaré |
| ComplexFuncBench | 65,5 % | 2ᵉ / 7 | llm-stats | Auto-déclaré |
| Graphwalks BFS <128k | 61,7 % | 6ᵉ / 10 | llm-stats | Auto-déclaré |
| Graphwalks parents <128k | 58,0 % | 7ᵉ / 10 | llm-stats | Auto-déclaré |
| OpenAI-MRCR: 2 needle 128k | 57,2 % | 3ᵉ / 8 | llm-stats | Auto-déclaré |
| CharXiv-R | 56,7 % | 33ᵉ / 42 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 54,6 % | 80ᵉ / 100 | llm-stats | Auto-déclaré |
| Aider-Polyglot Edit | 52,9 % | 6ᵉ / 10 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 51,6 % | 15ᵉ / 22 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 49,4 % | 12ᵉ / 22 | llm-stats | Auto-déclaré |
| Internal API instruction following (hard) | 49,1 % | 4ᵉ / 7 | llm-stats | Auto-déclaré |
| AIME 2024 | 48,1 % | 47ᵉ / 52 | llm-stats | Auto-déclaré |
| AIME 2025 | 46,4 % | 100ᵉ / 108 | llm-stats | Auto-déclaré |
| OpenAI-MRCR: 2 needle 1M | 46,3 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| Multi-Challenge | 38,3 % | 24ᵉ / 28 | llm-stats | Auto-déclaré |
| HMMT 2025 | 28,9 % | 33ᵉ / 33 | llm-stats | Auto-déclaré |
| Graphwalks parents >128k | 25,0 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| Graphwalks BFS >128k | 19,0 % | 6ᵉ / 8 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 5,4 % | 80ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1414 | 103ᵉ |
| Arena Vision | 1214 | 51ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 2 $ | 8 $ | n.d. |
| Azure | 2 $ | 8 $ | 0,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 3 % au-dessus de la moyenne des LLM similaires, et 2,4 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,08 $ |
| Latence moyenne par benchmark — Benchable | 2 min 33 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. GPT-4.1 se distinguait surtout, à sa sortie, par son compromis entre contexte massif, coût contenu et résultats solides sur plusieurs tâches structurées. Les benchmarks Benchable le placent tout en haut sur Ethics (Baseline) et à un très bon niveau en Mathematics (Baseline), avec aussi de bons scores en General Knowledge, Email Classification et Coding. Sa tarification reste un point fort de positionnement, avec un prix seulement légèrement supérieur à la moyenne des LLM similaires et environ 2,4 fois inférieur à celui des modèles frontière. Pour un modèle de sa génération, l’ensemble formait une offre crédible pour des usages textuels longs et des tâches standardisées.
Limites et points d'attention. GPT-4.1 est désormais ancien, avec des connaissances arrêtées au 2024-06-01 et des performances probablement dépassées par les modèles plus récents. Ses classements globaux restent modestes sur l’Intelligence Index, le Math Index, Arena text et Arena vision, ce qui limite sa place face aux systèmes haut de gamme actuels. Le score Benchable Hallucinations (Baseline) apparaît aussi moins compétitif que ses meilleurs résultats, signe d’une fiabilité à surveiller sur les réponses factuelles. Comme beaucoup de modèles de cette période, il est souvent retiré du catalogue de l’éditeur aujourd’hui, ce qui réduit son intérêt pratique hors comparaison historique.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).