GPT-4.1 mini
GPT-4.1 mini est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent…
GPT-4.1 mini est un LLM propriétaire d’OpenAI, sorti le 14 avril 2025, avec des poids non ouverts. Son ancienneté d’environ un an est déjà très longue à l’échelle de l’IA : il se lit surtout comme un modèle de sa génération, probablement dépassé par les offres plus récentes et souvent retiré des catalogues actuels.
Son positionnement repose sur un compromis coût-capacité : une très grande fenêtre de contexte d’environ 1,0 M de tokens, des connaissances arrêtées au 31 mai 2024, et un tarif très économique, nettement sous la moyenne des LLM similaires et bien inférieur aux modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 14 avril 2025 |
| Connaissances jusqu'à | 2024-05-31 |
| Multimodal | oui |
| Fenêtre de contexte | 1 047 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 16.3 | 111ᵉ / 136 |
| Math Index | 46.3 | 35ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 99,0 % | 113ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 95,0 % | 25ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 92,0 % | 80ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: MATH level 5 | 87,3 % | 18ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 76,4 % | 64ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 72,0 % | 142ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 70,0 % | 194ᵉ / 229 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 65,8 % | 63ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 44,7 % | 62ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 10,0 % | 31ᵉ / 64 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 4,5 % | 48ᵉ / 69 | epoch | ✅ Mesuré |
| CharXiv-D | 88,4 % | 6ᵉ / 16 | llm-stats | Auto-déclaré |
| MMLU | 87,5 % | 21ᵉ / 98 | llm-stats | Auto-déclaré |
| IFEval | 84,1 % | 41ᵉ / 65 | llm-stats | Auto-déclaré |
| MMMLU | 78,5 % | 40ᵉ / 49 | llm-stats | Auto-déclaré |
| MathVista | 73,1 % | 9ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 72,7 % | 25ᵉ / 61 | llm-stats | Auto-déclaré |
| Multi-IF | 67,0 % | 17ᵉ / 20 | llm-stats | Auto-déclaré |
| GPQA | 65,0 % | 133ᵉ / 213 | llm-stats | Auto-déclaré |
| Graphwalks BFS <128k | 61,7 % | 6ᵉ / 10 | llm-stats | Auto-déclaré |
| Graphwalks parents <128k | 60,5 % | 5ᵉ / 10 | llm-stats | Auto-déclaré |
| CharXiv-R | 56,8 % | 32ᵉ / 42 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 55,8 % | 21ᵉ / 24 | llm-stats | Auto-déclaré |
| COLLIE | 54,6 % | 9ᵉ / 10 | llm-stats | Auto-déclaré |
| AIME 2024 | 49,6 % | 46ᵉ / 52 | llm-stats | Auto-déclaré |
| ComplexFuncBench | 49,3 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| OpenAI-MRCR: 2 needle 128k | 47,2 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| Internal API instruction following (hard) | 45,1 % | 5ᵉ / 7 | llm-stats | Auto-déclaré |
| AIME 2025 | 40,2 % | 103ᵉ / 108 | llm-stats | Auto-déclaré |
| TAU-bench Airline | 36,0 % | 19ᵉ / 22 | llm-stats | Auto-déclaré |
| Multi-Challenge | 35,8 % | 25ᵉ / 28 | llm-stats | Auto-déclaré |
| HMMT 2025 | 35,0 % | 31ᵉ / 33 | llm-stats | Auto-déclaré |
| Aider-Polyglot | 34,7 % | 19ᵉ / 22 | llm-stats | Auto-déclaré |
| OpenAI-MRCR: 2 needle 1M | 33,3 % | 3ᵉ / 4 | llm-stats | Auto-déclaré |
| Aider-Polyglot Edit | 31,6 % | 8ᵉ / 10 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 23,6 % | 97ᵉ / 100 | llm-stats | Auto-déclaré |
| Graphwalks BFS >128k | 15,0 % | 7ᵉ / 8 | llm-stats | Auto-déclaré |
| Graphwalks parents >128k | 11,0 % | 6ᵉ / 7 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 3,7 % | 86ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1383 | 143ᵉ |
| Arena Vision | 1202 | 57ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 0,4 $ | 1,6 $ | 0,1 $ |
| openai | 0,4 $ | 1,6 $ | n.d. |
| artificialanalysis | 0,4 $ | 1,6 $ | 0,1 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 79 % en dessous de la moyenne des LLM similaires, et 12,1 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 2 min 54 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. À sa sortie, GPT-4.1 mini se situait dans le haut du panier de sa génération, notamment avec un classement dans le top 17% sur Epoch: GPQA diamond parmi les LLM de la même période. Ses meilleurs signaux viennent des évaluations Benchable : excellent résultat en Ethics (Baseline), très bon niveau en General Knowledge, Email Classification, Mathematics et Coding. Le score élevé sur Epoch: MATH level 5 confirme une vraie solidité sur des tâches mathématiques difficiles pour un modèle mini de cette période. Sa très grande fenêtre de contexte constituait aussi un atout concret pour traiter de longs documents ou de longues conversations, avec un coût d’usage particulièrement bas.
Limites et points d'attention. GPT-4.1 mini affiche aujourd’hui une ancienneté pénalisante : ses performances sont largement dépassées par les modèles plus récents, et ce type de modèle est souvent déjà absent du catalogue actif de son éditeur. Son Intelligence Index le place en bas de classement, tandis que l’Arena text le situe loin des meilleurs modèles conversationnels. Les bons résultats sur certains benchmarks ne compensent donc pas une compétitivité globale limitée face aux modèles actuels. La licence propriétaire limite aussi l’audit et l’hébergement indépendant des poids.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).