GPT-5.1
GPT-5.1 est un LLM propriétaire d’OpenAI, publié le 13 novembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 400 000 tokens et par des connaissances arrêtées au 2024-09-30, ce qui le positionne comme un modèle généraliste récent mais borné…
GPT-5.1 est un LLM propriétaire d’OpenAI, publié le 13 novembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 400 000 tokens et par des connaissances arrêtées au 2024-09-30, ce qui le positionne comme un modèle généraliste récent mais borné dans son information native.
Son profil combine un tarif économique, 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière, avec des résultats particulièrement solides en mathématiques et sur plusieurs tests Benchable. À sa sortie, GPT-5.1 se situait dans le top 4% de sa génération sur GPQA diamond, selon sept sources concordantes.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 13 novembre 2025 |
| Connaissances jusqu'à | 2024-09-30 |
| Multimodal | oui |
| Fenêtre de contexte | 400 000 tokens |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 38.9 | 28ᵉ / 136 |
| Math Index | 94.0 | 7ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Hallucinations (Baseline) | 100,0 % | 1ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 94,0 % | 38ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 92,0 % | 92ᵉ / 217 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 88,6 % | 25ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 87,6 % | 21ᵉ / 132 | epoch | ✅ Mesuré |
| LiveBench: Mathematics | 86,9 % | 17ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 83,0 % | 36ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Language | 79,3 % | 14ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Reasoning | 78,8 % | 21ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 72,5 % | 34ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 72,0 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 69,6 % | 22ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 68,0 % | 25ᵉ / 32 | epoch | ✅ Mesuré |
| LiveBench: IF | 63,9 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Agentic Coding | 53,3 % | 20ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 48,9 % | 19ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 32,0 % | 12ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 31,0 % | 18ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 12,5 % | 17ᵉ / 55 | epoch | ✅ Mesuré |
| Tau2 Telecom | 95,6 % | 10ᵉ / 34 | llm-stats | Auto-déclaré |
| AIME 2025 | 94,0 % | 22ᵉ / 108 | llm-stats | Auto-déclaré |
| BrowseComp Long Context 128k | 90,0 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| GPQA | 88,1 % | 23ᵉ / 213 | llm-stats | Auto-déclaré |
| MMMU | 85,4 % | 2ᵉ / 61 | llm-stats | Auto-déclaré |
| Tau2 Retail | 77,9 % | 10ᵉ / 25 | llm-stats | Auto-déclaré |
| SWE-Bench Verified | 76,3 % | 28ᵉ / 100 | llm-stats | Auto-déclaré |
| LiveBench | 72,0 % | 26ᵉ / 38 | llm-stats | n.d. |
| Tau2 Airline | 67,0 % | 4ᵉ / 22 | llm-stats | Auto-déclaré |
| FrontierMath | 26,7 % | 5ᵉ / 13 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Math Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1455 | 43ᵉ |
| Arena Text | 1439 | 61ᵉ |
| Arena Image-to-Code | 1421 | 18ᵉ |
| Arena Document | 1401 | 28ᵉ |
| Arena Code | 1391 | 45ᵉ |
| Arena Image-to-Code | 1344 | 21ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 1,25 $ | 10 $ | n.d. |
| Azure | 1,25 $ | 10 $ | 0,13 $ |
| artificialanalysis | 1,25 $ | 10 $ | 0,125 $ |
| artificialanalysis | 1,25 $ | 10 $ | 0,6875 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,2 $ |
| Latence moyenne par benchmark — Benchable | 4 min 20 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. GPT-5.1 ressort surtout par ses performances de fiabilité et de culture générale sur Benchable, avec des premières places sur Hallucinations, General Knowledge et Ethics. Le Math Index le place aussi dans le top 10, ce qui en fait l’un de ses points forts les plus nets. Les scores Benchable en reasoning et en coding restent élevés, tandis que l’Arena image-to-code le situe plus favorablement que les classements Arena text. Sa fenêtre de contexte de 400 000 tokens renforce son intérêt pour les tâches longues, notamment l’analyse de grands volumes de texte.
Limites et points d'attention. Le classement global reste moins dominant que ses meilleurs scores spécialisés : l’Intelligence Index le place hors du tout premier cercle, et les classements Arena text sont nettement moins favorables que ses résultats Benchable de tête. L’Email Classification apparaît aussi comme un point moins distinctif dans son profil. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances natives s’arrêtent au 2024-09-30. Son positionnement convient surtout aux usages généralistes à coût maîtrisé, avec un avantage marqué en mathématiques, connaissance générale, éthique et contexte long.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).