GPT-5.1

GPT-5.1 est un LLM propriétaire d’OpenAI, publié le 13 novembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 400 000 tokens et par des connaissances arrêtées au 2024-09-30, ce qui le positionne comme un modèle généraliste récent mais borné…

GPT-5.1 est un LLM propriétaire d’OpenAI, publié le 13 novembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 400 000 tokens et par des connaissances arrêtées au 2024-09-30, ce qui le positionne comme un modèle généraliste récent mais borné dans son information native.

Son profil combine un tarif économique, 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière, avec des résultats particulièrement solides en mathématiques et sur plusieurs tests Benchable. À sa sortie, GPT-5.1 se situait dans le top 4% de sa génération sur GPQA diamond, selon sept sources concordantes.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie13 novembre 2025
Connaissances jusqu'à2024-09-30
Multimodaloui
Fenêtre de contexte400 000 tokens
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index38.928ᵉ / 136
Math Index94.07ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Hallucinations (Baseline)100,0 %1ᵉ / 229benchable✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Coding (Baseline)94,0 %38ᵉ / 248benchable✅ Mesuré
Benchable : Mathematics (Baseline)92,0 %92ᵉ / 217benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202588,6 %25ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond87,6 %21ᵉ / 132epoch✅ Mesuré
LiveBench: Mathematics86,9 %17ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)83,0 %36ᵉ / 252benchable✅ Mesuré
LiveBench: Language79,3 %14ᵉ / 76livebench✅ Mesuré
LiveBench: Reasoning78,8 %21ᵉ / 76livebench✅ Mesuré
LiveBench: Coding72,5 %34ᵉ / 76livebench✅ Mesuré
LiveBench: Global average72,0 %20ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis69,6 %22ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified68,0 %25ᵉ / 32epoch✅ Mesuré
LiveBench: IF63,9 %20ᵉ / 76livebench✅ Mesuré
LiveBench: Agentic Coding53,3 %20ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified48,9 %19ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles32,0 %12ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private31,0 %18ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private12,5 %17ᵉ / 55epoch✅ Mesuré
Tau2 Telecom95,6 %10ᵉ / 34llm-statsAuto-déclaré
AIME 202594,0 %22ᵉ / 108llm-statsAuto-déclaré
BrowseComp Long Context 128k90,0 %2ᵉ / 4llm-statsAuto-déclaré
GPQA88,1 %23ᵉ / 213llm-statsAuto-déclaré
MMMU85,4 %2ᵉ / 61llm-statsAuto-déclaré
Tau2 Retail77,9 %10ᵉ / 25llm-statsAuto-déclaré
SWE-Bench Verified76,3 %28ᵉ / 100llm-statsAuto-déclaré
LiveBench72,0 %26ᵉ / 38llm-statsn.d.
Tau2 Airline67,0 %4ᵉ / 22llm-statsAuto-déclaré
FrontierMath26,7 %5ᵉ / 13llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

GPT-5.451.4
Grok Build 0.1 061639.8
▶ GPT-5.138.9
Nemotron 3 Ultra 550B A…37.8

Math Index

gemini-3-flash97.0
▶ GPT-5.194.0
DeepSeek V3.292.0

Classements Arena (Elo)

CatégorieEloRang
Arena Text145543ᵉ
Arena Text143961ᵉ
Arena Image-to-Code142118ᵉ
Arena Document140128ᵉ
Arena Code139145ᵉ
Arena Image-to-Code134421ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
openai1,25 $10 $n.d.
Azure1,25 $10 $0,13 $
artificialanalysis1,25 $10 $0,125 $
artificialanalysis1,25 $10 $0,6875 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,2 $
Latence moyenne par benchmark — Benchable4 min 20 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. GPT-5.1 ressort surtout par ses performances de fiabilité et de culture générale sur Benchable, avec des premières places sur Hallucinations, General Knowledge et Ethics. Le Math Index le place aussi dans le top 10, ce qui en fait l’un de ses points forts les plus nets. Les scores Benchable en reasoning et en coding restent élevés, tandis que l’Arena image-to-code le situe plus favorablement que les classements Arena text. Sa fenêtre de contexte de 400 000 tokens renforce son intérêt pour les tâches longues, notamment l’analyse de grands volumes de texte.

Limites et points d'attention. Le classement global reste moins dominant que ses meilleurs scores spécialisés : l’Intelligence Index le place hors du tout premier cercle, et les classements Arena text sont nettement moins favorables que ses résultats Benchable de tête. L’Email Classification apparaît aussi comme un point moins distinctif dans son profil. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances natives s’arrêtent au 2024-09-30. Son positionnement convient surtout aux usages généralistes à coût maîtrisé, avec un avantage marqué en mathématiques, connaissance générale, éthique et contexte long.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).