OpenAI

GPT-5.1

GPT-5.1 est un LLM propriétaire d’OpenAI, publié le 13 novembre 2025, avec des poids non ouverts. Il se distingue par une très grande fenêtre de contexte de 400 000 tokens et par des connaissances arrêtées au 2024-09-30, ce qui le positionne comme un modèle généraliste récent mais borné…

Son profil combine un tarif économique, 36% sous la moyenne des LLM similaires et environ 3,9 fois moins cher que les modèles frontière, avec des résultats particulièrement solides en mathématiques et sur plusieurs tests Benchable. À sa sortie, GPT-5.1 se situait dans le top 4% de sa génération sur GPQA diamond, selon sept sources concordantes.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	13 novembre 2025
Connaissances jusqu'à	2024-09-30
Multimodal	oui
Fenêtre de contexte	400 000 tokens
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	38.9	28ᵉ / 136
Math Index	94.0	7ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Coding (Baseline)	94,0 %	38ᵉ / 248	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	92,0 %	92ᵉ / 217	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	88,6 %	25ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	87,6 %	21ᵉ / 132	epoch	✅ Mesuré
LiveBench: Mathematics	86,9 %	17ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	83,0 %	36ᵉ / 252	benchable	✅ Mesuré
LiveBench: Language	79,3 %	14ᵉ / 76	livebench	✅ Mesuré
LiveBench: Reasoning	78,8 %	21ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	72,5 %	34ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	72,0 %	20ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	69,6 %	22ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	68,0 %	25ᵉ / 32	epoch	✅ Mesuré
LiveBench: IF	63,9 %	20ᵉ / 76	livebench	✅ Mesuré
LiveBench: Agentic Coding	53,3 %	20ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	48,9 %	19ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	32,0 %	12ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	31,0 %	18ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	12,5 %	17ᵉ / 55	epoch	✅ Mesuré
Tau2 Telecom	95,6 %	10ᵉ / 34	llm-stats	Auto-déclaré
AIME 2025	94,0 %	22ᵉ / 108	llm-stats	Auto-déclaré
BrowseComp Long Context 128k	90,0 %	2ᵉ / 4	llm-stats	Auto-déclaré
GPQA	88,1 %	23ᵉ / 213	llm-stats	Auto-déclaré
MMMU	85,4 %	2ᵉ / 61	llm-stats	Auto-déclaré
Tau2 Retail	77,9 %	10ᵉ / 25	llm-stats	Auto-déclaré
SWE-Bench Verified	76,3 %	28ᵉ / 100	llm-stats	Auto-déclaré
LiveBench	72,0 %	26ᵉ / 38	llm-stats	n.d.
Tau2 Airline	67,0 %	4ᵉ / 22	llm-stats	Auto-déclaré
FrontierMath	26,7 %	5ᵉ / 13	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Grok Build 0.1 061639.8

▶ GPT-5.138.9

Nemotron 3 Ultra 550B A…37.8

Math Index

GPT-5 Codex98.7

gemini-3-flash97.0

▶ GPT-5.194.0

DeepSeek V3.292.0

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1455	43ᵉ
Arena Text	1439	61ᵉ
Arena Image-to-Code	1421	18ᵉ
Arena Document	1401	28ᵉ
Arena Code	1391	45ᵉ
Arena Image-to-Code	1344	21ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	1,25 $	10 $	n.d.
Azure	1,25 $	10 $	0,13 $
artificialanalysis	1,25 $	10 $	0,125 $
artificialanalysis	1,25 $	10 $	0,6875 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,2 $
Latence moyenne par benchmark — Benchable	4 min 20 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. GPT-5.1 ressort surtout par ses performances de fiabilité et de culture générale sur Benchable, avec des premières places sur Hallucinations, General Knowledge et Ethics. Le Math Index le place aussi dans le top 10, ce qui en fait l’un de ses points forts les plus nets. Les scores Benchable en reasoning et en coding restent élevés, tandis que l’Arena image-to-code le situe plus favorablement que les classements Arena text. Sa fenêtre de contexte de 400 000 tokens renforce son intérêt pour les tâches longues, notamment l’analyse de grands volumes de texte.

Limites et points d'attention. Le classement global reste moins dominant que ses meilleurs scores spécialisés : l’Intelligence Index le place hors du tout premier cercle, et les classements Arena text sont nettement moins favorables que ses résultats Benchable de tête. L’Email Classification apparaît aussi comme un point moins distinctif dans son profil. Le modèle reste propriétaire, avec des poids non ouverts, et ses connaissances natives s’arrêtent au 2024-09-30. Son positionnement convient surtout aux usages généralistes à coût maîtrisé, avec un avantage marqué en mathématiques, connaissance générale, éthique et contexte long.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).