OpenAI

OpenAI: GPT-5.1 Chat

OpenAI: GPT-5.1 Chat est un LLM d’OpenAI sorti le 13 novembre 2025, avec une fenêtre de contexte de 128 000 tokens. Son positionnement combine très haut niveau sur plusieurs évaluations Benchable et tarification économique, avec un prix annoncé 36% inférieur à la moyenne des LLM…

Le modèle se distingue surtout par des résultats de tête en hallucinations, connaissances générales et éthique, tout en restant nettement moins coûteux que les modèles frontière. Les données disponibles reposent sur 2 sources concordantes, ce qui donne une base de comparaison cohérente pour situer ses performances et son coût.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Date de sortie	13 novembre 2025
Multimodal	oui
Fenêtre de contexte	128 000 tokens
Modalités (entrée → sortie)	file,image,text → text

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Hallucinations (Baseline)	100,0 %	1ᵉ / 229	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
Benchable : Coding (Baseline)	94,0 %	38ᵉ / 248	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	93,9 %	75ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	83,0 %	40ᵉ / 252	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Hallucinations (Baseline)

Claude Haiku 4.5100 %

deepseek-chat-v3100 %

gemini-3.1-flash-image100 %

Qwen2.5 72B Instruct100 %

▶ GPT-5.1 Chat100 %

Nemotron Nano 9B v298 %

Benchable : General Knowledge (Baseline)

Claude Opus 4100 %

Gemini 2.5 Flash100 %

GPT-5100 %

qwen3-235b-a22b-04-28100 %

▶ GPT-5.1 Chat100 %

DeepSeek R1 Distill Lla…100 %

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
Azure	1,25 $	10 $	0,13 $

Prix en dollars US par million de tokens.

Sa tarification se situe 36 % en dessous de la moyenne des LLM similaires, et 3,9 fois moins cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,11 $
Latence moyenne par benchmark — Benchable	3 min 48 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. OpenAI: GPT-5.1 Chat se place dans le top 10 Benchable sur Hallucinations (Baseline), General Knowledge (Baseline) et Ethics (Baseline), avec des scores maximaux sur ces trois axes. Ce profil signale un modèle particulièrement solide pour les tâches de réponse factuelle, de culture générale et de traitement de situations sensibles. Le benchmark Coding (Baseline) le situe aussi dans le haut du classement, sans atteindre la même domination que ses meilleurs domaines. Sa fenêtre de contexte de 128 000 tokens renforce son intérêt pour les échanges longs, les dossiers volumineux et les tâches nécessitant de conserver beaucoup d’informations dans une même session. Côté prix, le positionnement économique est net, avec un tarif environ 3,9 fois inférieur à celui des modèles frontière.

Limites et points d'attention. Les résultats sont moins différenciants en Email Classification (Baseline) et Reasoning (Baseline), où le modèle reste performant en score brut mais apparaît plus en retrait dans les classements relatifs. Cette hiérarchie suggère un profil plus convaincant pour les usages généralistes, la réduction des hallucinations et le codage que pour les tâches où le raisonnement comparatif ou la classification d’e-mails doivent être systématiquement au tout premier rang. La couverture repose sur 2 sources concordantes, un niveau utile mais limité pour juger toutes les situations d’usage. Profil adapté aux assistants généralistes, à l’analyse de documents longs, à la génération de réponses fiables et aux tâches de code avec contrainte budgétaire.

Sources des données : OpenRouter (openrouter.ai) · Benchable.ai (benchable.ai).

OpenAI: GPT-5.1 Chat

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Tarifs

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast