OpenAI

GPT-5.5

GPT-5.5 est un LLM propriétaire d’OpenAI, sorti le 23 avril 2026, avec des poids non ouverts. Son positionnement est haut de gamme : grande fenêtre de contexte, tarification premium et résultats de tête sur plusieurs évaluations générales, de raisonnement, d’éthique, de mathématiques et…

Le modèle se distingue surtout par une fenêtre de 1 050 000 tokens, adaptée aux très longs dossiers, bases documentaires et sessions de développement étendues. Ses connaissances s’arrêtent au 1er décembre 2025, un point important pour l’analyse d’informations postérieures à cette date.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Proprietary (poids non ouverts)
Date de sortie	23 avril 2026
Connaissances jusqu'à	2025-12-01
Multimodal	oui
Fenêtre de contexte	1 050 000 tokens (≈ 1,1 M)
Modalités (entrée → sortie)	text,image → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	43.5	12ᵉ / 136
Code Index	60.9	10ᵉ / 50
Agentic Index	30.4	13ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: OTIS Mock AIME 2024-2025	100,0 %	1ᵉ / 111	epoch	✅ Mesuré
Benchable : General Knowledge (Baseline)	100,0 %	1ᵉ / 250	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	100,0 %	1ᵉ / 239	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	100,0 %	1ᵉ / 248	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	98,0 %	90ᵉ / 254	benchable	✅ Mesuré
LiveBench: Mathematics	96,3 %	1ᵉ / 76	livebench	✅ Mesuré
Benchable : Hallucinations (Baseline)	96,0 %	102ᵉ / 229	benchable	✅ Mesuré
Benchable : Coding (Baseline)	95,0 %	24ᵉ / 248	benchable	✅ Mesuré
Epoch: GPQA diamond	94,0 %	3ᵉ / 132	epoch	✅ Mesuré
Benchable : Mathematics (Baseline)	93,0 %	67ᵉ / 217	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	88,0 %	16ᵉ / 252	benchable	✅ Mesuré
LiveBench: Reasoning	87,7 %	4ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	87,7 %	2ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	85,3 %	3ᵉ / 31	epoch	✅ Mesuré
LiveBench: Coding	82,5 %	2ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	81,1 %	1ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	80,7 %	1ᵉ / 76	livebench	✅ Mesuré
Epoch: SWE-Bench verified	80,6 %	2ᵉ / 32	epoch	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	75,5 %	19ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: IF	73,0 %	5ᵉ / 76	livebench	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	72,5 %	4ᵉ / 32	epoch	✅ Mesuré
Epoch: SimpleQA Verified	63,1 %	9ᵉ / 52	epoch	✅ Mesuré
LiveBench: Agentic Coding	56,7 %	13ᵉ / 76	livebench	✅ Mesuré
Epoch: Chess Puzzles	54,0 %	4ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private	51,7 %	2ᵉ / 69	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private	35,4 %	4ᵉ / 55	epoch	✅ Mesuré
Tau2 Telecom	98,0 %	6ᵉ / 34	llm-stats	Auto-déclaré
ARC-AGI	95,0 %	1ᵉ / 7	llm-stats	Auto-déclaré
GPQA	93,6 %	4ᵉ / 213	llm-stats	Auto-déclaré
ARC-AGI v2	85,0 %	1ᵉ / 16	llm-stats	Auto-déclaré
GDPval-MM	84,9 %	1ᵉ / 3	llm-stats	Auto-déclaré
BrowseComp	84,4 %	7ᵉ / 51	llm-stats	Auto-déclaré
MMMU-Pro	83,2 %	2ᵉ / 60	llm-stats	Auto-déclaré
Terminal-Bench 2.0	82,7 %	1ᵉ / 48	llm-stats	Auto-déclaré
CyberGym	81,8 %	2ᵉ / 9	llm-stats	Auto-déclaré
LiveBench	80,7 %	2ᵉ / 38	llm-stats	n.d.
OSWorld-Verified	78,7 %	4ᵉ / 17	llm-stats	Auto-déclaré
MCP Atlas	75,3 %	9ᵉ / 27	llm-stats	Auto-déclaré
MRCR v2 (8-needle)	74,0 %	2ᵉ / 10	llm-stats	Auto-déclaré
FrontierSWE	73,0 %	4ᵉ / 13	llm-stats	n.d.
Finance Agent	60,0 %	4ᵉ / 8	llm-stats	Auto-déclaré
SWE-Bench Pro	58,6 %	8ᵉ / 34	llm-stats	Auto-déclaré
Graphwalks parents >128k	58,5 %	3ᵉ / 7	llm-stats	Auto-déclaré
Toolathlon	55,6 %	3ᵉ / 23	llm-stats	Auto-déclaré
OfficeQA Pro	54,1 %	4ᵉ / 5	llm-stats	Auto-déclaré
Humanity's Last Exam	52,2 %	12ᵉ / 86	llm-stats	Auto-déclaré
Finance Agent v2	51,8 %	4ᵉ / 25	llm-stats	n.d.
Graphwalks BFS >128k	45,4 %	4ᵉ / 8	llm-stats	Auto-déclaré
GDPval-AA	37,8 %	23ᵉ / 33	llm-stats	n.d.
FrontierMath	35,4 %	4ᵉ / 13	llm-stats	Auto-déclaré
Legal Agent Benchmark	2,1 %	5ᵉ / 11	llm-stats	n.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

DeepSeek V4 Pro44.3

▶ GPT-5.543.5

Grok Build 0.1 061639.8

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Qwen3.7 Max66.0

▶ GPT-5.560.9

DeepSeek V4 Pro59.4

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Image-to-Code	1537	5ᵉ
Arena Image-to-Code	1519	8ᵉ
Arena Code	1502	16ᵉ
Arena Image-to-Code	1489	10ᵉ
Arena Document	1485	7ᵉ
Arena Code	1484	18ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
openai	5 $	30 $	n.d.
OpenAI	5 $	30 $	0,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	31,63 $
Durée d'exécution — PinchBench	4 h 42 min
Indice valeur/coût — PinchBench	4,01
Coût moyen par benchmark — Benchable	0,38 $
Latence moyenne par benchmark — Benchable	4 min 11 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Matériel	NVIDIA GB200,NVIDIA GB300 (Blackwell Ultra)
Pays	United States of America

Notre analyse

Forces. GPT-5.5 affiche un profil très solide en raisonnement formel et en mathématiques : il atteint les tout premiers rangs sur OTIS Mock AIME 2024-2025 (olympiades de mathématiques, niveau lycée) et LiveBench: Mathematics. Les évaluations Benchable le placent aussi au sommet en connaissances générales, raisonnement et éthique, ce qui indique une forte polyvalence sur des tâches structurées. En code, son Code Index le situe dans le top 10, avec de bons résultats Arena en image-to-code et en programmation générale. À sa sortie, il figurait dans le top 4% des LLM de sa génération sur GPQA diamond, ce qui le positionnait clairement parmi les modèles haut de gamme de sa période.

Limites et points d'attention. GPT-5.5 reste un modèle propriétaire : les poids ne sont pas ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et l’adaptation fine hors cadre fourni par l’éditeur. Son tarif confirme un positionnement premium, avec un coût annoncé 157% au-dessus de la moyenne des LLM similaires et une sortie nettement plus chère que l’entrée. Le résultat en Email Classification est moins distinctif que ses performances en raisonnement, mathématiques et code, avec un classement plus éloigné des meilleurs. Pertinent pour des usages exigeants en raisonnement, analyse de longs contextes, mathématiques et développement logiciel, lorsque le coût d’inférence reste acceptable.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).