GPT-5.5

GPT-5.5 est un LLM propriétaire d’OpenAI, sorti le 23 avril 2026, avec des poids non ouverts. Son positionnement est haut de gamme : grande fenêtre de contexte, tarification premium et résultats de tête sur plusieurs évaluations générales, de raisonnement, d’éthique, de mathématiques et…

GPT-5.5 est un LLM propriétaire d’OpenAI, sorti le 23 avril 2026, avec des poids non ouverts. Son positionnement est haut de gamme : grande fenêtre de contexte, tarification premium et résultats de tête sur plusieurs évaluations générales, de raisonnement, d’éthique, de mathématiques et de code.

Le modèle se distingue surtout par une fenêtre de 1 050 000 tokens, adaptée aux très longs dossiers, bases documentaires et sessions de développement étendues. Ses connaissances s’arrêtent au 1er décembre 2025, un point important pour l’analyse d’informations postérieures à cette date.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie23 avril 2026
Connaissances jusqu'à2025-12-01
Multimodaloui
Fenêtre de contexte1 050 000 tokens (≈ 1,1 M)
Modalités (entrée → sortie)text,image → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index43.512ᵉ / 136
Code Index60.910ᵉ / 50
Agentic Index30.413ᵉ / 42

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: OTIS Mock AIME 2024-2025100,0 %1ᵉ / 111epoch✅ Mesuré
Benchable : General Knowledge (Baseline)100,0 %1ᵉ / 250benchable✅ Mesuré
Benchable : Reasoning (Baseline)100,0 %1ᵉ / 239benchable✅ Mesuré
Benchable : Ethics (Baseline)100,0 %1ᵉ / 248benchable✅ Mesuré
Benchable : Email Classification (Baseline)98,0 %90ᵉ / 254benchable✅ Mesuré
LiveBench: Mathematics96,3 %1ᵉ / 76livebench✅ Mesuré
Benchable : Hallucinations (Baseline)96,0 %102ᵉ / 229benchable✅ Mesuré
Benchable : Coding (Baseline)95,0 %24ᵉ / 248benchable✅ Mesuré
Epoch: GPQA diamond94,0 %3ᵉ / 132epoch✅ Mesuré
Benchable : Mathematics (Baseline)93,0 %67ᵉ / 217benchable✅ Mesuré
Benchable : Instruction Following (Baseline)88,0 %16ᵉ / 252benchable✅ Mesuré
LiveBench: Reasoning87,7 %4ᵉ / 76livebench✅ Mesuré
LiveBench: Language87,7 %2ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private85,3 %3ᵉ / 31epoch✅ Mesuré
LiveBench: Coding82,5 %2ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis81,1 %1ᵉ / 76livebench✅ Mesuré
LiveBench: Global average80,7 %1ᵉ / 76livebench✅ Mesuré
Epoch: SWE-Bench verified80,6 %2ᵉ / 32epoch✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)75,5 %19ᵉ / 52pinchbench✅ Mesuré
LiveBench: IF73,0 %5ᵉ / 76livebench✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private72,5 %4ᵉ / 32epoch✅ Mesuré
Epoch: SimpleQA Verified63,1 %9ᵉ / 52epoch✅ Mesuré
LiveBench: Agentic Coding56,7 %13ᵉ / 76livebench✅ Mesuré
Epoch: Chess Puzzles54,0 %4ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private51,7 %2ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private35,4 %4ᵉ / 55epoch✅ Mesuré
Tau2 Telecom98,0 %6ᵉ / 34llm-statsAuto-déclaré
ARC-AGI95,0 %1ᵉ / 7llm-statsAuto-déclaré
GPQA93,6 %4ᵉ / 213llm-statsAuto-déclaré
ARC-AGI v285,0 %1ᵉ / 16llm-statsAuto-déclaré
GDPval-MM84,9 %1ᵉ / 3llm-statsAuto-déclaré
BrowseComp84,4 %7ᵉ / 51llm-statsAuto-déclaré
MMMU-Pro83,2 %2ᵉ / 60llm-statsAuto-déclaré
Terminal-Bench 2.082,7 %1ᵉ / 48llm-statsAuto-déclaré
CyberGym81,8 %2ᵉ / 9llm-statsAuto-déclaré
LiveBench80,7 %2ᵉ / 38llm-statsn.d.
OSWorld-Verified78,7 %4ᵉ / 17llm-statsAuto-déclaré
MCP Atlas75,3 %9ᵉ / 27llm-statsAuto-déclaré
MRCR v2 (8-needle)74,0 %2ᵉ / 10llm-statsAuto-déclaré
FrontierSWE73,0 %4ᵉ / 13llm-statsn.d.
Finance Agent60,0 %4ᵉ / 8llm-statsAuto-déclaré
SWE-Bench Pro58,6 %8ᵉ / 34llm-statsAuto-déclaré
Graphwalks parents >128k58,5 %3ᵉ / 7llm-statsAuto-déclaré
Toolathlon55,6 %3ᵉ / 23llm-statsAuto-déclaré
OfficeQA Pro54,1 %4ᵉ / 5llm-statsAuto-déclaré
Humanity's Last Exam52,2 %12ᵉ / 86llm-statsAuto-déclaré
Finance Agent v251,8 %4ᵉ / 25llm-statsn.d.
Graphwalks BFS >128k45,4 %4ᵉ / 8llm-statsAuto-déclaré
GDPval-AA37,8 %23ᵉ / 33llm-statsn.d.
FrontierMath35,4 %4ᵉ / 13llm-statsAuto-déclaré
Legal Agent Benchmark2,1 %5ᵉ / 11llm-statsn.d.

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

▶ GPT-5.543.5
Grok Build 0.1 061639.8

Code Index

Qwen3.7 Max66.0
▶ GPT-5.560.9

Classements Arena (Elo)

CatégorieEloRang
Arena Image-to-Code15375ᵉ
Arena Image-to-Code15198ᵉ
Arena Code150216ᵉ
Arena Image-to-Code148910ᵉ
Arena Document14857ᵉ
Arena Code148418ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
openai5 $30 $n.d.
OpenAI5 $30 $0,5 $

Prix en dollars US par million de tokens.

Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)31,63 $
Durée d'exécution — PinchBench4 h 42 min
Indice valeur/coût — PinchBench4,01
Coût moyen par benchmark — Benchable0,38 $
Latence moyenne par benchmark — Benchable4 min 11 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
MatérielNVIDIA GB200,NVIDIA GB300 (Blackwell Ultra)
PaysUnited States of America

Notre analyse

Forces. GPT-5.5 affiche un profil très solide en raisonnement formel et en mathématiques : il atteint les tout premiers rangs sur OTIS Mock AIME 2024-2025 (olympiades de mathématiques, niveau lycée) et LiveBench: Mathematics. Les évaluations Benchable le placent aussi au sommet en connaissances générales, raisonnement et éthique, ce qui indique une forte polyvalence sur des tâches structurées. En code, son Code Index le situe dans le top 10, avec de bons résultats Arena en image-to-code et en programmation générale. À sa sortie, il figurait dans le top 4% des LLM de sa génération sur GPQA diamond, ce qui le positionnait clairement parmi les modèles haut de gamme de sa période.

Limites et points d'attention. GPT-5.5 reste un modèle propriétaire : les poids ne sont pas ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et l’adaptation fine hors cadre fourni par l’éditeur. Son tarif confirme un positionnement premium, avec un coût annoncé 157% au-dessus de la moyenne des LLM similaires et une sortie nettement plus chère que l’entrée. Le résultat en Email Classification est moins distinctif que ses performances en raisonnement, mathématiques et code, avec un classement plus éloigné des meilleurs. Pertinent pour des usages exigeants en raisonnement, analyse de longs contextes, mathématiques et développement logiciel, lorsque le coût d’inférence reste acceptable.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).