GPT-5.5 Pro

GPT-5.5 Pro est un LLM propriétaire d’OpenAI, sorti le 23 avril 2026, positionné sur le segment premium. Le modèle se distingue surtout par une fenêtre de contexte de 1 050 000 tokens, soit environ 1,1 M, et par des résultats de premier plan sur plusieurs évaluations exigeantes en…

GPT-5.5 Pro est un LLM propriétaire d’OpenAI, sorti le 23 avril 2026, positionné sur le segment premium. Le modèle se distingue surtout par une fenêtre de contexte de 1 050 000 tokens, soit environ 1,1 M, et par des résultats de premier plan sur plusieurs évaluations exigeantes en mathématiques, sciences et raisonnement.

À sa sortie, GPT-5.5 Pro figurait dans le top 5% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Sa base de connaissances s’arrête au 2025-12-01 et ses poids ne sont pas ouverts.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceProprietary (poids non ouverts)
Date de sortie23 avril 2026
Connaissances jusqu'à2025-12-01
Multimodaloui
Fenêtre de contexte1 050 000 tokens (≈ 1,1 M)
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: OTIS Mock AIME 2024-2025100,0 %1ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond93,9 %4ᵉ / 132epoch✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private87,7 %1ᵉ / 31epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private78,0 %2ᵉ / 32epoch✅ Mesuré
Epoch: SimpleQA Verified64,5 %8ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles64,0 %1ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private52,4 %1ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-2025-07-01-Private39,6 %2ᵉ / 55epoch✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)21,4 %50ᵉ / 52pinchbench✅ Mesuré
BrowseComp90,1 %1ᵉ / 51llm-statsAuto-déclaré
GDPval-MM82,3 %2ᵉ / 3llm-statsAuto-déclaré
Humanity's Last Exam57,2 %5ᵉ / 86llm-statsAuto-déclaré
FrontierMath39,6 %3ᵉ / 13llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
▶ GPT-5.5 Pro100 %

Epoch: GPQA diamond

▶ GPT-5.5 Pro94 %
Qwen3.7 Max92 %

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenAI30 $180 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 1439 % au-dessus de la moyenne des LLM similaires, et 6,2 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)238,55 $
Durée d'exécution — PinchBench7 h 54 min
Indice valeur/coût — PinchBench0,24

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
PaysUnited States of America

Notre analyse

Forces. GPT-5.5 Pro affiche un profil très fort sur les tâches de raisonnement formel. Il atteint le meilleur rang sur OTIS Mock AIME 2024-2025, qui évalue les olympiades de mathématiques de niveau lycée, ainsi que sur FrontierMath-Tiers-1-3-v2-Private, centré sur des mathématiques de recherche très difficiles. Il reste aussi dans le haut du classement sur FrontierMath-Tier-4-v2-Private et GPQA diamond, ce qui indique une solidité particulière sur les problèmes scientifiques complexes. Le modèle se distingue également sur Chess Puzzles, où il occupe la première place de son panel, un signal cohérent avec ses performances en résolution structurée. La très grande fenêtre de contexte renforce son intérêt pour l’analyse de longs corpus, de dossiers techniques ou de suites de documents volumineuses.

Limites et points d'attention. GPT-5.5 Pro est un modèle fermé, avec des poids non ouverts, ce qui limite l’audit indépendant, l’hébergement autonome et l’adaptation fine hors cadre propriétaire. Son score sur SimpleQA Verified reste nettement moins dominant que ses résultats en mathématiques et en sciences, ce qui invite à distinguer raisonnement avancé et fiabilité factuelle vérifiable. Le coût constitue le principal frein économique : le tarif d’entrée et de sortie le place très au-dessus de la moyenne des LLM similaires, avec un prix environ 6,2 fois supérieur à celui des modèles frontière. Ce positionnement vise surtout les usages où la performance de raisonnement et le très long contexte justifient un budget élevé.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com).