GPT-5.5
GPT-5.5 est un LLM propriétaire d’OpenAI, sorti le 23 avril 2026, avec des poids non ouverts. Son positionnement est haut de gamme : grande fenêtre de contexte, tarification premium et résultats de tête sur plusieurs évaluations générales, de raisonnement, d’éthique, de mathématiques et…
GPT-5.5 est un LLM propriétaire d’OpenAI, sorti le 23 avril 2026, avec des poids non ouverts. Son positionnement est haut de gamme : grande fenêtre de contexte, tarification premium et résultats de tête sur plusieurs évaluations générales, de raisonnement, d’éthique, de mathématiques et de code.
Le modèle se distingue surtout par une fenêtre de 1 050 000 tokens, adaptée aux très longs dossiers, bases documentaires et sessions de développement étendues. Ses connaissances s’arrêtent au 1er décembre 2025, un point important pour l’analyse d’informations postérieures à cette date.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 23 avril 2026 |
| Connaissances jusqu'à | 2025-12-01 |
| Multimodal | oui |
| Fenêtre de contexte | 1 050 000 tokens (≈ 1,1 M) |
| Modalités (entrée → sortie) | text,image → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 43.5 | 12ᵉ / 136 |
| Code Index | 60.9 | 10ᵉ / 50 |
| Agentic Index | 30.4 | 13ᵉ / 42 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: OTIS Mock AIME 2024-2025 | 100,0 % | 1ᵉ / 111 | epoch | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 100,0 % | 1ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 100,0 % | 1ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 100,0 % | 1ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 98,0 % | 90ᵉ / 254 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 96,3 % | 1ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 96,0 % | 102ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 95,0 % | 24ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 94,0 % | 3ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 93,0 % | 67ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 88,0 % | 16ᵉ / 252 | benchable | ✅ Mesuré |
| LiveBench: Reasoning | 87,7 % | 4ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 87,7 % | 2ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 85,3 % | 3ᵉ / 31 | epoch | ✅ Mesuré |
| LiveBench: Coding | 82,5 % | 2ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 81,1 % | 1ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 80,7 % | 1ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SWE-Bench verified | 80,6 % | 2ᵉ / 32 | epoch | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 75,5 % | 19ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: IF | 73,0 % | 5ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 72,5 % | 4ᵉ / 32 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 63,1 % | 9ᵉ / 52 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 56,7 % | 13ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: Chess Puzzles | 54,0 % | 4ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 51,7 % | 2ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 35,4 % | 4ᵉ / 55 | epoch | ✅ Mesuré |
| Tau2 Telecom | 98,0 % | 6ᵉ / 34 | llm-stats | Auto-déclaré |
| ARC-AGI | 95,0 % | 1ᵉ / 7 | llm-stats | Auto-déclaré |
| GPQA | 93,6 % | 4ᵉ / 213 | llm-stats | Auto-déclaré |
| ARC-AGI v2 | 85,0 % | 1ᵉ / 16 | llm-stats | Auto-déclaré |
| GDPval-MM | 84,9 % | 1ᵉ / 3 | llm-stats | Auto-déclaré |
| BrowseComp | 84,4 % | 7ᵉ / 51 | llm-stats | Auto-déclaré |
| MMMU-Pro | 83,2 % | 2ᵉ / 60 | llm-stats | Auto-déclaré |
| Terminal-Bench 2.0 | 82,7 % | 1ᵉ / 48 | llm-stats | Auto-déclaré |
| CyberGym | 81,8 % | 2ᵉ / 9 | llm-stats | Auto-déclaré |
| LiveBench | 80,7 % | 2ᵉ / 38 | llm-stats | n.d. |
| OSWorld-Verified | 78,7 % | 4ᵉ / 17 | llm-stats | Auto-déclaré |
| MCP Atlas | 75,3 % | 9ᵉ / 27 | llm-stats | Auto-déclaré |
| MRCR v2 (8-needle) | 74,0 % | 2ᵉ / 10 | llm-stats | Auto-déclaré |
| FrontierSWE | 73,0 % | 4ᵉ / 13 | llm-stats | n.d. |
| Finance Agent | 60,0 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| SWE-Bench Pro | 58,6 % | 8ᵉ / 34 | llm-stats | Auto-déclaré |
| Graphwalks parents >128k | 58,5 % | 3ᵉ / 7 | llm-stats | Auto-déclaré |
| Toolathlon | 55,6 % | 3ᵉ / 23 | llm-stats | Auto-déclaré |
| OfficeQA Pro | 54,1 % | 4ᵉ / 5 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 52,2 % | 12ᵉ / 86 | llm-stats | Auto-déclaré |
| Finance Agent v2 | 51,8 % | 4ᵉ / 25 | llm-stats | n.d. |
| Graphwalks BFS >128k | 45,4 % | 4ᵉ / 8 | llm-stats | Auto-déclaré |
| GDPval-AA | 37,8 % | 23ᵉ / 33 | llm-stats | n.d. |
| FrontierMath | 35,4 % | 4ᵉ / 13 | llm-stats | Auto-déclaré |
| Legal Agent Benchmark | 2,1 % | 5ᵉ / 11 | llm-stats | n.d. |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Image-to-Code | 1537 | 5ᵉ |
| Arena Image-to-Code | 1519 | 8ᵉ |
| Arena Code | 1502 | 16ᵉ |
| Arena Image-to-Code | 1489 | 10ᵉ |
| Arena Document | 1485 | 7ᵉ |
| Arena Code | 1484 | 18ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| openai | 5 $ | 30 $ | n.d. |
| OpenAI | 5 $ | 30 $ | 0,5 $ |
Prix en dollars US par million de tokens.
Sa tarification se situe 157 % au-dessus de la moyenne des LLM similaires, et au niveau des modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 31,63 $ |
| Durée d'exécution — PinchBench | 4 h 42 min |
| Indice valeur/coût — PinchBench | 4,01 |
| Coût moyen par benchmark — Benchable | 0,38 $ |
| Latence moyenne par benchmark — Benchable | 4 min 11 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Matériel | NVIDIA GB200,NVIDIA GB300 (Blackwell Ultra) |
| Pays | United States of America |
Notre analyse
Forces. GPT-5.5 affiche un profil très solide en raisonnement formel et en mathématiques : il atteint les tout premiers rangs sur OTIS Mock AIME 2024-2025 (olympiades de mathématiques, niveau lycée) et LiveBench: Mathematics. Les évaluations Benchable le placent aussi au sommet en connaissances générales, raisonnement et éthique, ce qui indique une forte polyvalence sur des tâches structurées. En code, son Code Index le situe dans le top 10, avec de bons résultats Arena en image-to-code et en programmation générale. À sa sortie, il figurait dans le top 4% des LLM de sa génération sur GPQA diamond, ce qui le positionnait clairement parmi les modèles haut de gamme de sa période.
Limites et points d'attention. GPT-5.5 reste un modèle propriétaire : les poids ne sont pas ouverts, ce qui limite l’audit indépendant, l’auto-hébergement et l’adaptation fine hors cadre fourni par l’éditeur. Son tarif confirme un positionnement premium, avec un coût annoncé 157% au-dessus de la moyenne des LLM similaires et une sortie nettement plus chère que l’entrée. Le résultat en Email Classification est moins distinctif que ses performances en raisonnement, mathématiques et code, avec un classement plus éloigné des meilleurs. Pertinent pour des usages exigeants en raisonnement, analyse de longs contextes, mathématiques et développement logiciel, lorsque le coût d’inférence reste acceptable.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).