GPT OSS 120B
GPT OSS 120B est un LLM open-weights d’OpenAI, publié le 5 août 2025 sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 117 milliards de paramètres, dont 5 milliards actifs, et combine une très grande fenêtre de contexte avec un positionnement tarifaire gratuit en…
GPT OSS 120B est un LLM open-weights d’OpenAI, publié le 5 août 2025 sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 117 milliards de paramètres, dont 5 milliards actifs, et combine une très grande fenêtre de contexte avec un positionnement tarifaire gratuit en entrée comme en sortie.
Son entraînement mobilise 4,9 × 10²⁴ FLOP, soit environ 1,4 million d’heures-GPU H100, l’équivalent de 640 GPU H100 pendant trois mois. À sa sortie, GPT OSS 120B se situait dans le top 20% de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Licence | Apache 2.0 (open-weights, usage commercial autorisé) |
| Date de sortie | 5 août 2025 |
| Connaissances jusqu'à | 2024-06-30 |
| Multimodal | non |
| Paramètres | 117 milliards |
| Paramètres actifs | 5 milliards |
| Fenêtre de contexte | 131 072 tokens |
| Modalités (entrée → sortie) | text → text |
Indices de synthèse
| Indice | Valeur | Rang (LLM) |
|---|---|---|
| Intelligence Index | 17.7 | 108ᵉ / 136 |
| Code Index | 30.4 | 43ᵉ / 50 |
| Agentic Index | 13.2 | 35ᵉ / 42 |
| Math Index | 66.7 | 22ᵉ / 55 |
Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : General Knowledge (Baseline) | 99,5 % | 68ᵉ / 250 | benchable | ✅ Mesuré |
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 98,0 % | 71ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Reasoning (Baseline) | 96,0 % | 39ᵉ / 239 | benchable | ✅ Mesuré |
| Benchable : Mathematics (Baseline) | 94,0 % | 42ᵉ / 217 | benchable | ✅ Mesuré |
| Benchable : Ethics (Baseline) | 93,8 % | 211ᵉ / 248 | benchable | ✅ Mesuré |
| Benchable : Coding (Baseline) | 93,0 % | 58ᵉ / 248 | benchable | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 88,9 % | 24ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 75,8 % | 53ᵉ / 132 | epoch | ✅ Mesuré |
| Benchable : Keyword Topic Relevance Classification | 70,0 % | 9ᵉ / 9 | benchable | ✅ Mesuré |
| LiveBench: Mathematics | 68,9 % | 56ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Coding | 60,2 % | 71ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: IF | 50,3 % | 45ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Language | 48,6 % | 69ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Global average | 46,1 % | 65ᵉ / 76 | livebench | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 46,0 % | 186ᵉ / 252 | benchable | ✅ Mesuré |
| PinchBench : agentique (OpenClaw, 147 tâches) | 44,8 % | 45ᵉ / 52 | pinchbench | ✅ Mesuré |
| LiveBench: Reasoning | 39,2 % | 68ᵉ / 76 | livebench | ✅ Mesuré |
| LiveBench: Data Analysis | 38,8 % | 74ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: Chess Puzzles | 20,0 % | 22ᵉ / 43 | epoch | ✅ Mesuré |
| LiveBench: Agentic Coding | 16,7 % | 65ᵉ / 76 | livebench | ✅ Mesuré |
| Epoch: SimpleQA Verified | 13,9 % | 47ᵉ / 52 | epoch | ✅ Mesuré |
| AIME 2025 | 92,5 % | 31ᵉ / 108 | llm-stats | Auto-déclaré |
| MMLU | 90,0 % | 10ᵉ / 98 | llm-stats | Auto-déclaré |
| MMMLU | 83,8 % | 34ᵉ / 49 | llm-stats | Auto-déclaré |
| CodeForces | 82,1 % | 6ᵉ / 16 | llm-stats | Auto-déclaré |
| LiveCodeBench v6 | 81,9 % | 15ᵉ / 53 | llm-stats | Auto-déclaré |
| MMLU-Pro | 80,7 % | 47ᵉ / 125 | llm-stats | Auto-déclaré |
| GPQA | 80,1 % | 73ᵉ / 213 | llm-stats | Auto-déclaré |
| IFBench | 69,5 % | 17ᵉ / 27 | llm-stats | Auto-déclaré |
| TAU-bench Retail | 67,8 % | 15ᵉ / 24 | llm-stats | Auto-déclaré |
| t2-bench | 63,9 % | 18ᵉ / 23 | llm-stats | Auto-déclaré |
| HealthBench | 57,6 % | 2ᵉ / 5 | llm-stats | Auto-déclaré |
| HealthBench Hard | 30,0 % | 2ᵉ / 6 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 14,9 % | 65ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Intelligence Index
Code Index
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Text | 1353 | 171ᵉ |
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenInference | gratuit | gratuit | n.d. |
| MARA | 0,03 $ | 0,15 $ | n.d. |
| deepinfra | 0,09 $ | 0,45 $ | n.d. |
| novita | 0,1 $ | 0,5 $ | n.d. |
| fireworks | 0,15 $ | 0,6 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût par exécution agentique — PinchBench (147 tâches) | 0,5 $ |
| Durée d'exécution — PinchBench | 3 h 00 min |
| Indice valeur/coût — PinchBench | 158,9 |
| Coût moyen par benchmark — Benchable | 0,01 $ |
| Latence moyenne par benchmark — Benchable | 13 min 26 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Compute d'entraînement | 4,9 × 10²⁴ FLOP |
| Matériel | NVIDIA H100 SXM5 80GB |
| Pays | United States of America |
Notre analyse
Forces. GPT OSS 120B se distingue surtout par son équilibre entre ouverture, coût et résultats solides sur plusieurs tâches de base. Les scores Benchable sont élevés en General Knowledge, Email Classification, Hallucinations, Reasoning et Mathematics, ce qui indique de bonnes performances sur les connaissances générales, le tri d’e-mails, la robustesse factuelle, le raisonnement et les mathématiques de référence. Le Math Index le place dans une zone compétitive de son panel, cohérente avec son bon résultat en Mathematics (Baseline). La licence Apache 2.0 et le tarif 100% inférieur à la moyenne des LLM similaires en font un modèle particulièrement économique pour des usages expérimentaux, d’intégration ou de déploiement maîtrisé.
Limites et points d'attention. Les classements globaux restent moins favorables que ses meilleurs benchmarks isolés : l’Intelligence Index le situe dans le bas du panel, l’Arena text indique une position éloignée des modèles haut de gamme, et les indices Code Index et Agentic Index montrent des limites relatives pour le développement logiciel et les tâches agentiques. Le classement Ethics (Baseline) est faible malgré un score absolu élevé, signe d’une concurrence dense sur ce critère. Sa limite de connaissances au 2024-06-30 impose aussi une prudence sur les sujets récents. GPT OSS 120B convient surtout aux scénarios où le coût nul, l’accès open-weights, la longue fenêtre de contexte et les performances généralistes priment sur l’état de l’art absolu.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).