GPT OSS 120B

GPT OSS 120B est un LLM open-weights d’OpenAI, publié le 5 août 2025 sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 117 milliards de paramètres, dont 5 milliards actifs, et combine une très grande fenêtre de contexte avec un positionnement tarifaire gratuit en…

GPT OSS 120B est un LLM open-weights d’OpenAI, publié le 5 août 2025 sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 117 milliards de paramètres, dont 5 milliards actifs, et combine une très grande fenêtre de contexte avec un positionnement tarifaire gratuit en entrée comme en sortie.

Son entraînement mobilise 4,9 × 10²⁴ FLOP, soit environ 1,4 million d’heures-GPU H100, l’équivalent de 640 GPU H100 pendant trois mois. À sa sortie, GPT OSS 120B se situait dans le top 20% de sa génération sur GPQA diamond.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI
LicenceApache 2.0 (open-weights, usage commercial autorisé)
Date de sortie5 août 2025
Connaissances jusqu'à2024-06-30
Multimodalnon
Paramètres117 milliards
Paramètres actifs5 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text → text

Indices de synthèse

IndiceValeurRang (LLM)
Intelligence Index17.7108ᵉ / 136
Code Index30.443ᵉ / 50
Agentic Index13.235ᵉ / 42
Math Index66.722ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : General Knowledge (Baseline)99,5 %68ᵉ / 250benchable✅ Mesuré
Benchable : Email Classification (Baseline)99,0 %24ᵉ / 254benchable✅ Mesuré
Benchable : Hallucinations (Baseline)98,0 %71ᵉ / 229benchable✅ Mesuré
Benchable : Reasoning (Baseline)96,0 %39ᵉ / 239benchable✅ Mesuré
Benchable : Mathematics (Baseline)94,0 %42ᵉ / 217benchable✅ Mesuré
Benchable : Ethics (Baseline)93,8 %211ᵉ / 248benchable✅ Mesuré
Benchable : Coding (Baseline)93,0 %58ᵉ / 248benchable✅ Mesuré
Epoch: OTIS Mock AIME 2024-202588,9 %24ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond75,8 %53ᵉ / 132epoch✅ Mesuré
Benchable : Keyword Topic Relevance Classification70,0 %9ᵉ / 9benchable✅ Mesuré
LiveBench: Mathematics68,9 %56ᵉ / 76livebench✅ Mesuré
LiveBench: Coding60,2 %71ᵉ / 76livebench✅ Mesuré
LiveBench: IF50,3 %45ᵉ / 76livebench✅ Mesuré
LiveBench: Language48,6 %69ᵉ / 76livebench✅ Mesuré
LiveBench: Global average46,1 %65ᵉ / 76livebench✅ Mesuré
Benchable : Instruction Following (Baseline)46,0 %186ᵉ / 252benchable✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)44,8 %45ᵉ / 52pinchbench✅ Mesuré
LiveBench: Reasoning39,2 %68ᵉ / 76livebench✅ Mesuré
LiveBench: Data Analysis38,8 %74ᵉ / 76livebench✅ Mesuré
Epoch: Chess Puzzles20,0 %22ᵉ / 43epoch✅ Mesuré
LiveBench: Agentic Coding16,7 %65ᵉ / 76livebench✅ Mesuré
Epoch: SimpleQA Verified13,9 %47ᵉ / 52epoch✅ Mesuré
AIME 202592,5 %31ᵉ / 108llm-statsAuto-déclaré
MMLU90,0 %10ᵉ / 98llm-statsAuto-déclaré
MMMLU83,8 %34ᵉ / 49llm-statsAuto-déclaré
CodeForces82,1 %6ᵉ / 16llm-statsAuto-déclaré
LiveCodeBench v681,9 %15ᵉ / 53llm-statsAuto-déclaré
MMLU-Pro80,7 %47ᵉ / 125llm-statsAuto-déclaré
GPQA80,1 %73ᵉ / 213llm-statsAuto-déclaré
IFBench69,5 %17ᵉ / 27llm-statsAuto-déclaré
TAU-bench Retail67,8 %15ᵉ / 24llm-statsAuto-déclaré
t2-bench63,9 %18ᵉ / 23llm-statsAuto-déclaré
HealthBench57,6 %2ᵉ / 5llm-statsAuto-déclaré
HealthBench Hard30,0 %2ᵉ / 6llm-statsAuto-déclaré
Humanity's Last Exam14,9 %65ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Nova 2.0 Pro Preview21.8
▶ GPT OSS 120B17.7
Llama 4 Maverick14.3

Code Index

Nova 2.0 Pro Preview34.0
▶ GPT OSS 120B30.4
Llama 4 Maverick16.3

Classements Arena (Elo)

CatégorieEloRang
Arena Text1353171ᵉ

Tarifs

FournisseurEntrée / 1MSortie / 1MCache lecture / 1M
OpenInferencegratuitgratuitn.d.
MARA0,03 $0,15 $n.d.
deepinfra0,09 $0,45 $n.d.
novita0,1 $0,5 $n.d.
fireworks0,15 $0,6 $n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

IndicateurValeur
Coût par exécution agentique — PinchBench (147 tâches)0,5 $
Durée d'exécution — PinchBench3 h 00 min
Indice valeur/coût — PinchBench158,9
Coût moyen par benchmark — Benchable0,01 $
Latence moyenne par benchmark — Benchable13 min 26 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

IndicateurValeur
Compute d'entraînement4,9 × 10²⁴ FLOP
MatérielNVIDIA H100 SXM5 80GB
PaysUnited States of America

Notre analyse

Forces. GPT OSS 120B se distingue surtout par son équilibre entre ouverture, coût et résultats solides sur plusieurs tâches de base. Les scores Benchable sont élevés en General Knowledge, Email Classification, Hallucinations, Reasoning et Mathematics, ce qui indique de bonnes performances sur les connaissances générales, le tri d’e-mails, la robustesse factuelle, le raisonnement et les mathématiques de référence. Le Math Index le place dans une zone compétitive de son panel, cohérente avec son bon résultat en Mathematics (Baseline). La licence Apache 2.0 et le tarif 100% inférieur à la moyenne des LLM similaires en font un modèle particulièrement économique pour des usages expérimentaux, d’intégration ou de déploiement maîtrisé.

Limites et points d'attention. Les classements globaux restent moins favorables que ses meilleurs benchmarks isolés : l’Intelligence Index le situe dans le bas du panel, l’Arena text indique une position éloignée des modèles haut de gamme, et les indices Code Index et Agentic Index montrent des limites relatives pour le développement logiciel et les tâches agentiques. Le classement Ethics (Baseline) est faible malgré un score absolu élevé, signe d’une concurrence dense sur ce critère. Sa limite de connaissances au 2024-06-30 impose aussi une prudence sur les sujets récents. GPT OSS 120B convient surtout aux scénarios où le coût nul, l’accès open-weights, la longue fenêtre de contexte et les performances généralistes priment sur l’état de l’art absolu.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).