OpenAI

GPT OSS 120B

GPT OSS 120B est un LLM open-weights d’OpenAI, publié le 5 août 2025 sous licence Apache 2.0 avec usage commercial autorisé. Le modèle compte 117 milliards de paramètres, dont 5 milliards actifs, et combine une très grande fenêtre de contexte avec un positionnement tarifaire gratuit en…

Son entraînement mobilise 4,9 × 10²⁴ FLOP, soit environ 1,4 million d’heures-GPU H100, l’équivalent de 640 GPU H100 pendant trois mois. À sa sortie, GPT OSS 120B se situait dans le top 20% de sa génération sur GPQA diamond.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI
Licence	Apache 2.0 (open-weights, usage commercial autorisé)
Date de sortie	5 août 2025
Connaissances jusqu'à	2024-06-30
Multimodal	non
Paramètres	117 milliards
Paramètres actifs	5 milliards
Fenêtre de contexte	131 072 tokens
Modalités (entrée → sortie)	text → text

Indices de synthèse

Indice	Valeur	Rang (LLM)
Intelligence Index	17.7	108ᵉ / 136
Code Index	30.4	43ᵉ / 50
Agentic Index	13.2	35ᵉ / 42
Math Index	66.7	22ᵉ / 55

Indices Artificial Analysis. Le rang situe le modèle parmi tous les LLM du catalogue disposant de l'indice.

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : General Knowledge (Baseline)	99,5 %	68ᵉ / 250	benchable	✅ Mesuré
Benchable : Email Classification (Baseline)	99,0 %	24ᵉ / 254	benchable	✅ Mesuré
Benchable : Hallucinations (Baseline)	98,0 %	71ᵉ / 229	benchable	✅ Mesuré
Benchable : Reasoning (Baseline)	96,0 %	39ᵉ / 239	benchable	✅ Mesuré
Benchable : Mathematics (Baseline)	94,0 %	42ᵉ / 217	benchable	✅ Mesuré
Benchable : Ethics (Baseline)	93,8 %	211ᵉ / 248	benchable	✅ Mesuré
Benchable : Coding (Baseline)	93,0 %	58ᵉ / 248	benchable	✅ Mesuré
Epoch: OTIS Mock AIME 2024-2025	88,9 %	24ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	75,8 %	53ᵉ / 132	epoch	✅ Mesuré
Benchable : Keyword Topic Relevance Classification	70,0 %	9ᵉ / 9	benchable	✅ Mesuré
LiveBench: Mathematics	68,9 %	56ᵉ / 76	livebench	✅ Mesuré
LiveBench: Coding	60,2 %	71ᵉ / 76	livebench	✅ Mesuré
LiveBench: IF	50,3 %	45ᵉ / 76	livebench	✅ Mesuré
LiveBench: Language	48,6 %	69ᵉ / 76	livebench	✅ Mesuré
LiveBench: Global average	46,1 %	65ᵉ / 76	livebench	✅ Mesuré
Benchable : Instruction Following (Baseline)	46,0 %	186ᵉ / 252	benchable	✅ Mesuré
PinchBench : agentique (OpenClaw, 147 tâches)	44,8 %	45ᵉ / 52	pinchbench	✅ Mesuré
LiveBench: Reasoning	39,2 %	68ᵉ / 76	livebench	✅ Mesuré
LiveBench: Data Analysis	38,8 %	74ᵉ / 76	livebench	✅ Mesuré
Epoch: Chess Puzzles	20,0 %	22ᵉ / 43	epoch	✅ Mesuré
LiveBench: Agentic Coding	16,7 %	65ᵉ / 76	livebench	✅ Mesuré
Epoch: SimpleQA Verified	13,9 %	47ᵉ / 52	epoch	✅ Mesuré
AIME 2025	92,5 %	31ᵉ / 108	llm-stats	Auto-déclaré
MMLU	90,0 %	10ᵉ / 98	llm-stats	Auto-déclaré
MMMLU	83,8 %	34ᵉ / 49	llm-stats	Auto-déclaré
CodeForces	82,1 %	6ᵉ / 16	llm-stats	Auto-déclaré
LiveCodeBench v6	81,9 %	15ᵉ / 53	llm-stats	Auto-déclaré
MMLU-Pro	80,7 %	47ᵉ / 125	llm-stats	Auto-déclaré
GPQA	80,1 %	73ᵉ / 213	llm-stats	Auto-déclaré
IFBench	69,5 %	17ᵉ / 27	llm-stats	Auto-déclaré
TAU-bench Retail	67,8 %	15ᵉ / 24	llm-stats	Auto-déclaré
t2-bench	63,9 %	18ᵉ / 23	llm-stats	Auto-déclaré
HealthBench	57,6 %	2ᵉ / 5	llm-stats	Auto-déclaré
HealthBench Hard	30,0 %	2ᵉ / 6	llm-stats	Auto-déclaré
Humanity's Last Exam	14,9 %	65ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Intelligence Index

Claude Fable 559.9

GPT-5.451.4

Gemini 3.1 Pro Preview46.5

Nova 2.0 Pro Preview21.8

▶ GPT OSS 120B17.7

Llama 4 Maverick14.3

Code Index

Claude Fable 576.5

GPT-5.471.1

Gemini 3.5 Flash70.1

Nova 2.0 Pro Preview34.0

▶ GPT OSS 120B30.4

Llama 4 Maverick16.3

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Text	1353	171ᵉ

Tarifs

Fournisseur	Entrée / 1M	Sortie / 1M	Cache lecture / 1M
OpenInference	gratuit	gratuit	n.d.
MARA	0,03 $	0,15 $	n.d.
deepinfra	0,09 $	0,45 $	n.d.
novita	0,1 $	0,5 $	n.d.
fireworks	0,15 $	0,6 $	n.d.

Prix en dollars US par million de tokens.

Sa tarification se situe 100 % en dessous de la moyenne des LLM similaires.

Coût & vitesse agentiques

Indicateur	Valeur
Coût par exécution agentique — PinchBench (147 tâches)	0,5 $
Durée d'exécution — PinchBench	3 h 00 min
Indice valeur/coût — PinchBench	158,9
Coût moyen par benchmark — Benchable	0,01 $
Latence moyenne par benchmark — Benchable	13 min 26 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Entraînement & empreinte

Indicateur	Valeur
Compute d'entraînement	4,9 × 10²⁴ FLOP
Matériel	NVIDIA H100 SXM5 80GB
Pays	United States of America

Notre analyse

Forces. GPT OSS 120B se distingue surtout par son équilibre entre ouverture, coût et résultats solides sur plusieurs tâches de base. Les scores Benchable sont élevés en General Knowledge, Email Classification, Hallucinations, Reasoning et Mathematics, ce qui indique de bonnes performances sur les connaissances générales, le tri d’e-mails, la robustesse factuelle, le raisonnement et les mathématiques de référence. Le Math Index le place dans une zone compétitive de son panel, cohérente avec son bon résultat en Mathematics (Baseline). La licence Apache 2.0 et le tarif 100% inférieur à la moyenne des LLM similaires en font un modèle particulièrement économique pour des usages expérimentaux, d’intégration ou de déploiement maîtrisé.

Limites et points d'attention. Les classements globaux restent moins favorables que ses meilleurs benchmarks isolés : l’Intelligence Index le situe dans le bas du panel, l’Arena text indique une position éloignée des modèles haut de gamme, et les indices Code Index et Agentic Index montrent des limites relatives pour le développement logiciel et les tâches agentiques. Le classement Ethics (Baseline) est faible malgré un score absolu élevé, signe d’une concurrence dense sur ce critère. Sa limite de connaissances au 2024-06-30 impose aussi une prudence sur les sujets récents. GPT OSS 120B convient surtout aux scénarios où le coût nul, l’accès open-weights, la longue fenêtre de contexte et les performances généralistes priment sur l’état de l’art absolu.

Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Artificial Analysis (artificialanalysis.ai) · LiveBench (livebench.ai) · Arena.ai (arena.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · PinchBench (pinchbench.com) · Benchable.ai (benchable.ai).