xAI

Grok-4 Heavy

Grok-4 Heavy est un LLM propriétaire de xAI, publié le 10 juillet 2025 aux États-Unis. Ses poids ne sont pas ouverts, ce qui le place dans la famille des modèles fermés plutôt que des modèles distribués pour auto-hébergement ou inspection directe.

À sa sortie, Grok-4 Heavy se situait dans le top 1% des LLM de sa génération sur GPQA, un signal fort de performance relative sur ce benchmark. Ses connaissances déclarées s’arrêtent au 31 décembre 2024, avec deux sources de données concordantes pour étayer la fiche.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Licence	Proprietary (poids non ouverts)
Date de sortie	10 juillet 2025
Connaissances jusqu'à	2024-12-31
Multimodal	oui

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: FrontierMath-Tier-4-2025-07-01-Private	2,1 %	45ᵉ / 55	epoch	✅ Mesuré
AIME 2025	100,0 %	1ᵉ / 108	llm-stats	Auto-déclaré
HMMT25	96,7 %	1ᵉ / 25	llm-stats	Auto-déclaré
GPQA	88,4 %	21ᵉ / 213	llm-stats	Auto-déclaré
LiveCodeBench	79,4 %	10ᵉ / 72	llm-stats	Auto-déclaré
USAMO25	61,9 %	2ᵉ / 3	llm-stats	Auto-déclaré
Humanity's Last Exam	50,7 %	15ᵉ / 86	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: FrontierMath-Tier-4-2025-07-01-Private

GPT-5.5 Pro40 %

Claude Opus 4.831 %

Gemini 3 Pro19 %

Grok-42 %

▶ Grok-4 Heavy2 %

Entraînement & empreinte

Indicateur	Valeur
Jeu de données	Unspecified unreleased
Pays	United States of America

Notre analyse

Forces. Le principal point fort de Grok-4 Heavy est son positionnement à sa sortie sur GPQA, où il figurait dans le tout premier centile des LLM évalués sur la même période. Ce résultat le situe, à son époque, dans le haut du panier des modèles généralistes pour les tâches couvertes par ce benchmark. Le modèle bénéficie aussi d’un cadre d’identification clair, avec un éditeur unique, une date de sortie précise, un pays d’origine établi et une limite de connaissances connue.

Limites et points d'attention. Grok-4 Heavy affiche une faiblesse nette sur FrontierMath-Tier-4-2025-07-01-Private (mathématiques de recherche, très difficiles), où son résultat le place en bas de classement parmi les modèles évalués. Cette contre-performance invite à ne pas extrapoler son bon rang sur GPQA à des problèmes mathématiques de recherche particulièrement exigeants. Sa licence propriétaire et ses poids non ouverts limitent l’audit indépendant des paramètres et les usages nécessitant un modèle librement inspectable. Ses connaissances s’arrêtent fin 2024, ce qui impose aussi une prudence sur les sujets postérieurs à cette date.

Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.

Grok-4 Heavy

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Entraînement & empreinte

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast