Grok-4 Heavy

Grok-4 Heavy est un LLM propriétaire de xAI, publié le 10 juillet 2025 aux États-Unis. Ses poids ne sont pas ouverts, ce qui le place dans la famille des modèles fermés plutôt que des modèles distribués pour auto-hébergement ou inspection directe.

Grok-4 Heavy est un LLM propriétaire de xAI, publié le 10 juillet 2025 aux États-Unis. Ses poids ne sont pas ouverts, ce qui le place dans la famille des modèles fermés plutôt que des modèles distribués pour auto-hébergement ou inspection directe.

À sa sortie, Grok-4 Heavy se situait dans le top 1% des LLM de sa génération sur GPQA, un signal fort de performance relative sur ce benchmark. Ses connaissances déclarées s’arrêtent au 31 décembre 2024, avec deux sources de données concordantes pour étayer la fiche.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
LicenceProprietary (poids non ouverts)
Date de sortie10 juillet 2025
Connaissances jusqu'à2024-12-31
Multimodaloui

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: FrontierMath-Tier-4-2025-07-01-Private2,1 %45ᵉ / 55epoch✅ Mesuré
AIME 2025100,0 %1ᵉ / 108llm-statsAuto-déclaré
HMMT2596,7 %1ᵉ / 25llm-statsAuto-déclaré
GPQA88,4 %21ᵉ / 213llm-statsAuto-déclaré
LiveCodeBench79,4 %10ᵉ / 72llm-statsAuto-déclaré
USAMO2561,9 %2ᵉ / 3llm-statsAuto-déclaré
Humanity's Last Exam50,7 %15ᵉ / 86llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: FrontierMath-Tier-4-2025-07-01-Private

▶ Grok-4 Heavy2 %

Entraînement & empreinte

IndicateurValeur
Jeu de donnéesUnspecified unreleased
PaysUnited States of America

Notre analyse

Forces. Le principal point fort de Grok-4 Heavy est son positionnement à sa sortie sur GPQA, où il figurait dans le tout premier centile des LLM évalués sur la même période. Ce résultat le situe, à son époque, dans le haut du panier des modèles généralistes pour les tâches couvertes par ce benchmark. Le modèle bénéficie aussi d’un cadre d’identification clair, avec un éditeur unique, une date de sortie précise, un pays d’origine établi et une limite de connaissances connue.

Limites et points d'attention. Grok-4 Heavy affiche une faiblesse nette sur FrontierMath-Tier-4-2025-07-01-Private (mathématiques de recherche, très difficiles), où son résultat le place en bas de classement parmi les modèles évalués. Cette contre-performance invite à ne pas extrapoler son bon rang sur GPQA à des problèmes mathématiques de recherche particulièrement exigeants. Sa licence propriétaire et ses poids non ouverts limitent l’audit indépendant des paramètres et les usages nécessitant un modèle librement inspectable. Ses connaissances s’arrêtent fin 2024, ce qui impose aussi une prudence sur les sujets postérieurs à cette date.


Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.