Grok-4 Heavy
Grok-4 Heavy est un LLM propriétaire de xAI, publié le 10 juillet 2025 aux États-Unis. Ses poids ne sont pas ouverts, ce qui le place dans la famille des modèles fermés plutôt que des modèles distribués pour auto-hébergement ou inspection directe.
Grok-4 Heavy est un LLM propriétaire de xAI, publié le 10 juillet 2025 aux États-Unis. Ses poids ne sont pas ouverts, ce qui le place dans la famille des modèles fermés plutôt que des modèles distribués pour auto-hébergement ou inspection directe.
À sa sortie, Grok-4 Heavy se situait dans le top 1% des LLM de sa génération sur GPQA, un signal fort de performance relative sur ce benchmark. Ses connaissances déclarées s’arrêtent au 31 décembre 2024, avec deux sources de données concordantes pour étayer la fiche.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 10 juillet 2025 |
| Connaissances jusqu'à | 2024-12-31 |
| Multimodal | oui |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: FrontierMath-Tier-4-2025-07-01-Private | 2,1 % | 45ᵉ / 55 | epoch | ✅ Mesuré |
| AIME 2025 | 100,0 % | 1ᵉ / 108 | llm-stats | Auto-déclaré |
| HMMT25 | 96,7 % | 1ᵉ / 25 | llm-stats | Auto-déclaré |
| GPQA | 88,4 % | 21ᵉ / 213 | llm-stats | Auto-déclaré |
| LiveCodeBench | 79,4 % | 10ᵉ / 72 | llm-stats | Auto-déclaré |
| USAMO25 | 61,9 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| Humanity's Last Exam | 50,7 % | 15ᵉ / 86 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: FrontierMath-Tier-4-2025-07-01-Private
Entraînement & empreinte
| Indicateur | Valeur |
|---|---|
| Jeu de données | Unspecified unreleased |
| Pays | United States of America |
Notre analyse
Forces. Le principal point fort de Grok-4 Heavy est son positionnement à sa sortie sur GPQA, où il figurait dans le tout premier centile des LLM évalués sur la même période. Ce résultat le situe, à son époque, dans le haut du panier des modèles généralistes pour les tâches couvertes par ce benchmark. Le modèle bénéficie aussi d’un cadre d’identification clair, avec un éditeur unique, une date de sortie précise, un pays d’origine établi et une limite de connaissances connue.
Limites et points d'attention. Grok-4 Heavy affiche une faiblesse nette sur FrontierMath-Tier-4-2025-07-01-Private (mathématiques de recherche, très difficiles), où son résultat le place en bas de classement parmi les modèles évalués. Cette contre-performance invite à ne pas extrapoler son bon rang sur GPQA à des problèmes mathématiques de recherche particulièrement exigeants. Sa licence propriétaire et ses poids non ouverts limitent l’audit indépendant des paramètres et les usages nécessitant un modèle librement inspectable. Ses connaissances s’arrêtent fin 2024, ce qui impose aussi une prudence sur les sujets postérieurs à cette date.
Sources des données : LLM-Stats (llm-stats.com) · Epoch AI (epoch.ai), CC-BY-4.0.