Grok 4.3 Beta

Grok 4.3 Beta est un LLM de xAI sorti le 17 avril 2026. Son profil public se lit surtout à travers des évaluations Epoch, avec une couverture limitée à une source de données concordante.

Grok 4.3 Beta est un LLM de xAI sorti le 17 avril 2026. Son profil public se lit surtout à travers des évaluations Epoch, avec une couverture limitée à une source de données concordante.

Le modèle se distingue par de très bons résultats sur les tests de raisonnement scientifique et mathématique, notamment GPQA diamond et OTIS Mock AIME 2024-2025. À sa sortie, il se situait dans le top 19% des LLM de sa génération sur GPQA diamond.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurxAI
Date de sortie17 avril 2026

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: OTIS Mock AIME 2024-202593,3 %15ᵉ / 111epoch✅ Mesuré
Epoch: GPQA diamond88,8 %19ᵉ / 132epoch✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private42,8 %24ᵉ / 31epoch✅ Mesuré
Epoch: SimpleQA Verified38,0 %30ᵉ / 52epoch✅ Mesuré
Epoch: Chess Puzzles25,0 %19ᵉ / 43epoch✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private14,6 %20ᵉ / 32epoch✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %
Qwen3.7 Max95 %
▶ Grok 4.3 Beta93 %
Muse Spark89 %

Epoch: GPQA diamond

Qwen3.7 Max92 %
▶ Grok 4.3 Beta89 %
Mistral Medium…60 %

Notre analyse

Forces. Grok 4.3 Beta apparaît solide sur les tâches de raisonnement exigeantes. Son meilleur signal vient de GPQA diamond, un benchmark de questions scientifiques niveau doctorat, où il figurait à sa sortie dans le haut du panier des LLM comparables. OTIS Mock AIME 2024-2025 confirme aussi une bonne tenue sur des problèmes de mathématiques de niveau olympiades lycée. Le modèle reste compétitif sur les premiers niveaux de FrontierMath, ce qui indique une capacité réelle à traiter des problèmes mathématiques difficiles, même si ce terrain devient nettement plus sélectif aux niveaux supérieurs.

Limites et points d'attention. Les résultats sont plus contrastés hors raisonnement académique. SimpleQA Verified, qui mesure des réponses factuelles vérifiables, place le modèle en retrait par rapport à ses performances scientifiques, avec un risque plus marqué sur les questions de connaissance brute. Chess Puzzles reste également un point faible relatif. FrontierMath-Tier-4-v2-Private montre enfin que les mathématiques de recherche les plus difficiles dépassent largement son niveau moyen. Grok 4.3 Beta convient surtout à l’analyse scientifique et mathématique assistée, avec vérification externe des faits.


Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.