xAI

Grok 4.3 Beta

Grok 4.3 Beta est un LLM de xAI sorti le 17 avril 2026. Son profil public se lit surtout à travers des évaluations Epoch, avec une couverture limitée à une source de données concordante.

Le modèle se distingue par de très bons résultats sur les tests de raisonnement scientifique et mathématique, notamment GPQA diamond et OTIS Mock AIME 2024-2025. À sa sortie, il se situait dans le top 19% des LLM de sa génération sur GPQA diamond.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	xAI
Date de sortie	17 avril 2026

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: OTIS Mock AIME 2024-2025	93,3 %	15ᵉ / 111	epoch	✅ Mesuré
Epoch: GPQA diamond	88,8 %	19ᵉ / 132	epoch	✅ Mesuré
Epoch: FrontierMath-Tiers-1-3-v2-Private	42,8 %	24ᵉ / 31	epoch	✅ Mesuré
Epoch: SimpleQA Verified	38,0 %	30ᵉ / 52	epoch	✅ Mesuré
Epoch: Chess Puzzles	25,0 %	19ᵉ / 43	epoch	✅ Mesuré
Epoch: FrontierMath-Tier-4-v2-Private	14,6 %	20ᵉ / 32	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: OTIS Mock AIME 2024-2025

GPT-5.5100 %

Claude Fable 5100 %

DeepSeek V4 Pro97 %

Qwen3.7 Max95 %

▶ Grok 4.3 Beta93 %

Muse Spark89 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

DeepSeek V4 Pro90 %

▶ Grok 4.3 Beta89 %

Mistral Medium…60 %

Notre analyse

Forces. Grok 4.3 Beta apparaît solide sur les tâches de raisonnement exigeantes. Son meilleur signal vient de GPQA diamond, un benchmark de questions scientifiques niveau doctorat, où il figurait à sa sortie dans le haut du panier des LLM comparables. OTIS Mock AIME 2024-2025 confirme aussi une bonne tenue sur des problèmes de mathématiques de niveau olympiades lycée. Le modèle reste compétitif sur les premiers niveaux de FrontierMath, ce qui indique une capacité réelle à traiter des problèmes mathématiques difficiles, même si ce terrain devient nettement plus sélectif aux niveaux supérieurs.

Limites et points d'attention. Les résultats sont plus contrastés hors raisonnement académique. SimpleQA Verified, qui mesure des réponses factuelles vérifiables, place le modèle en retrait par rapport à ses performances scientifiques, avec un risque plus marqué sur les questions de connaissance brute. Chess Puzzles reste également un point faible relatif. FrontierMath-Tier-4-v2-Private montre enfin que les mathématiques de recherche les plus difficiles dépassent largement son niveau moyen. Grok 4.3 Beta convient surtout à l’analyse scientifique et mathématique assistée, avec vérification externe des faits.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

Grok 4.3 Beta

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast