Grok 4.3 Beta
Grok 4.3 Beta est un LLM de xAI sorti le 17 avril 2026. Son profil public se lit surtout à travers des évaluations Epoch, avec une couverture limitée à une source de données concordante.
Grok 4.3 Beta est un LLM de xAI sorti le 17 avril 2026. Son profil public se lit surtout à travers des évaluations Epoch, avec une couverture limitée à une source de données concordante.
Le modèle se distingue par de très bons résultats sur les tests de raisonnement scientifique et mathématique, notamment GPQA diamond et OTIS Mock AIME 2024-2025. À sa sortie, il se situait dans le top 19% des LLM de sa génération sur GPQA diamond.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | xAI |
| Date de sortie | 17 avril 2026 |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: OTIS Mock AIME 2024-2025 | 93,3 % | 15ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 88,8 % | 19ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tiers-1-3-v2-Private | 42,8 % | 24ᵉ / 31 | epoch | ✅ Mesuré |
| Epoch: SimpleQA Verified | 38,0 % | 30ᵉ / 52 | epoch | ✅ Mesuré |
| Epoch: Chess Puzzles | 25,0 % | 19ᵉ / 43 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-Tier-4-v2-Private | 14,6 % | 20ᵉ / 32 | epoch | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: OTIS Mock AIME 2024-2025
Epoch: GPQA diamond
Notre analyse
Forces. Grok 4.3 Beta apparaît solide sur les tâches de raisonnement exigeantes. Son meilleur signal vient de GPQA diamond, un benchmark de questions scientifiques niveau doctorat, où il figurait à sa sortie dans le haut du panier des LLM comparables. OTIS Mock AIME 2024-2025 confirme aussi une bonne tenue sur des problèmes de mathématiques de niveau olympiades lycée. Le modèle reste compétitif sur les premiers niveaux de FrontierMath, ce qui indique une capacité réelle à traiter des problèmes mathématiques difficiles, même si ce terrain devient nettement plus sélectif aux niveaux supérieurs.
Limites et points d'attention. Les résultats sont plus contrastés hors raisonnement académique. SimpleQA Verified, qui mesure des réponses factuelles vérifiables, place le modèle en retrait par rapport à ses performances scientifiques, avec un risque plus marqué sur les questions de connaissance brute. Chess Puzzles reste également un point faible relatif. FrontierMath-Tier-4-v2-Private montre enfin que les mathématiques de recherche les plus difficiles dépassent largement son niveau moyen. Grok 4.3 Beta convient surtout à l’analyse scientifique et mathématique assistée, avec vérification externe des faits.
Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.