Benchmarks

Les benchmarks qui évaluent les modèles d'IA, classés par grande capacité. Chaque fiche détaille ce que mesure le benchmark, son éditeur, sa licence et son accès, ainsi que le classement des meilleurs modèles.

Agents & outils

Audio & parole

Autres benchmarks

Code & programmation

Connaissances & sciences

Contexte long

Langage & rédaction

Mathématiques

Raisonnement

Recherche & embeddings

Sûreté & factualité

Vision & multimodal