Mathématiques

DROP

DROP, pour Discrete Reasoning Over Paragraphs, est un benchmark de compréhension écrite conçu par Allen Institute for AI et UC Irvine, avec Dheeru Dua et al. Publié en 2019, il évalue la capacité d’un modèle à répondre à des questions ouvertes à réponse courte à partir de paragraphes en…

Sa particularité est de cibler le raisonnement discret sur le contenu textuel: comptage, addition, comparaison, tri et résolution de références. DROP sert ainsi à tester une compréhension plus profonde que la simple reconnaissance de paraphrases ou d’entités.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Allen Institute for AI (AI2) et UC Irvine; Dheeru Dua et al.
Capacités mesurées	mathématiques, raisonnement
Modalité	Texte
Type de questions	questions ouvertes à réponse courte
Métrique d'évaluation	F1 et exact match
Accès	Jeu de test privé (réponses non divulguées)
Licence	CC-BY-4.0
Langues	anglais
Taille du jeu	environ 96 000 questions sur 6 700 paragraphes
Année de publication	2019
Ressources	Site / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	DeepSeek-V3	DeepSeek	91,6 %	24 mars 2025	Auto-déclaré
2	Claude 3.5 Sonnet	Anthropic	87,1 %	22 octobre 2024	Auto-déclaré
3	MiMo-V2.5-Pro	Xiaomi	86,3 %	27 avril 2026	Auto-déclaré
4	GPT-4 Turbo	OpenAI	86,0 %	9 avril 2024	Auto-déclaré
5	Nova Pro	Amazon	85,4 %	20 novembre 2024	Auto-déclaré
6	Llama 3.1 405B Instruct	Meta	84,8 %	23 juillet 2024	Auto-déclaré
7	GPT-4o	OpenAI	83,4 %	27 mars 2025	Auto-déclaré
8	Claude 3 Opus	Anthropic	83,1 %	29 février 2024	Auto-déclaré
9	Claude 3.5 Haiku	Anthropic	83,1 %	4 novembre 2024	Auto-déclaré
10	GPT-4	OpenAI	80,9 %	28 août 2023	Auto-déclaré
11	Nova Lite	Amazon	80,2 %	20 novembre 2024	Auto-déclaré
12	GPT-4o mini	OpenAI	79,7 %	18 juillet 2024	Auto-déclaré
13	Llama 3.1 70B Instruct	Meta	79,6 %	23 juillet 2024	Auto-déclaré
14	Nova Micro	Amazon	79,3 %	20 novembre 2024	Auto-déclaré
15	LongCat-Flash-Chat	Meituan	79,1 %	29 août 2025	Auto-déclaré
16	Claude 3 Sonnet	Anthropic	78,9 %	29 février 2024	Auto-déclaré
17	Claude 3 Haiku	Anthropic	78,4 %	13 mars 2024	Auto-déclaré
18	Phi 4	Microsoft	75,5 %	12 décembre 2024	Auto-déclaré
19	Gemini 1.5 Pro	Google	74,9 %	1 mai 2024	Auto-déclaré
20	GPT-3.5 Turbo	OpenAI	70,2 %	21 mars 2023	n.d.

Classement établi sur 29 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 79,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DROP indique qu’un modèle parvient à combiner compréhension de texte et opérations discrètes, notamment lorsqu’une réponse suppose de relier plusieurs éléments d’un paragraphe avant de produire une réponse courte. Les métriques F1 et exact match favorisent les réponses précises, mais ne décrivent pas toujours la nature exacte du raisonnement effectué. Le jeu de test privé, dont les réponses ne sont pas divulguées, renforce la rigueur de l’évaluation. Dans la base, la fiabilité reste toutefois à interpréter avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Le classement montre un niveau global déjà élevé, avec un score médian de 79 % sur les modèles suivis et un meilleur résultat de 92 % pour DeepSeek-V3. Cette proximité relative avec le haut de l’échelle peut signaler une forme de saturation. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais et sur un type précis de raisonnement sur paragraphes, ainsi qu’au risque général de contamination des données d’entraînement.

Sources des scores : llm-stats.

DROP

Carte d'identité

Classement des modèles (top 20)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WritingBench