DROP

DROP, pour Discrete Reasoning Over Paragraphs, est un benchmark de compréhension écrite conçu par Allen Institute for AI et UC Irvine, avec Dheeru Dua et al. Publié en 2019, il évalue la capacité d’un modèle à répondre à des questions ouvertes à réponse courte à partir de paragraphes en…

DROP, pour Discrete Reasoning Over Paragraphs, est un benchmark de compréhension écrite conçu par Allen Institute for AI et UC Irvine, avec Dheeru Dua et al. Publié en 2019, il évalue la capacité d’un modèle à répondre à des questions ouvertes à réponse courte à partir de paragraphes en anglais.

Sa particularité est de cibler le raisonnement discret sur le contenu textuel: comptage, addition, comparaison, tri et résolution de références. DROP sert ainsi à tester une compréhension plus profonde que la simple reconnaissance de paraphrases ou d’entités.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkAllen Institute for AI (AI2) et UC Irvine; Dheeru Dua et al.
Capacités mesuréesmathématiques, raisonnement
ModalitéTexte
Type de questionsquestions ouvertes à réponse courte
Métrique d'évaluationF1 et exact match
AccèsJeu de test privé (réponses non divulguées)
LicenceCC-BY-4.0
Languesanglais
Taille du jeuenviron 96 000 questions sur 6 700 paragraphes
Année de publication2019
RessourcesSite / dépôt officiel · Article scientifique

Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.

Classement des modèles (top 20)

#ModèleÉditeurScoreSortieFiabilité
1DeepSeek-V3DeepSeek91,6 %24 mars 2025Auto-déclaré
2Claude 3.5 SonnetAnthropic87,1 %22 octobre 2024Auto-déclaré
3MiMo-V2.5-ProXiaomi86,3 %27 avril 2026Auto-déclaré
4GPT-4 TurboOpenAI86,0 %9 avril 2024Auto-déclaré
5Nova ProAmazon85,4 %20 novembre 2024Auto-déclaré
6Llama 3.1 405B InstructMeta84,8 %23 juillet 2024Auto-déclaré
7GPT-4oOpenAI83,4 %27 mars 2025Auto-déclaré
8Claude 3 OpusAnthropic83,1 %29 février 2024Auto-déclaré
9Claude 3.5 HaikuAnthropic83,1 %4 novembre 2024Auto-déclaré
10GPT-4OpenAI80,9 %28 août 2023Auto-déclaré
11Nova LiteAmazon80,2 %20 novembre 2024Auto-déclaré
12GPT-4o miniOpenAI79,7 %18 juillet 2024Auto-déclaré
13Llama 3.1 70B InstructMeta79,6 %23 juillet 2024Auto-déclaré
14Nova MicroAmazon79,3 %20 novembre 2024Auto-déclaré
15LongCat-Flash-ChatMeituan79,1 %29 août 2025Auto-déclaré
16Claude 3 SonnetAnthropic78,9 %29 février 2024Auto-déclaré
17Claude 3 HaikuAnthropic78,4 %13 mars 2024Auto-déclaré
18Phi 4Microsoft75,5 %12 décembre 2024Auto-déclaré
19Gemini 1.5 ProGoogle74,9 %1 mai 2024Auto-déclaré
20GPT-3.5 TurboOpenAI70,2 %21 mars 2023n.d.

Classement établi sur 29 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 79,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur DROP indique qu’un modèle parvient à combiner compréhension de texte et opérations discrètes, notamment lorsqu’une réponse suppose de relier plusieurs éléments d’un paragraphe avant de produire une réponse courte. Les métriques F1 et exact match favorisent les réponses précises, mais ne décrivent pas toujours la nature exacte du raisonnement effectué. Le jeu de test privé, dont les réponses ne sont pas divulguées, renforce la rigueur de l’évaluation. Dans la base, la fiabilité reste toutefois à interpréter avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Le classement montre un niveau global déjà élevé, avec un score médian de 79 % sur les modèles suivis et un meilleur résultat de 92 % pour DeepSeek-V3. Cette proximité relative avec le haut de l’échelle peut signaler une forme de saturation. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais et sur un type précis de raisonnement sur paragraphes, ainsi qu’au risque général de contamination des données d’entraînement.


Sources des scores : llm-stats.