DROP
DROP, pour Discrete Reasoning Over Paragraphs, est un benchmark de compréhension écrite conçu par Allen Institute for AI et UC Irvine, avec Dheeru Dua et al. Publié en 2019, il évalue la capacité d’un modèle à répondre à des questions ouvertes à réponse courte à partir de paragraphes en…
DROP, pour Discrete Reasoning Over Paragraphs, est un benchmark de compréhension écrite conçu par Allen Institute for AI et UC Irvine, avec Dheeru Dua et al. Publié en 2019, il évalue la capacité d’un modèle à répondre à des questions ouvertes à réponse courte à partir de paragraphes en anglais.
Sa particularité est de cibler le raisonnement discret sur le contenu textuel: comptage, addition, comparaison, tri et résolution de références. DROP sert ainsi à tester une compréhension plus profonde que la simple reconnaissance de paraphrases ou d’entités.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Allen Institute for AI (AI2) et UC Irvine; Dheeru Dua et al. |
| Capacités mesurées | mathématiques, raisonnement |
| Modalité | Texte |
| Type de questions | questions ouvertes à réponse courte |
| Métrique d'évaluation | F1 et exact match |
| Accès | Jeu de test privé (réponses non divulguées) |
| Licence | CC-BY-4.0 |
| Langues | anglais |
| Taille du jeu | environ 96 000 questions sur 6 700 paragraphes |
| Année de publication | 2019 |
| Ressources | Site / dépôt officiel · Article scientifique |
Métadonnées descriptives pré-renseignées automatiquement, en cours de relecture éditoriale.
Classement des modèles (top 20)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | DeepSeek-V3 | DeepSeek | 91,6 % | 24 mars 2025 | Auto-déclaré |
| 2 | Claude 3.5 Sonnet | Anthropic | 87,1 % | 22 octobre 2024 | Auto-déclaré |
| 3 | MiMo-V2.5-Pro | Xiaomi | 86,3 % | 27 avril 2026 | Auto-déclaré |
| 4 | GPT-4 Turbo | OpenAI | 86,0 % | 9 avril 2024 | Auto-déclaré |
| 5 | Nova Pro | Amazon | 85,4 % | 20 novembre 2024 | Auto-déclaré |
| 6 | Llama 3.1 405B Instruct | Meta | 84,8 % | 23 juillet 2024 | Auto-déclaré |
| 7 | GPT-4o | OpenAI | 83,4 % | 27 mars 2025 | Auto-déclaré |
| 8 | Claude 3 Opus | Anthropic | 83,1 % | 29 février 2024 | Auto-déclaré |
| 9 | Claude 3.5 Haiku | Anthropic | 83,1 % | 4 novembre 2024 | Auto-déclaré |
| 10 | GPT-4 | OpenAI | 80,9 % | 28 août 2023 | Auto-déclaré |
| 11 | Nova Lite | Amazon | 80,2 % | 20 novembre 2024 | Auto-déclaré |
| 12 | GPT-4o mini | OpenAI | 79,7 % | 18 juillet 2024 | Auto-déclaré |
| 13 | Llama 3.1 70B Instruct | Meta | 79,6 % | 23 juillet 2024 | Auto-déclaré |
| 14 | Nova Micro | Amazon | 79,3 % | 20 novembre 2024 | Auto-déclaré |
| 15 | LongCat-Flash-Chat | Meituan | 79,1 % | 29 août 2025 | Auto-déclaré |
| 16 | Claude 3 Sonnet | Anthropic | 78,9 % | 29 février 2024 | Auto-déclaré |
| 17 | Claude 3 Haiku | Anthropic | 78,4 % | 13 mars 2024 | Auto-déclaré |
| 18 | Phi 4 | Microsoft | 75,5 % | 12 décembre 2024 | Auto-déclaré |
| 19 | Gemini 1.5 Pro | 74,9 % | 1 mai 2024 | Auto-déclaré | |
| 20 | GPT-3.5 Turbo | OpenAI | 70,2 % | 21 mars 2023 | n.d. |
Classement établi sur 29 modèles évalués, dont 23 de grands éditeurs. Score médian de l'ensemble : 79,1 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur DROP indique qu’un modèle parvient à combiner compréhension de texte et opérations discrètes, notamment lorsqu’une réponse suppose de relier plusieurs éléments d’un paragraphe avant de produire une réponse courte. Les métriques F1 et exact match favorisent les réponses précises, mais ne décrivent pas toujours la nature exacte du raisonnement effectué. Le jeu de test privé, dont les réponses ne sont pas divulguées, renforce la rigueur de l’évaluation. Dans la base, la fiabilité reste toutefois à interpréter avec prudence, car les scores sont majoritairement auto-déclarés par les éditeurs. Le classement montre un niveau global déjà élevé, avec un score médian de 79 % sur les modèles suivis et un meilleur résultat de 92 % pour DeepSeek-V3. Cette proximité relative avec le haut de l’échelle peut signaler une forme de saturation. Les limites tiennent aussi à la portée du benchmark, centré sur l’anglais et sur un type précis de raisonnement sur paragraphes, ainsi qu’au risque général de contamination des données d’entraînement.
Sources des scores : llm-stats.