COLLIE
COLLIE est un benchmark consacré à la génération de texte sous contraintes compositionnelles. Créé par Princeton University et des collaborateurs, il repose sur un cadre grammatical permettant de construire systématiquement des tâches où un modèle doit produire du texte tout en…
COLLIE est un benchmark consacré à la génération de texte sous contraintes compositionnelles. Créé par Princeton University et des collaborateurs, il repose sur un cadre grammatical permettant de construire systématiquement des tâches où un modèle doit produire du texte tout en respectant des règles explicites.
Le benchmark évalue plusieurs dimensions utiles pour les modèles génératifs : respect de contraintes, compréhension du langage, raisonnement logique, comptage et planification sémantique. Son intérêt est de tester non seulement la fluidité de la génération, mais aussi la capacité à contrôler précisément le contenu produit.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Princeton University (et collaborateurs) |
| Capacités mesurées | Generation contrainte, comprehension du langage, raisonnement logique, comptage, planification semantique |
| Modalité | Texte |
| Type de questions | Generation de texte sous contraintes compositionnelles (mot, phrase, paragraphe, passage) |
| Métrique d'évaluation | Satisfaction des contraintes (verification automatique) |
| Accès | Public |
| Langues | anglais |
| Taille du jeu | COLLIE-v1 : 2 080 instances, 13 structures de contraintes |
| Année de publication | 2023 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5 | OpenAI | 99,0 % | 7 août 2025 | Auto-déclaré |
| 2 | o3-mini | OpenAI | 98,7 % | 30 janvier 2025 | Auto-déclaré |
| 3 | o3 | OpenAI | 98,4 % | 16 avril 2025 | Auto-déclaré |
| 4 | Mistral Medium 3.5 | Mistral AI | 95,8 % | 29 avril 2026 | Auto-déclaré |
| 5 | GPT-5.4 | OpenAI | 72,3 % | 5 mars 2026 | Auto-déclaré |
| 6 | GPT-4.1 | OpenAI | 65,8 % | 14 avril 2025 | Auto-déclaré |
| 7 | Mistral Small 4 | Mistral AI | 62,9 % | 16 mars 2026 | Auto-déclaré |
| 8 | GPT-4o | OpenAI | 61,0 % | 27 mars 2025 | Auto-déclaré |
| 9 | GPT-4.1 mini | OpenAI | 54,6 % | 14 avril 2025 | Auto-déclaré |
| 10 | GPT-4.1 nano | OpenAI | 42,5 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 69,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur COLLIE indique qu’un modèle respecte correctement des contraintes formelles lors de générations allant du mot au passage. La métrique repose sur une vérification automatique de la satisfaction des contraintes, ce qui apporte une forme de rigueur opérationnelle. L’interprétation du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau atteint par GPT-5 (OpenAI), à 99 %, suggère une possible saturation pour les meilleurs systèmes, tandis que le score médian de 69 % montre que la tâche conserve un pouvoir discriminant sur l’ensemble des modèles évalués. Les limites tiennent aussi à la portée du benchmark : COLLIE couvre l’anglais et des tâches de génération contrainte, sans mesurer directement toutes les compétences générales d’un modèle. Son accès public peut également accroître le risque de contamination. Le classement met surtout en évidence l’écart entre modèles capables de planifier sous contraintes et modèles plus fragiles face à des consignes compositionnelles.
Sources des scores : llm-stats.