COLLIE

COLLIE est un benchmark consacré à la génération de texte sous contraintes compositionnelles. Créé par Princeton University et des collaborateurs, il repose sur un cadre grammatical permettant de construire systématiquement des tâches où un modèle doit produire du texte tout en…

COLLIE est un benchmark consacré à la génération de texte sous contraintes compositionnelles. Créé par Princeton University et des collaborateurs, il repose sur un cadre grammatical permettant de construire systématiquement des tâches où un modèle doit produire du texte tout en respectant des règles explicites.

Le benchmark évalue plusieurs dimensions utiles pour les modèles génératifs : respect de contraintes, compréhension du langage, raisonnement logique, comptage et planification sémantique. Son intérêt est de tester non seulement la fluidité de la génération, mais aussi la capacité à contrôler précisément le contenu produit.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkPrinceton University (et collaborateurs)
Capacités mesuréesGeneration contrainte, comprehension du langage, raisonnement logique, comptage, planification semantique
ModalitéTexte
Type de questionsGeneration de texte sous contraintes compositionnelles (mot, phrase, paragraphe, passage)
Métrique d'évaluationSatisfaction des contraintes (verification automatique)
AccèsPublic
Languesanglais
Taille du jeuCOLLIE-v1 : 2 080 instances, 13 structures de contraintes
Année de publication2023
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5OpenAI99,0 %7 août 2025Auto-déclaré
2o3-miniOpenAI98,7 %30 janvier 2025Auto-déclaré
3o3OpenAI98,4 %16 avril 2025Auto-déclaré
4Mistral Medium 3.5Mistral AI95,8 %29 avril 2026Auto-déclaré
5GPT-5.4OpenAI72,3 %5 mars 2026Auto-déclaré
6GPT-4.1OpenAI65,8 %14 avril 2025Auto-déclaré
7Mistral Small 4Mistral AI62,9 %16 mars 2026Auto-déclaré
8GPT-4oOpenAI61,0 %27 mars 2025Auto-déclaré
9GPT-4.1 miniOpenAI54,6 %14 avril 2025Auto-déclaré
10GPT-4.1 nanoOpenAI42,5 %14 avril 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 69,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur COLLIE indique qu’un modèle respecte correctement des contraintes formelles lors de générations allant du mot au passage. La métrique repose sur une vérification automatique de la satisfaction des contraintes, ce qui apporte une forme de rigueur opérationnelle. L’interprétation du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau atteint par GPT-5 (OpenAI), à 99 %, suggère une possible saturation pour les meilleurs systèmes, tandis que le score médian de 69 % montre que la tâche conserve un pouvoir discriminant sur l’ensemble des modèles évalués. Les limites tiennent aussi à la portée du benchmark : COLLIE couvre l’anglais et des tâches de génération contrainte, sans mesurer directement toutes les compétences générales d’un modèle. Son accès public peut également accroître le risque de contamination. Le classement met surtout en évidence l’écart entre modèles capables de planifier sous contraintes et modèles plus fragiles face à des consignes compositionnelles.


Sources des scores : llm-stats.