Langage & rédaction

COLLIE

COLLIE est un benchmark consacré à la génération de texte sous contraintes compositionnelles. Créé par Princeton University et des collaborateurs, il repose sur un cadre grammatical permettant de construire systématiquement des tâches où un modèle doit produire du texte tout en…

Le benchmark évalue plusieurs dimensions utiles pour les modèles génératifs : respect de contraintes, compréhension du langage, raisonnement logique, comptage et planification sémantique. Son intérêt est de tester non seulement la fluidité de la génération, mais aussi la capacité à contrôler précisément le contenu produit.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Princeton University (et collaborateurs)
Capacités mesurées	Generation contrainte, comprehension du langage, raisonnement logique, comptage, planification semantique
Modalité	Texte
Type de questions	Generation de texte sous contraintes compositionnelles (mot, phrase, paragraphe, passage)
Métrique d'évaluation	Satisfaction des contraintes (verification automatique)
Accès	Public
Langues	anglais
Taille du jeu	COLLIE-v1 : 2 080 instances, 13 structures de contraintes
Année de publication	2023
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5	OpenAI	99,0 %	7 août 2025	Auto-déclaré
2	o3-mini	OpenAI	98,7 %	30 janvier 2025	Auto-déclaré
3	o3	OpenAI	98,4 %	16 avril 2025	Auto-déclaré
4	Mistral Medium 3.5	Mistral AI	95,8 %	29 avril 2026	Auto-déclaré
5	GPT-5.4	OpenAI	72,3 %	5 mars 2026	Auto-déclaré
6	GPT-4.1	OpenAI	65,8 %	14 avril 2025	Auto-déclaré
7	Mistral Small 4	Mistral AI	62,9 %	16 mars 2026	Auto-déclaré
8	GPT-4o	OpenAI	61,0 %	27 mars 2025	Auto-déclaré
9	GPT-4.1 mini	OpenAI	54,6 %	14 avril 2025	Auto-déclaré
10	GPT-4.1 nano	OpenAI	42,5 %	14 avril 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 69,0 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur COLLIE indique qu’un modèle respecte correctement des contraintes formelles lors de générations allant du mot au passage. La métrique repose sur une vérification automatique de la satisfaction des contraintes, ce qui apporte une forme de rigueur opérationnelle. L’interprétation du classement reste toutefois prudente, car les scores disponibles dans la base sont majoritairement auto-déclarés par les éditeurs. Le niveau atteint par GPT-5 (OpenAI), à 99 %, suggère une possible saturation pour les meilleurs systèmes, tandis que le score médian de 69 % montre que la tâche conserve un pouvoir discriminant sur l’ensemble des modèles évalués. Les limites tiennent aussi à la portée du benchmark : COLLIE couvre l’anglais et des tâches de génération contrainte, sans mesurer directement toutes les compétences générales d’un modèle. Son accès public peut également accroître le risque de contamination. Le classement met surtout en évidence l’écart entre modèles capables de planifier sous contraintes et modèles plus fragiles face à des consignes compositionnelles.

Sources des scores : llm-stats.

COLLIE

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench