FACTS Grounding
FACTS Grounding est un benchmark publié en 2024 par Google DeepMind et Google Research pour évaluer la capacité des modèles de langage à produire des réponses longues, exactes et strictement ancrées dans un contexte fourni.
FACTS Grounding est un benchmark publié en 2024 par Google DeepMind et Google Research pour évaluer la capacité des modèles de langage à produire des réponses longues, exactes et strictement ancrées dans un contexte fourni.
Il cible un cas d’usage central des assistants IA : répondre à partir de documents volumineux sans halluciner ni mobiliser de connaissance externe. Le benchmark sert ainsi à mesurer la factualité opérationnelle des modèles lorsqu’ils doivent exploiter un contexte long et restituer une réponse détaillée.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Google DeepMind & Google Research |
| Capacités mesurées | Factualité et ancrage (grounding) : générer des réponses exactes fondées sur un contexte long fourni, sans hallucination ni connaissance externe |
| Modalité | Texte |
| Type de questions | Génération de réponse longue ancrée (grounding) dans un document fourni |
| Métrique d'évaluation | Jugement automatique par ensemble de LLM juges (factualité), score moyen |
| Accès | Public |
| Licence | CC-BY-4.0 (split public) |
| Langues | Anglais |
| Taille du jeu | 1 719 exemples (860 publics + 859 privés), documents jusqu'à 32k tokens (~20 000 mots) |
| Année de publication | 2024 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 13)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Gemini 2.5 Pro Preview 06-05 | 87,8 % | 5 juin 2025 | Auto-déclaré | |
| 2 | Gemini 2.5 Flash | 85,3 % | 20 mai 2025 | Auto-déclaré | |
| 3 | Gemini 2.5 Flash-Lite | 84,1 % | 17 juin 2025 | Auto-déclaré | |
| 4 | Gemini 2.0 Flash | 83,6 % | 21 janvier 2025 | Auto-déclaré | |
| 5 | Gemini 2.0 Flash-Lite | 83,6 % | 5 février 2025 | Auto-déclaré | |
| 6 | Gemma 3 12B | 75,8 % | 12 mars 2025 | Auto-déclaré | |
| 7 | Gemma 3 27B | 74,9 % | 12 mars 2025 | Auto-déclaré | |
| 8 | Gemini 3 Pro | 70,5 % | 18 novembre 2025 | Auto-déclaré | |
| 9 | Gemma 3 4B | 70,1 % | 12 mars 2025 | Auto-déclaré | |
| 10 | Gemini 3 Flash | 61,9 % | 17 décembre 2025 | Auto-déclaré | |
| 11 | GLM-5V-Turbo | Zhipu AI | 58,6 % | 2 avril 2026 | Auto-déclaré |
| 12 | Gemini 3.1 Flash-Lite | 40,6 % | 3 mars 2026 | Auto-déclaré | |
| 13 | Gemma 3 1B | 36,4 % | 12 mars 2025 | Auto-déclaré |
Classement établi sur 13 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 74,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur FACTS Grounding indique qu’un modèle parvient généralement à formuler des réponses longues cohérentes avec le document fourni, avec peu d’affirmations non étayées. L’évaluation repose sur un jugement automatique par ensemble de LLM juges, ce qui permet de traiter des réponses ouvertes, mais introduit une dépendance à la qualité et aux biais des juges. Les scores de la base étant majoritairement auto-déclarés par les éditeurs, leur comparabilité doit être interprétée avec prudence.
- Portée : le benchmark mesure l’ancrage factuel en anglais sur documents longs, pas le raisonnement général, le multilingue ni l’usage d’outils.
- Contamination : le split public sous licence CC-BY-4.0 peut être exposé aux modèles, tandis que le split privé limite partiellement ce risque.
- Classement : le meilleur score atteint 88 %, contre une médiane de 75 %, ce qui suggère encore une marge de progression. Toutefois, 12 des 13 modèles classés sont édités par Google, également co-développeur du benchmark, ce qui limite son indépendance pour comparer Google à d’autres éditeurs.
Sources des scores : llm-stats.