FACTS Grounding

FACTS Grounding est un benchmark publié en 2024 par Google DeepMind et Google Research pour évaluer la capacité des modèles de langage à produire des réponses longues, exactes et strictement ancrées dans un contexte fourni.

FACTS Grounding est un benchmark publié en 2024 par Google DeepMind et Google Research pour évaluer la capacité des modèles de langage à produire des réponses longues, exactes et strictement ancrées dans un contexte fourni.

Il cible un cas d’usage central des assistants IA : répondre à partir de documents volumineux sans halluciner ni mobiliser de connaissance externe. Le benchmark sert ainsi à mesurer la factualité opérationnelle des modèles lorsqu’ils doivent exploiter un contexte long et restituer une réponse détaillée.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkGoogle DeepMind & Google Research
Capacités mesuréesFactualité et ancrage (grounding) : générer des réponses exactes fondées sur un contexte long fourni, sans hallucination ni connaissance externe
ModalitéTexte
Type de questionsGénération de réponse longue ancrée (grounding) dans un document fourni
Métrique d'évaluationJugement automatique par ensemble de LLM juges (factualité), score moyen
AccèsPublic
LicenceCC-BY-4.0 (split public)
LanguesAnglais
Taille du jeu1 719 exemples (860 publics + 859 privés), documents jusqu'à 32k tokens (~20 000 mots)
Année de publication2024
RessourcesSite / dépôt officiel

Classement des modèles (top 13)

#ModèleÉditeurScoreSortieFiabilité
1Gemini 2.5 Pro Preview 06-05Google87,8 %5 juin 2025Auto-déclaré
2Gemini 2.5 FlashGoogle85,3 %20 mai 2025Auto-déclaré
3Gemini 2.5 Flash-LiteGoogle84,1 %17 juin 2025Auto-déclaré
4Gemini 2.0 FlashGoogle83,6 %21 janvier 2025Auto-déclaré
5Gemini 2.0 Flash-LiteGoogle83,6 %5 février 2025Auto-déclaré
6Gemma 3 12BGoogle75,8 %12 mars 2025Auto-déclaré
7Gemma 3 27BGoogle74,9 %12 mars 2025Auto-déclaré
8Gemini 3 ProGoogle70,5 %18 novembre 2025Auto-déclaré
9Gemma 3 4BGoogle70,1 %12 mars 2025Auto-déclaré
10Gemini 3 FlashGoogle61,9 %17 décembre 2025Auto-déclaré
11GLM-5V-TurboZhipu AI58,6 %2 avril 2026Auto-déclaré
12Gemini 3.1 Flash-LiteGoogle40,6 %3 mars 2026Auto-déclaré
13Gemma 3 1BGoogle36,4 %12 mars 2025Auto-déclaré

Classement établi sur 13 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 74,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur FACTS Grounding indique qu’un modèle parvient généralement à formuler des réponses longues cohérentes avec le document fourni, avec peu d’affirmations non étayées. L’évaluation repose sur un jugement automatique par ensemble de LLM juges, ce qui permet de traiter des réponses ouvertes, mais introduit une dépendance à la qualité et aux biais des juges. Les scores de la base étant majoritairement auto-déclarés par les éditeurs, leur comparabilité doit être interprétée avec prudence.

  • Portée : le benchmark mesure l’ancrage factuel en anglais sur documents longs, pas le raisonnement général, le multilingue ni l’usage d’outils.
  • Contamination : le split public sous licence CC-BY-4.0 peut être exposé aux modèles, tandis que le split privé limite partiellement ce risque.
  • Classement : le meilleur score atteint 88 %, contre une médiane de 75 %, ce qui suggère encore une marge de progression. Toutefois, 12 des 13 modèles classés sont édités par Google, également co-développeur du benchmark, ce qui limite son indépendance pour comparer Google à d’autres éditeurs.

Sources des scores : llm-stats.