Recherche & embeddings

FACTS Grounding

FACTS Grounding est un benchmark publié en 2024 par Google DeepMind et Google Research pour évaluer la capacité des modèles de langage à produire des réponses longues, exactes et strictement ancrées dans un contexte fourni.

Il cible un cas d’usage central des assistants IA : répondre à partir de documents volumineux sans halluciner ni mobiliser de connaissance externe. Le benchmark sert ainsi à mesurer la factualité opérationnelle des modèles lorsqu’ils doivent exploiter un contexte long et restituer une réponse détaillée.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Google DeepMind & Google Research
Capacités mesurées	Factualité et ancrage (grounding) : générer des réponses exactes fondées sur un contexte long fourni, sans hallucination ni connaissance externe
Modalité	Texte
Type de questions	Génération de réponse longue ancrée (grounding) dans un document fourni
Métrique d'évaluation	Jugement automatique par ensemble de LLM juges (factualité), score moyen
Accès	Public
Licence	CC-BY-4.0 (split public)
Langues	Anglais
Taille du jeu	1 719 exemples (860 publics + 859 privés), documents jusqu'à 32k tokens (~20 000 mots)
Année de publication	2024
Ressources	Site / dépôt officiel

Classement des modèles (top 13)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Gemini 2.5 Pro Preview 06-05	Google	87,8 %	5 juin 2025	Auto-déclaré
2	Gemini 2.5 Flash	Google	85,3 %	20 mai 2025	Auto-déclaré
3	Gemini 2.5 Flash-Lite	Google	84,1 %	17 juin 2025	Auto-déclaré
4	Gemini 2.0 Flash	Google	83,6 %	21 janvier 2025	Auto-déclaré
5	Gemini 2.0 Flash-Lite	Google	83,6 %	5 février 2025	Auto-déclaré
6	Gemma 3 12B	Google	75,8 %	12 mars 2025	Auto-déclaré
7	Gemma 3 27B	Google	74,9 %	12 mars 2025	Auto-déclaré
8	Gemini 3 Pro	Google	70,5 %	18 novembre 2025	Auto-déclaré
9	Gemma 3 4B	Google	70,1 %	12 mars 2025	Auto-déclaré
10	Gemini 3 Flash	Google	61,9 %	17 décembre 2025	Auto-déclaré
11	GLM-5V-Turbo	Zhipu AI	58,6 %	2 avril 2026	Auto-déclaré
12	Gemini 3.1 Flash-Lite	Google	40,6 %	3 mars 2026	Auto-déclaré
13	Gemma 3 1B	Google	36,4 %	12 mars 2025	Auto-déclaré

Classement établi sur 13 modèles évalués, dont 12 de grands éditeurs. Score médian de l'ensemble : 74,9 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur FACTS Grounding indique qu’un modèle parvient généralement à formuler des réponses longues cohérentes avec le document fourni, avec peu d’affirmations non étayées. L’évaluation repose sur un jugement automatique par ensemble de LLM juges, ce qui permet de traiter des réponses ouvertes, mais introduit une dépendance à la qualité et aux biais des juges. Les scores de la base étant majoritairement auto-déclarés par les éditeurs, leur comparabilité doit être interprétée avec prudence.

Portée : le benchmark mesure l’ancrage factuel en anglais sur documents longs, pas le raisonnement général, le multilingue ni l’usage d’outils.
Contamination : le split public sous licence CC-BY-4.0 peut être exposé aux modèles, tandis que le split privé limite partiellement ce risque.
Classement : le meilleur score atteint 88 %, contre une médiane de 75 %, ce qui suggère encore une marge de progression. Toutefois, 12 des 13 modèles classés sont édités par Google, également co-développeur du benchmark, ce qui limite son indépendance pour comparer Google à d’autres éditeurs.

Sources des scores : llm-stats.

FACTS Grounding

Carte d'identité

Classement des modèles (top 13)

Notre analyse

À lire ensuite

ZEROBench

ZEROBench-Sub

WMT23