Agents & outils

OfficeQA Pro

OfficeQA Pro est un benchmark public créé par Databricks pour évaluer des modèles d’IA sur des tâches proches du travail de bureau réel. Il se concentre sur le raisonnement ancré dans des documents d’entreprise, avec des questions qui exigent de relier plusieurs sources plutôt que de…

Le test couvre notamment l’analyse documentaire, le raisonnement sur tableurs et la synthèse d’informations dans des workflows professionnels. Son rôle est de mesurer la capacité d’un modèle à extraire, comparer et vérifier des éléments issus de corpus volumineux, dans un contexte orienté connaissance métier.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	Databricks
Capacités mesurées	Raisonnement ancré et multi-documents sur des tâches de travail de bureau (analyse documentaire, raisonnement sur tableurs, synthèse d'informations) dans des workflows d'entreprise.
Modalité	Texte
Type de questions	Raisonnement ancré end-to-end sur documents d'entreprise (QA multi-documents)
Métrique d'évaluation	Exactitude sur réponses vérifiables
Accès	Public
Langues	Anglais
Taille du jeu	133 questions ; corpus = US Treasury Bulletins (~89 000 pages, >26 millions de valeurs numériques)
Année de publication	2026
Ressources	Site / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Seed 2.1 Pro	bytedance	72,2 %	24 juin 2026	Auto-déclaré
2	Seed 2.1 Turbo	bytedance	71,1 %	24 juin 2026	Auto-déclaré
3	Claude Opus 4.8	Anthropic	66,2 %	28 mai 2026	Auto-déclaré
4	GPT-5.5	OpenAI	54,1 %	23 avril 2026	Auto-déclaré
5	MiniMax M3	MiniMax	45,1 %	1 juin 2026	Auto-déclaré

Classement établi sur 5 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 66,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OfficeQA Pro indique une bonne capacité à mener un raisonnement end-to-end fondé sur des documents, avec des réponses vérifiables. Le benchmark valorise donc moins la connaissance encyclopédique que l’aptitude à exploiter des sources denses, à suivre des chaînes de calcul ou de comparaison, et à synthétiser des informations issues de plusieurs documents. L’évaluation repose sur l’exactitude, ce qui donne un signal lisible, mais la fiabilité des résultats doit être interprétée avec prudence car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée du test reste aussi spécifique : corpus en anglais, issu des US Treasury Bulletins, et tâches centrées sur des workflows d’entreprise. Une contamination potentielle ne peut pas être exclue dans un corpus public. Avec un score médian de 66 % sur les modèles suivis et un meilleur résultat à 72 % pour Seed 2.1 Pro, le classement suggère une marge de progression, sans signe évident de saturation complète.

Sources des scores : llm-stats.

OfficeQA Pro

Carte d'identité

Classement des modèles (top 5)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench