OfficeQA Pro

OfficeQA Pro est un benchmark public créé par Databricks pour évaluer des modèles d’IA sur des tâches proches du travail de bureau réel. Il se concentre sur le raisonnement ancré dans des documents d’entreprise, avec des questions qui exigent de relier plusieurs sources plutôt que de…

OfficeQA Pro est un benchmark public créé par Databricks pour évaluer des modèles d’IA sur des tâches proches du travail de bureau réel. Il se concentre sur le raisonnement ancré dans des documents d’entreprise, avec des questions qui exigent de relier plusieurs sources plutôt que de produire une réponse générale.

Le test couvre notamment l’analyse documentaire, le raisonnement sur tableurs et la synthèse d’informations dans des workflows professionnels. Son rôle est de mesurer la capacité d’un modèle à extraire, comparer et vérifier des éléments issus de corpus volumineux, dans un contexte orienté connaissance métier.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkDatabricks
Capacités mesuréesRaisonnement ancré et multi-documents sur des tâches de travail de bureau (analyse documentaire, raisonnement sur tableurs, synthèse d'informations) dans des workflows d'entreprise.
ModalitéTexte
Type de questionsRaisonnement ancré end-to-end sur documents d'entreprise (QA multi-documents)
Métrique d'évaluationExactitude sur réponses vérifiables
AccèsPublic
LanguesAnglais
Taille du jeu133 questions ; corpus = US Treasury Bulletins (~89 000 pages, >26 millions de valeurs numériques)
Année de publication2026
RessourcesSite / dépôt officiel · Article scientifique

Classement des modèles (top 5)

#ModèleÉditeurScoreSortieFiabilité
1Seed 2.1 Probytedance72,2 %24 juin 2026Auto-déclaré
2Seed 2.1 Turbobytedance71,1 %24 juin 2026Auto-déclaré
3Claude Opus 4.8Anthropic66,2 %28 mai 2026Auto-déclaré
4GPT-5.5OpenAI54,1 %23 avril 2026Auto-déclaré
5MiniMax M3MiniMax45,1 %1 juin 2026Auto-déclaré

Classement établi sur 5 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 66,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur OfficeQA Pro indique une bonne capacité à mener un raisonnement end-to-end fondé sur des documents, avec des réponses vérifiables. Le benchmark valorise donc moins la connaissance encyclopédique que l’aptitude à exploiter des sources denses, à suivre des chaînes de calcul ou de comparaison, et à synthétiser des informations issues de plusieurs documents. L’évaluation repose sur l’exactitude, ce qui donne un signal lisible, mais la fiabilité des résultats doit être interprétée avec prudence car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée du test reste aussi spécifique : corpus en anglais, issu des US Treasury Bulletins, et tâches centrées sur des workflows d’entreprise. Une contamination potentielle ne peut pas être exclue dans un corpus public. Avec un score médian de 66 % sur les modèles suivis et un meilleur résultat à 72 % pour Seed 2.1 Pro, le classement suggère une marge de progression, sans signe évident de saturation complète.


Sources des scores : llm-stats.