OfficeQA Pro
OfficeQA Pro est un benchmark public créé par Databricks pour évaluer des modèles d’IA sur des tâches proches du travail de bureau réel. Il se concentre sur le raisonnement ancré dans des documents d’entreprise, avec des questions qui exigent de relier plusieurs sources plutôt que de…
OfficeQA Pro est un benchmark public créé par Databricks pour évaluer des modèles d’IA sur des tâches proches du travail de bureau réel. Il se concentre sur le raisonnement ancré dans des documents d’entreprise, avec des questions qui exigent de relier plusieurs sources plutôt que de produire une réponse générale.
Le test couvre notamment l’analyse documentaire, le raisonnement sur tableurs et la synthèse d’informations dans des workflows professionnels. Son rôle est de mesurer la capacité d’un modèle à extraire, comparer et vérifier des éléments issus de corpus volumineux, dans un contexte orienté connaissance métier.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | Databricks |
| Capacités mesurées | Raisonnement ancré et multi-documents sur des tâches de travail de bureau (analyse documentaire, raisonnement sur tableurs, synthèse d'informations) dans des workflows d'entreprise. |
| Modalité | Texte |
| Type de questions | Raisonnement ancré end-to-end sur documents d'entreprise (QA multi-documents) |
| Métrique d'évaluation | Exactitude sur réponses vérifiables |
| Accès | Public |
| Langues | Anglais |
| Taille du jeu | 133 questions ; corpus = US Treasury Bulletins (~89 000 pages, >26 millions de valeurs numériques) |
| Année de publication | 2026 |
| Ressources | Site / dépôt officiel · Article scientifique |
Classement des modèles (top 5)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Seed 2.1 Pro | bytedance | 72,2 % | 24 juin 2026 | Auto-déclaré |
| 2 | Seed 2.1 Turbo | bytedance | 71,1 % | 24 juin 2026 | Auto-déclaré |
| 3 | Claude Opus 4.8 | Anthropic | 66,2 % | 28 mai 2026 | Auto-déclaré |
| 4 | GPT-5.5 | OpenAI | 54,1 % | 23 avril 2026 | Auto-déclaré |
| 5 | MiniMax M3 | MiniMax | 45,1 % | 1 juin 2026 | Auto-déclaré |
Classement établi sur 5 modèles évalués, dont 2 de grands éditeurs. Score médian de l'ensemble : 66,2 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur OfficeQA Pro indique une bonne capacité à mener un raisonnement end-to-end fondé sur des documents, avec des réponses vérifiables. Le benchmark valorise donc moins la connaissance encyclopédique que l’aptitude à exploiter des sources denses, à suivre des chaînes de calcul ou de comparaison, et à synthétiser des informations issues de plusieurs documents. L’évaluation repose sur l’exactitude, ce qui donne un signal lisible, mais la fiabilité des résultats doit être interprétée avec prudence car les scores disponibles sont majoritairement auto-déclarés par les éditeurs. La portée du test reste aussi spécifique : corpus en anglais, issu des US Treasury Bulletins, et tâches centrées sur des workflows d’entreprise. Une contamination potentielle ne peut pas être exclue dans un corpus public. Avec un score médian de 66 % sur les modèles suivis et un meilleur résultat à 72 % pour Seed 2.1 Pro, le classement suggère une marge de progression, sans signe évident de saturation complète.
Sources des scores : llm-stats.