Graphwalks BFS >128k
Graphwalks BFS >128k est un benchmark d’OpenAI consacré au raisonnement relationnel sur graphe en très long contexte. Il évalue la capacité d’un modèle à exécuter des opérations de type breadth-first search sur des graphes synthétiques composés d’arêtes orientées, avec des contextes…
Graphwalks BFS >128k est un benchmark d’OpenAI consacré au raisonnement relationnel sur graphe en très long contexte. Il évalue la capacité d’un modèle à exécuter des opérations de type breadth-first search sur des graphes synthétiques composés d’arêtes orientées, avec des contextes dépassant 128k tokens.
Ce test sert à isoler une compétence exigeante pour les modèles de langage : maintenir une représentation fiable d’une structure relationnelle étendue, retrouver des nœuds parents et produire l’ensemble attendu malgré la longueur du contexte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Raisonnement relationnel sur graphe (parcours BFS) en tres long contexte (au-dela de 128k tokens) |
| Modalité | Texte |
| Type de questions | Raisonnement sur graphe (BFS et recherche de noeuds parents) en long contexte |
| Métrique d'évaluation | F1 (precision/rappel sur l'ensemble de noeuds attendu) |
| Accès | Public |
| Licence | MIT |
| Langues | Anglais (graphes synthetiques d'aretes orientees) |
| Taille du jeu | 1 150 exemples au total (la variante >128k cible les contextes longs) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 8)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 80,0 % | — | Auto-déclaré |
| 2 | Claude Opus 4.8 | Anthropic | 68,1 % | 28 mai 2026 | Auto-déclaré |
| 3 | Claude Opus 4.6 | Anthropic | 61,5 % | 7 avril 2026 | Auto-déclaré |
| 4 | GPT-5.5 | OpenAI | 45,4 % | 23 avril 2026 | Auto-déclaré |
| 5 | GPT-5.4 | OpenAI | 21,4 % | 5 mars 2026 | Auto-déclaré |
| 6 | GPT-4.1 | OpenAI | 19,0 % | 14 avril 2025 | Auto-déclaré |
| 7 | GPT-4.1 mini | OpenAI | 15,0 % | 14 avril 2025 | Auto-déclaré |
| 8 | GPT-4.1 nano | OpenAI | 2,9 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 8 modèles évalués, dont 8 de grands éditeurs. Score médian de l'ensemble : 33,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Graphwalks BFS >128k indique une bonne capacité à combiner suivi de contexte très long, raisonnement sur graphe et restitution précise d’un ensemble de nœuds, la métrique F1 tenant compte à la fois de la précision et du rappel. Dans la base considérée, l’écart entre le score médian de 33% et le meilleur score, Claude Mythos Preview à 80%, suggère un benchmark encore discriminant plutôt qu’un test saturé. Le classement met donc surtout en évidence les modèles capables de conserver et d’exploiter des relations dispersées dans de très longs contextes.
La lecture des résultats doit rester prudente : les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la comparabilité avec des mesures entièrement reproduites de façon indépendante. La portée du benchmark est également ciblée : il porte sur des graphes synthétiques en anglais et sur des tâches BFS ou de recherche de parents, sans couvrir l’ensemble du raisonnement long contexte. Comme le benchmark est public, un risque de contamination des données d’évaluation ne peut pas être exclu.
Sources des scores : llm-stats.