Graphwalks BFS <128k

Graphwalks BFS <128k est un benchmark d’OpenAI consacré au raisonnement sur graphe en contexte long. Il évalue la capacité d’un modèle de langage à suivre des relations parent-enfant dans un graphe encodé en anglais sous forme de hachages hexadécimaux, avec des contextes inférieurs à…

Graphwalks BFS <128k est un benchmark d’OpenAI consacré au raisonnement sur graphe en contexte long. Il évalue la capacité d’un modèle de langage à suivre des relations parent-enfant dans un graphe encodé en anglais sous forme de hachages hexadécimaux, avec des contextes inférieurs à 128k tokens.

La tâche consiste à effectuer un parcours en largeur, ou BFS, et à retourner les nœuds atteignables à une profondeur donnée. Le benchmark sert ainsi à mesurer une compétence structurelle précise, distincte de la simple récupération d’information dans un long contexte.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesRaisonnement relationnel/structurel sur graphe en contexte long : suivi de relations parent-enfant à travers le contexte (<128k tokens)
ModalitéTexte
Type de questionsParcours en largeur (BFS) sur un graphe encodé en contexte long ; retourne les nœuds atteignables à une profondeur donnée
Métrique d'évaluationF1 (précision/rappel sur les ensembles de nœuds prédits vs attendus)
AccèsPublic
LicenceMIT
LanguesAnglais (graphes en hachages hexadécimaux)
Taille du jeu1 150 exemples au total (BFS + parents) ; cette entrée = sous-ensemble <128k tokens de contexte
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.2OpenAI94,0 %11 décembre 2025Auto-déclaré
2GPT-5.4OpenAI93,0 %5 mars 2026Auto-déclaré
3GPT-5OpenAI78,3 %7 août 2025Auto-déclaré
4GPT-5.4 miniOpenAI76,3 %17 mars 2026Auto-déclaré
5GPT-5.4 nanoOpenAI73,4 %17 mars 2026Auto-déclaré
6GPT-4.1OpenAI61,7 %14 avril 2025Auto-déclaré
7GPT-4.1 miniOpenAI61,7 %14 avril 2025Auto-déclaré
8o3-miniOpenAI51,0 %30 janvier 2025Auto-déclaré
9GPT-4oOpenAI41,7 %27 mars 2025Auto-déclaré
10GPT-4.1 nanoOpenAI25,0 %14 avril 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 67,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Graphwalks BFS <128k indique qu’un modèle parvient à maintenir une représentation fiable de relations de graphe sur un long contexte et à produire un ensemble de nœuds proche de la réponse attendue, selon une mesure F1 combinant précision et rappel. Le résultat ne mesure toutefois qu’un type de raisonnement relationnel, centré sur le BFS et les liens parent-enfant, dans un format artificiel à base de hachages hexadécimaux.

  • La rigueur dépend en partie de la source des scores, majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement.
  • La portée reste limitée au sous-ensemble sous 128k tokens et ne suffit pas à conclure sur toutes les formes de raisonnement sur graphe ou de planification.
  • L’accès public et la licence MIT facilitent la reproductibilité, mais peuvent aussi accroître le risque de contamination des données d’évaluation.
  • Le classement disponible est fortement non indépendant : les 10 modèles classés sont édités par OpenAI, également créateur du benchmark. Il renseigne donc surtout sur les écarts internes entre modèles OpenAI, plutôt que sur une comparaison neutre avec d’autres éditeurs.

Sources des scores : llm-stats.