Graphwalks BFS <128k
Graphwalks BFS <128k est un benchmark d’OpenAI consacré au raisonnement sur graphe en contexte long. Il évalue la capacité d’un modèle de langage à suivre des relations parent-enfant dans un graphe encodé en anglais sous forme de hachages hexadécimaux, avec des contextes inférieurs à…
Graphwalks BFS <128k est un benchmark d’OpenAI consacré au raisonnement sur graphe en contexte long. Il évalue la capacité d’un modèle de langage à suivre des relations parent-enfant dans un graphe encodé en anglais sous forme de hachages hexadécimaux, avec des contextes inférieurs à 128k tokens.
La tâche consiste à effectuer un parcours en largeur, ou BFS, et à retourner les nœuds atteignables à une profondeur donnée. Le benchmark sert ainsi à mesurer une compétence structurelle précise, distincte de la simple récupération d’information dans un long contexte.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Raisonnement relationnel/structurel sur graphe en contexte long : suivi de relations parent-enfant à travers le contexte (<128k tokens) |
| Modalité | Texte |
| Type de questions | Parcours en largeur (BFS) sur un graphe encodé en contexte long ; retourne les nœuds atteignables à une profondeur donnée |
| Métrique d'évaluation | F1 (précision/rappel sur les ensembles de nœuds prédits vs attendus) |
| Accès | Public |
| Licence | MIT |
| Langues | Anglais (graphes en hachages hexadécimaux) |
| Taille du jeu | 1 150 exemples au total (BFS + parents) ; cette entrée = sous-ensemble <128k tokens de contexte |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.2 | OpenAI | 94,0 % | 11 décembre 2025 | Auto-déclaré |
| 2 | GPT-5.4 | OpenAI | 93,0 % | 5 mars 2026 | Auto-déclaré |
| 3 | GPT-5 | OpenAI | 78,3 % | 7 août 2025 | Auto-déclaré |
| 4 | GPT-5.4 mini | OpenAI | 76,3 % | 17 mars 2026 | Auto-déclaré |
| 5 | GPT-5.4 nano | OpenAI | 73,4 % | 17 mars 2026 | Auto-déclaré |
| 6 | GPT-4.1 | OpenAI | 61,7 % | 14 avril 2025 | Auto-déclaré |
| 7 | GPT-4.1 mini | OpenAI | 61,7 % | 14 avril 2025 | Auto-déclaré |
| 8 | o3-mini | OpenAI | 51,0 % | 30 janvier 2025 | Auto-déclaré |
| 9 | GPT-4o | OpenAI | 41,7 % | 27 mars 2025 | Auto-déclaré |
| 10 | GPT-4.1 nano | OpenAI | 25,0 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 67,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Graphwalks BFS <128k indique qu’un modèle parvient à maintenir une représentation fiable de relations de graphe sur un long contexte et à produire un ensemble de nœuds proche de la réponse attendue, selon une mesure F1 combinant précision et rappel. Le résultat ne mesure toutefois qu’un type de raisonnement relationnel, centré sur le BFS et les liens parent-enfant, dans un format artificiel à base de hachages hexadécimaux.
- La rigueur dépend en partie de la source des scores, majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement.
- La portée reste limitée au sous-ensemble sous 128k tokens et ne suffit pas à conclure sur toutes les formes de raisonnement sur graphe ou de planification.
- L’accès public et la licence MIT facilitent la reproductibilité, mais peuvent aussi accroître le risque de contamination des données d’évaluation.
- Le classement disponible est fortement non indépendant : les 10 modèles classés sont édités par OpenAI, également créateur du benchmark. Il renseigne donc surtout sur les écarts internes entre modèles OpenAI, plutôt que sur une comparaison neutre avec d’autres éditeurs.
Sources des scores : llm-stats.