Vision & multimodal

Graphwalks BFS <128k

Graphwalks BFS <128k est un benchmark d’OpenAI consacré au raisonnement sur graphe en contexte long. Il évalue la capacité d’un modèle de langage à suivre des relations parent-enfant dans un graphe encodé en anglais sous forme de hachages hexadécimaux, avec des contextes inférieurs à…

La tâche consiste à effectuer un parcours en largeur, ou BFS, et à retourner les nœuds atteignables à une profondeur donnée. Le benchmark sert ainsi à mesurer une compétence structurelle précise, distincte de la simple récupération d’information dans un long contexte.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Raisonnement relationnel/structurel sur graphe en contexte long : suivi de relations parent-enfant à travers le contexte (<128k tokens)
Modalité	Texte
Type de questions	Parcours en largeur (BFS) sur un graphe encodé en contexte long ; retourne les nœuds atteignables à une profondeur donnée
Métrique d'évaluation	F1 (précision/rappel sur les ensembles de nœuds prédits vs attendus)
Accès	Public
Licence	MIT
Langues	Anglais (graphes en hachages hexadécimaux)
Taille du jeu	1 150 exemples au total (BFS + parents) ; cette entrée = sous-ensemble <128k tokens de contexte
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.2	OpenAI	94,0 %	11 décembre 2025	Auto-déclaré
2	GPT-5.4	OpenAI	93,0 %	5 mars 2026	Auto-déclaré
3	GPT-5	OpenAI	78,3 %	7 août 2025	Auto-déclaré
4	GPT-5.4 mini	OpenAI	76,3 %	17 mars 2026	Auto-déclaré
5	GPT-5.4 nano	OpenAI	73,4 %	17 mars 2026	Auto-déclaré
6	GPT-4.1	OpenAI	61,7 %	14 avril 2025	Auto-déclaré
7	GPT-4.1 mini	OpenAI	61,7 %	14 avril 2025	Auto-déclaré
8	o3-mini	OpenAI	51,0 %	30 janvier 2025	Auto-déclaré
9	GPT-4o	OpenAI	41,7 %	27 mars 2025	Auto-déclaré
10	GPT-4.1 nano	OpenAI	25,0 %	14 avril 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 67,5 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Graphwalks BFS <128k indique qu’un modèle parvient à maintenir une représentation fiable de relations de graphe sur un long contexte et à produire un ensemble de nœuds proche de la réponse attendue, selon une mesure F1 combinant précision et rappel. Le résultat ne mesure toutefois qu’un type de raisonnement relationnel, centré sur le BFS et les liens parent-enfant, dans un format artificiel à base de hachages hexadécimaux.

La rigueur dépend en partie de la source des scores, majoritairement auto-déclarés par les éditeurs, ce qui impose une lecture prudente du classement.
La portée reste limitée au sous-ensemble sous 128k tokens et ne suffit pas à conclure sur toutes les formes de raisonnement sur graphe ou de planification.
L’accès public et la licence MIT facilitent la reproductibilité, mais peuvent aussi accroître le risque de contamination des données d’évaluation.
Le classement disponible est fortement non indépendant : les 10 modèles classés sont édités par OpenAI, également créateur du benchmark. Il renseigne donc surtout sur les écarts internes entre modèles OpenAI, plutôt que sur une comparaison neutre avec d’autres éditeurs.

Sources des scores : llm-stats.

Graphwalks BFS <128k

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench