Graphwalks parents >128k

Graphwalks parents >128k est un benchmark d’OpenAI consacré au raisonnement sur des graphes encodés dans de très longs contextes. Il demande aux modèles d’identifier des nœuds parents à partir de structures représentées par des hashes hexadécimaux, avec des tâches nécessitant plusieurs…

Graphwalks parents >128k est un benchmark d’OpenAI consacré au raisonnement sur des graphes encodés dans de très longs contextes. Il demande aux modèles d’identifier des nœuds parents à partir de structures représentées par des hashes hexadécimaux, avec des tâches nécessitant plusieurs sauts de raisonnement.

Le test évalue la capacité à maintenir et exploiter une structure de graphe au-delà de 128k tokens, notamment via des parcours de type BFS. Il sert à distinguer les modèles capables de raisonner dans un contexte long, au-delà de la simple récupération d’information.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesRaisonnement en contexte long sur structure de graphe, identification des nœuds parents, parcours en largeur (BFS) sur graphes encodés dans le contexte
ModalitéTexte
Type de questionsraisonnement multi-sauts sur graphe (génération de la liste des nœuds)
Métrique d'évaluationscore F1 (précision/rappel sur l'ensemble des nœuds)
AccèsPublic
LicenceMIT
Languesanglais (graphes encodés en hash hexadécimaux)
Taille du jeu~1150 problèmes au total (tâche "parents", contexte >128k)
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 7)

#ModèleÉditeurScoreSortieFiabilité
1Claude Opus 4.6Anthropic95,4 %7 avril 2026Auto-déclaré
2Claude Opus 4.8Anthropic83,3 %28 mai 2026Auto-déclaré
3GPT-5.5OpenAI58,5 %23 avril 2026Auto-déclaré
4GPT-5.4OpenAI32,4 %5 mars 2026Auto-déclaré
5GPT-4.1OpenAI25,0 %14 avril 2025Auto-déclaré
6GPT-4.1 miniOpenAI11,0 %14 avril 2025Auto-déclaré
7GPT-4.1 nanoOpenAI5,6 %14 avril 2025Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 32,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé indique une bonne combinaison de rappel et de précision dans la génération de l’ensemble des nœuds attendus. Sur ce benchmark, la métrique F1 pénalise à la fois les omissions et les ajouts, ce qui rend la réussite dépendante d’un suivi fiable de la structure du graphe sur un contexte très étendu. Les résultats doivent toutefois être interprétés avec prudence, car la fiabilité des scores est majoritairement auto-déclarée par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le classement observé suggère un écart marqué entre le meilleur modèle, Claude Opus 4.6, et la performance médiane des modèles suivis dans la base. La portée reste spécialisée : Graphwalks parents >128k mesure un raisonnement graphé en anglais sur des encodages artificiels, pas une compétence générale de compréhension. Comme pour tout benchmark public, la contamination potentielle et une future saturation doivent aussi être surveillées.


Sources des scores : llm-stats.