Graphwalks parents <128k

Graphwalks parents <128k est un benchmark de raisonnement sur graphe en contexte long créé par OpenAI. Il évalue la capacité d’un modèle à retrouver les nœuds parents d’un nœud donné, c’est-à-dire les nœuds reliés à lui par une arête entrante, dans un graphe encodé sur une longue séquence.

Graphwalks parents <128k est un benchmark de raisonnement sur graphe en contexte long créé par OpenAI. Il évalue la capacité d’un modèle à retrouver les nœuds parents d’un nœud donné, c’est-à-dire les nœuds reliés à lui par une arête entrante, dans un graphe encodé sur une longue séquence.

Le test cible la compréhension de structures relationnelles plutôt que la simple récupération de texte. Il sert à mesurer si un modèle peut suivre des relations d’arêtes et produire un ensemble de réponses cohérent lorsque le contexte reste inférieur à 128k tokens.

Carte d'identité

CaractéristiqueValeur
Éditeur du benchmarkOpenAI
Capacités mesuréesRaisonnement structurel sur graphe en contexte long : recherche des parents d'un nœud, compréhension des relations d'arêtes (<128k tokens)
ModalitéTexte
Type de questionsIdentification des nœuds parents (nœuds ayant une arête vers un nœud donné) sur un graphe encodé en contexte long
Métrique d'évaluationF1 (précision/rappel sur les ensembles de nœuds prédits vs attendus)
AccèsPublic
LicenceMIT
LanguesAnglais (graphes en hachages hexadécimaux)
Taille du jeu1 150 exemples au total (BFS + parents) ; cette entrée = sous-ensemble <128k tokens de contexte
Année de publication2025
RessourcesSite / dépôt officiel

Classement des modèles (top 10)

#ModèleÉditeurScoreSortieFiabilité
1GPT-5.4OpenAI89,8 %5 mars 2026Auto-déclaré
2GPT-5.2OpenAI89,0 %11 décembre 2025Auto-déclaré
3GPT-5OpenAI73,3 %7 août 2025Auto-déclaré
4GPT-5.4 miniOpenAI71,5 %17 mars 2026Auto-déclaré
5GPT-4.1 miniOpenAI60,5 %14 avril 2025Auto-déclaré
6o3-miniOpenAI58,3 %30 janvier 2025Auto-déclaré
7GPT-4.1OpenAI58,0 %14 avril 2025Auto-déclaré
8GPT-5.4 nanoOpenAI50,8 %17 mars 2026Auto-déclaré
9GPT-4oOpenAI35,4 %27 mars 2025Auto-déclaré
10GPT-4.1 nanoOpenAI9,4 %14 avril 2025Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 59,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Graphwalks parents <128k indique une bonne capacité à identifier précisément les parents attendus d’un nœud, avec un équilibre entre précision et rappel mesuré par le F1. Le benchmark est donc utile pour observer le raisonnement structurel en contexte long, notamment lorsque l’information pertinente est dispersée dans une représentation de graphe en hachages hexadécimaux.

La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement indépendante. La portée reste aussi spécialisée : ce test ne mesure ni les connaissances générales, ni le codage, ni le raisonnement mathématique large. Le classement disponible montre une forte domination des modèles OpenAI, avec GPT-5.4 en tête, mais les 10 modèles classés proviennent tous d’OpenAI, également créateur du benchmark. Cette absence d’indépendance réduit sa valeur pour comparer les modèles OpenAI à ceux d’autres éditeurs.


Sources des scores : llm-stats.