Vision & multimodal

Graphwalks parents <128k

Graphwalks parents <128k est un benchmark de raisonnement sur graphe en contexte long créé par OpenAI. Il évalue la capacité d’un modèle à retrouver les nœuds parents d’un nœud donné, c’est-à-dire les nœuds reliés à lui par une arête entrante, dans un graphe encodé sur une longue séquence.

Le test cible la compréhension de structures relationnelles plutôt que la simple récupération de texte. Il sert à mesurer si un modèle peut suivre des relations d’arêtes et produire un ensemble de réponses cohérent lorsque le contexte reste inférieur à 128k tokens.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Raisonnement structurel sur graphe en contexte long : recherche des parents d'un nœud, compréhension des relations d'arêtes (<128k tokens)
Modalité	Texte
Type de questions	Identification des nœuds parents (nœuds ayant une arête vers un nœud donné) sur un graphe encodé en contexte long
Métrique d'évaluation	F1 (précision/rappel sur les ensembles de nœuds prédits vs attendus)
Accès	Public
Licence	MIT
Langues	Anglais (graphes en hachages hexadécimaux)
Taille du jeu	1 150 exemples au total (BFS + parents) ; cette entrée = sous-ensemble <128k tokens de contexte
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 10)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	GPT-5.4	OpenAI	89,8 %	5 mars 2026	Auto-déclaré
2	GPT-5.2	OpenAI	89,0 %	11 décembre 2025	Auto-déclaré
3	GPT-5	OpenAI	73,3 %	7 août 2025	Auto-déclaré
4	GPT-5.4 mini	OpenAI	71,5 %	17 mars 2026	Auto-déclaré
5	GPT-4.1 mini	OpenAI	60,5 %	14 avril 2025	Auto-déclaré
6	o3-mini	OpenAI	58,3 %	30 janvier 2025	Auto-déclaré
7	GPT-4.1	OpenAI	58,0 %	14 avril 2025	Auto-déclaré
8	GPT-5.4 nano	OpenAI	50,8 %	17 mars 2026	Auto-déclaré
9	GPT-4o	OpenAI	35,4 %	27 mars 2025	Auto-déclaré
10	GPT-4.1 nano	OpenAI	9,4 %	14 avril 2025	Auto-déclaré

Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 59,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé sur Graphwalks parents <128k indique une bonne capacité à identifier précisément les parents attendus d’un nœud, avec un équilibre entre précision et rappel mesuré par le F1. Le benchmark est donc utile pour observer le raisonnement structurel en contexte long, notamment lorsque l’information pertinente est dispersée dans une représentation de graphe en hachages hexadécimaux.

La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement indépendante. La portée reste aussi spécialisée : ce test ne mesure ni les connaissances générales, ni le codage, ni le raisonnement mathématique large. Le classement disponible montre une forte domination des modèles OpenAI, avec GPT-5.4 en tête, mais les 10 modèles classés proviennent tous d’OpenAI, également créateur du benchmark. Cette absence d’indépendance réduit sa valeur pour comparer les modèles OpenAI à ceux d’autres éditeurs.

Sources des scores : llm-stats.

Graphwalks parents <128k

Carte d'identité

Classement des modèles (top 10)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench