Vision & multimodal

Graphwalks parents >128k

Graphwalks parents >128k est un benchmark d’OpenAI consacré au raisonnement sur des graphes encodés dans de très longs contextes. Il demande aux modèles d’identifier des nœuds parents à partir de structures représentées par des hashes hexadécimaux, avec des tâches nécessitant plusieurs…

Le test évalue la capacité à maintenir et exploiter une structure de graphe au-delà de 128k tokens, notamment via des parcours de type BFS. Il sert à distinguer les modèles capables de raisonner dans un contexte long, au-delà de la simple récupération d’information.

Carte d'identité

Caractéristique	Valeur
Éditeur du benchmark	OpenAI
Capacités mesurées	Raisonnement en contexte long sur structure de graphe, identification des nœuds parents, parcours en largeur (BFS) sur graphes encodés dans le contexte
Modalité	Texte
Type de questions	raisonnement multi-sauts sur graphe (génération de la liste des nœuds)
Métrique d'évaluation	score F1 (précision/rappel sur l'ensemble des nœuds)
Accès	Public
Licence	MIT
Langues	anglais (graphes encodés en hash hexadécimaux)
Taille du jeu	~1150 problèmes au total (tâche "parents", contexte >128k)
Année de publication	2025
Ressources	Site / dépôt officiel

Classement des modèles (top 7)

#	Modèle	Éditeur	Score	Sortie	Fiabilité
1	Claude Opus 4.6	Anthropic	95,4 %	7 avril 2026	Auto-déclaré
2	Claude Opus 4.8	Anthropic	83,3 %	28 mai 2026	Auto-déclaré
3	GPT-5.5	OpenAI	58,5 %	23 avril 2026	Auto-déclaré
4	GPT-5.4	OpenAI	32,4 %	5 mars 2026	Auto-déclaré
5	GPT-4.1	OpenAI	25,0 %	14 avril 2025	Auto-déclaré
6	GPT-4.1 mini	OpenAI	11,0 %	14 avril 2025	Auto-déclaré
7	GPT-4.1 nano	OpenAI	5,6 %	14 avril 2025	Auto-déclaré

Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 32,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).

Notre analyse

Un score élevé indique une bonne combinaison de rappel et de précision dans la génération de l’ensemble des nœuds attendus. Sur ce benchmark, la métrique F1 pénalise à la fois les omissions et les ajouts, ce qui rend la réussite dépendante d’un suivi fiable de la structure du graphe sur un contexte très étendu. Les résultats doivent toutefois être interprétés avec prudence, car la fiabilité des scores est majoritairement auto-déclarée par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le classement observé suggère un écart marqué entre le meilleur modèle, Claude Opus 4.6, et la performance médiane des modèles suivis dans la base. La portée reste spécialisée : Graphwalks parents >128k mesure un raisonnement graphé en anglais sur des encodages artificiels, pas une compétence générale de compréhension. Comme pour tout benchmark public, la contamination potentielle et une future saturation doivent aussi être surveillées.

Sources des scores : llm-stats.

Graphwalks parents >128k

Carte d'identité

Classement des modèles (top 7)

Notre analyse

À lire ensuite

ZEROBench-Sub

ZEROBench

WritingBench