Graphwalks parents >128k
Graphwalks parents >128k est un benchmark d’OpenAI consacré au raisonnement sur des graphes encodés dans de très longs contextes. Il demande aux modèles d’identifier des nœuds parents à partir de structures représentées par des hashes hexadécimaux, avec des tâches nécessitant plusieurs…
Graphwalks parents >128k est un benchmark d’OpenAI consacré au raisonnement sur des graphes encodés dans de très longs contextes. Il demande aux modèles d’identifier des nœuds parents à partir de structures représentées par des hashes hexadécimaux, avec des tâches nécessitant plusieurs sauts de raisonnement.
Le test évalue la capacité à maintenir et exploiter une structure de graphe au-delà de 128k tokens, notamment via des parcours de type BFS. Il sert à distinguer les modèles capables de raisonner dans un contexte long, au-delà de la simple récupération d’information.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Raisonnement en contexte long sur structure de graphe, identification des nœuds parents, parcours en largeur (BFS) sur graphes encodés dans le contexte |
| Modalité | Texte |
| Type de questions | raisonnement multi-sauts sur graphe (génération de la liste des nœuds) |
| Métrique d'évaluation | score F1 (précision/rappel sur l'ensemble des nœuds) |
| Accès | Public |
| Licence | MIT |
| Langues | anglais (graphes encodés en hash hexadécimaux) |
| Taille du jeu | ~1150 problèmes au total (tâche "parents", contexte >128k) |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 7)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Anthropic | 95,4 % | 7 avril 2026 | Auto-déclaré |
| 2 | Claude Opus 4.8 | Anthropic | 83,3 % | 28 mai 2026 | Auto-déclaré |
| 3 | GPT-5.5 | OpenAI | 58,5 % | 23 avril 2026 | Auto-déclaré |
| 4 | GPT-5.4 | OpenAI | 32,4 % | 5 mars 2026 | Auto-déclaré |
| 5 | GPT-4.1 | OpenAI | 25,0 % | 14 avril 2025 | Auto-déclaré |
| 6 | GPT-4.1 mini | OpenAI | 11,0 % | 14 avril 2025 | Auto-déclaré |
| 7 | GPT-4.1 nano | OpenAI | 5,6 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 7 modèles évalués, dont 7 de grands éditeurs. Score médian de l'ensemble : 32,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé indique une bonne combinaison de rappel et de précision dans la génération de l’ensemble des nœuds attendus. Sur ce benchmark, la métrique F1 pénalise à la fois les omissions et les ajouts, ce qui rend la réussite dépendante d’un suivi fiable de la structure du graphe sur un contexte très étendu. Les résultats doivent toutefois être interprétés avec prudence, car la fiabilité des scores est majoritairement auto-déclarée par les éditeurs, ce qui limite la comparabilité avec une évaluation entièrement indépendante. Le classement observé suggère un écart marqué entre le meilleur modèle, Claude Opus 4.6, et la performance médiane des modèles suivis dans la base. La portée reste spécialisée : Graphwalks parents >128k mesure un raisonnement graphé en anglais sur des encodages artificiels, pas une compétence générale de compréhension. Comme pour tout benchmark public, la contamination potentielle et une future saturation doivent aussi être surveillées.
Sources des scores : llm-stats.