Graphwalks parents <128k
Graphwalks parents <128k est un benchmark de raisonnement sur graphe en contexte long créé par OpenAI. Il évalue la capacité d’un modèle à retrouver les nœuds parents d’un nœud donné, c’est-à-dire les nœuds reliés à lui par une arête entrante, dans un graphe encodé sur une longue séquence.
Graphwalks parents <128k est un benchmark de raisonnement sur graphe en contexte long créé par OpenAI. Il évalue la capacité d’un modèle à retrouver les nœuds parents d’un nœud donné, c’est-à-dire les nœuds reliés à lui par une arête entrante, dans un graphe encodé sur une longue séquence.
Le test cible la compréhension de structures relationnelles plutôt que la simple récupération de texte. Il sert à mesurer si un modèle peut suivre des relations d’arêtes et produire un ensemble de réponses cohérent lorsque le contexte reste inférieur à 128k tokens.
Carte d'identité
| Caractéristique | Valeur |
|---|---|
| Éditeur du benchmark | OpenAI |
| Capacités mesurées | Raisonnement structurel sur graphe en contexte long : recherche des parents d'un nœud, compréhension des relations d'arêtes (<128k tokens) |
| Modalité | Texte |
| Type de questions | Identification des nœuds parents (nœuds ayant une arête vers un nœud donné) sur un graphe encodé en contexte long |
| Métrique d'évaluation | F1 (précision/rappel sur les ensembles de nœuds prédits vs attendus) |
| Accès | Public |
| Licence | MIT |
| Langues | Anglais (graphes en hachages hexadécimaux) |
| Taille du jeu | 1 150 exemples au total (BFS + parents) ; cette entrée = sous-ensemble <128k tokens de contexte |
| Année de publication | 2025 |
| Ressources | Site / dépôt officiel |
Classement des modèles (top 10)
| # | Modèle | Éditeur | Score | Sortie | Fiabilité |
|---|---|---|---|---|---|
| 1 | GPT-5.4 | OpenAI | 89,8 % | 5 mars 2026 | Auto-déclaré |
| 2 | GPT-5.2 | OpenAI | 89,0 % | 11 décembre 2025 | Auto-déclaré |
| 3 | GPT-5 | OpenAI | 73,3 % | 7 août 2025 | Auto-déclaré |
| 4 | GPT-5.4 mini | OpenAI | 71,5 % | 17 mars 2026 | Auto-déclaré |
| 5 | GPT-4.1 mini | OpenAI | 60,5 % | 14 avril 2025 | Auto-déclaré |
| 6 | o3-mini | OpenAI | 58,3 % | 30 janvier 2025 | Auto-déclaré |
| 7 | GPT-4.1 | OpenAI | 58,0 % | 14 avril 2025 | Auto-déclaré |
| 8 | GPT-5.4 nano | OpenAI | 50,8 % | 17 mars 2026 | Auto-déclaré |
| 9 | GPT-4o | OpenAI | 35,4 % | 27 mars 2025 | Auto-déclaré |
| 10 | GPT-4.1 nano | OpenAI | 9,4 % | 14 avril 2025 | Auto-déclaré |
Classement établi sur 10 modèles évalués, dont 10 de grands éditeurs. Score médian de l'ensemble : 59,4 %. « Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench, MTEB…).
Notre analyse
Un score élevé sur Graphwalks parents <128k indique une bonne capacité à identifier précisément les parents attendus d’un nœud, avec un équilibre entre précision et rappel mesuré par le F1. Le benchmark est donc utile pour observer le raisonnement structurel en contexte long, notamment lorsque l’information pertinente est dispersée dans une représentation de graphe en hachages hexadécimaux.
La lecture du classement demande toutefois de la prudence. Les scores sont majoritairement auto-déclarés par les éditeurs, ce qui limite la rigueur comparative par rapport à une évaluation entièrement indépendante. La portée reste aussi spécialisée : ce test ne mesure ni les connaissances générales, ni le codage, ni le raisonnement mathématique large. Le classement disponible montre une forte domination des modèles OpenAI, avec GPT-5.4 en tête, mais les 10 modèles classés proviennent tous d’OpenAI, également créateur du benchmark. Cette absence d’indépendance réduit sa valeur pour comparer les modèles OpenAI à ceux d’autres éditeurs.
Sources des scores : llm-stats.