gpt-3.5-turbo-0613
gpt-3.5-turbo-0613 est un LLM d’OpenAI documenté ici à travers trois évaluations Benchable en configuration Baseline. Le signal le plus net concerne l’Email Classification, où le modèle obtient son meilleur résultat disponible.
gpt-3.5-turbo-0613 est un LLM d’OpenAI documenté ici à travers trois évaluations Benchable en configuration Baseline. Le signal le plus net concerne l’Email Classification, où le modèle obtient son meilleur résultat disponible.
Les autres mesures disponibles donnent un profil plus contrasté, avec un suivi d’instructions limité et une évaluation de connaissances générales très faible. La fiche repose sur une seule source de données concordante, ce qui limite l’analyse aux benchmarks fournis.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 97,0 % | 163ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 49,0 % | 177ᵉ / 252 | benchable | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Instruction Following (Baseline)
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,02 $ |
| Latence moyenne par benchmark — Benchable | 2 min 23 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. Le point fort de gpt-3.5-turbo-0613 est l’Email Classification (Baseline), où le score brut est élevé et nettement supérieur à ses autres résultats disponibles. Ce signal indique une capacité plus convaincante sur une tâche de catégorisation structurée que sur des évaluations plus ouvertes. Le modèle conserve donc un intérêt analytique pour comprendre le positionnement d’un LLM OpenAI sur des tâches simples de classification, avec une performance mesurable et exploitable dans ce cadre précis.
Limites et points d'attention. Les résultats Benchable montrent un décrochage marqué dès que la tâche demande un suivi d’instructions ou des connaissances générales. Instruction Following (Baseline) place le modèle dans une zone faible du classement, tandis que General Knowledge (Baseline) se situe tout en bas du panel évalué. Aucune donnée fournie ne décrit l’entraînement, le coût, la fenêtre de contexte, les tarifs ou la disponibilité actuelle du modèle. La couverture limitée à une seule source concordante impose donc de ne pas extrapoler au-delà de ces trois benchmarks.
Sources des données : Benchable.ai (benchable.ai).