gpt-3.5-turbo-0613

gpt-3.5-turbo-0613 est un LLM d’OpenAI documenté ici à travers trois évaluations Benchable en configuration Baseline. Le signal le plus net concerne l’Email Classification, où le modèle obtient son meilleur résultat disponible.

gpt-3.5-turbo-0613 est un LLM d’OpenAI documenté ici à travers trois évaluations Benchable en configuration Baseline. Le signal le plus net concerne l’Email Classification, où le modèle obtient son meilleur résultat disponible.

Les autres mesures disponibles donnent un profil plus contrasté, avec un suivi d’instructions limité et une évaluation de connaissances générales très faible. La fiche repose sur une seule source de données concordante, ce qui limite l’analyse aux benchmarks fournis.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurOpenAI

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Benchable : Email Classification (Baseline)97,0 %163ᵉ / 254benchable✅ Mesuré
Benchable : Instruction Following (Baseline)49,0 %177ᵉ / 252benchable✅ Mesuré
Benchable : General Knowledge (Baseline)0,0 %238ᵉ / 250benchable✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

GPT-4 Turbo100 %
nova-premier-v199 %
▶ gpt-3.5-turbo-061397 %
WizardLM-2 8x22B95 %

Benchable : Instruction Following (Baseline)

Nemotron 3 Ultra100 %
nova-pro-v155 %
▶ gpt-3.5-turbo-061349 %
phi-4-mini-instruct27 %

Coût & vitesse agentiques

IndicateurValeur
Coût moyen par benchmark — Benchable0,02 $
Latence moyenne par benchmark — Benchable2 min 23 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Le point fort de gpt-3.5-turbo-0613 est l’Email Classification (Baseline), où le score brut est élevé et nettement supérieur à ses autres résultats disponibles. Ce signal indique une capacité plus convaincante sur une tâche de catégorisation structurée que sur des évaluations plus ouvertes. Le modèle conserve donc un intérêt analytique pour comprendre le positionnement d’un LLM OpenAI sur des tâches simples de classification, avec une performance mesurable et exploitable dans ce cadre précis.

Limites et points d'attention. Les résultats Benchable montrent un décrochage marqué dès que la tâche demande un suivi d’instructions ou des connaissances générales. Instruction Following (Baseline) place le modèle dans une zone faible du classement, tandis que General Knowledge (Baseline) se situe tout en bas du panel évalué. Aucune donnée fournie ne décrit l’entraînement, le coût, la fenêtre de contexte, les tarifs ou la disponibilité actuelle du modèle. La couverture limitée à une seule source concordante impose donc de ne pas extrapoler au-delà de ces trois benchmarks.


Sources des données : Benchable.ai (benchable.ai).