OpenAI

gpt-3.5-turbo-0613

gpt-3.5-turbo-0613 est un LLM d’OpenAI documenté ici à travers trois évaluations Benchable en configuration Baseline. Le signal le plus net concerne l’Email Classification, où le modèle obtient son meilleur résultat disponible.

Les autres mesures disponibles donnent un profil plus contrasté, avec un suivi d’instructions limité et une évaluation de connaissances générales très faible. La fiche repose sur une seule source de données concordante, ce qui limite l’analyse aux benchmarks fournis.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	OpenAI

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Benchable : Email Classification (Baseline)	97,0 %	163ᵉ / 254	benchable	✅ Mesuré
Benchable : Instruction Following (Baseline)	49,0 %	177ᵉ / 252	benchable	✅ Mesuré
Benchable : General Knowledge (Baseline)	0,0 %	238ᵉ / 250	benchable	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Benchable : Email Classification (Baseline)

DeepSeek-R1100 %

Gemini 2.5 Flash-Lite100 %

GPT-4 Turbo100 %

nova-premier-v199 %

▶ gpt-3.5-turbo-061397 %

WizardLM-2 8x22B95 %

Benchable : Instruction Following (Baseline)

DeepSeek-R1100 %

Nemotron 3 Ultra100 %

Gemini 3.1 Pro …95 %

nova-pro-v155 %

▶ gpt-3.5-turbo-061349 %

phi-4-mini-instruct27 %

Coût & vitesse agentiques

Indicateur	Valeur
Coût moyen par benchmark — Benchable	0,02 $
Latence moyenne par benchmark — Benchable	2 min 23 s

Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.

Notre analyse

Forces. Le point fort de gpt-3.5-turbo-0613 est l’Email Classification (Baseline), où le score brut est élevé et nettement supérieur à ses autres résultats disponibles. Ce signal indique une capacité plus convaincante sur une tâche de catégorisation structurée que sur des évaluations plus ouvertes. Le modèle conserve donc un intérêt analytique pour comprendre le positionnement d’un LLM OpenAI sur des tâches simples de classification, avec une performance mesurable et exploitable dans ce cadre précis.

Limites et points d'attention. Les résultats Benchable montrent un décrochage marqué dès que la tâche demande un suivi d’instructions ou des connaissances générales. Instruction Following (Baseline) place le modèle dans une zone faible du classement, tandis que General Knowledge (Baseline) se situe tout en bas du panel évalué. Aucune donnée fournie ne décrit l’entraînement, le coût, la fenêtre de contexte, les tarifs ou la disponibilité actuelle du modèle. La couverture limitée à une seule source concordante impose donc de ne pas extrapoler au-delà de ces trois benchmarks.

Sources des données : Benchable.ai (benchable.ai).

gpt-3.5-turbo-0613

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Coût & vitesse agentiques

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast