OpenAI: GPT-4 Turbo Preview
OpenAI: GPT-4 Turbo Preview est un LLM d’OpenAI sorti le 25 janvier 2024, à lire comme un modèle de transition de l’ère GPT-4 Turbo. Son ancienneté d’environ deux ans est très longue à l’échelle de l’IA, ce qui le situe surtout face aux modèles de sa période plutôt qu’aux références…
OpenAI: GPT-4 Turbo Preview est un LLM d’OpenAI sorti le 25 janvier 2024, à lire comme un modèle de transition de l’ère GPT-4 Turbo. Son ancienneté d’environ deux ans est très longue à l’échelle de l’IA, ce qui le situe surtout face aux modèles de sa période plutôt qu’aux références actuelles.
Le modèle se distingue par une fenêtre de contexte de 128 000 tokens et des connaissances arrêtées au 31 décembre 2023. Son positionnement tarifaire est premium, avec un coût nettement supérieur à la moyenne des LLM similaires et même au-dessus des modèles frontière.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | OpenAI |
| Date de sortie | 25 janvier 2024 |
| Connaissances jusqu'à | 2023-12-31 |
| Multimodal | non |
| Fenêtre de contexte | 128 000 tokens |
| Modalités (entrée → sortie) | text → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Benchable : Email Classification (Baseline) | 99,0 % | 24ᵉ / 254 | benchable | ✅ Mesuré |
| Benchable : Hallucinations (Baseline) | 94,0 % | 126ᵉ / 229 | benchable | ✅ Mesuré |
| Benchable : Instruction Following (Baseline) | 69,0 % | 98ᵉ / 252 | benchable | ✅ Mesuré |
| Epoch: GPQA diamond | 42,4 % | 97ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: MATH level 5 | 40,0 % | 54ᵉ / 84 | epoch | ✅ Mesuré |
| Benchable : General Knowledge (Baseline) | 0,0 % | 238ᵉ / 250 | benchable | ✅ Mesuré |
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Benchable : Email Classification (Baseline)
Benchable : Hallucinations (Baseline)
Tarifs
| Fournisseur | Entrée / 1M | Sortie / 1M | Cache lecture / 1M |
|---|---|---|---|
| OpenAI | 10 $ | 30 $ | n.d. |
Prix en dollars US par million de tokens.
Sa tarification se situe 413 % au-dessus de la moyenne des LLM similaires, et 2,1 fois plus cher que les modèles frontières (Claude Fable 5, GPT-5.4, Gemini 3.1 Pro Preview).
Coût & vitesse agentiques
| Indicateur | Valeur |
|---|---|
| Coût moyen par benchmark — Benchable | 0,16 $ |
| Latence moyenne par benchmark — Benchable | 3 min 24 s |
Coûts et durées réels mesurés en exécutant le modèle comme agent. PinchBench = un run complet de 147 tâches (harness OpenClaw) ; Benchable = moyenne par benchmark. Sources : PinchBench, Benchable.ai.
Notre analyse
Forces. OpenAI: GPT-4 Turbo Preview conserve un profil solide sur les tâches structurées. Son meilleur signal vient de Email Classification (Baseline), où il se place dans le haut du classement, ce qui indique une bonne capacité à trier et catégoriser des contenus textuels courts ou semi-structurés. À sa sortie, il figurait aussi dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat, avec un classement dans le top 14% des LLM comparables de la même période. Sa grande fenêtre de contexte constituait également un atout notable pour traiter de longs documents ou maintenir davantage d’informations dans une même requête.
Limites et points d’attention. Le modèle est aujourd’hui largement dépassé et il est souvent retiré du catalogue de l’éditeur, ce qui limite son intérêt opérationnel. Ses résultats sont plus irréguliers dès que les tâches demandent du raisonnement robuste, du suivi fin d’instructions ou des connaissances générales, avec un signal particulièrement faible sur General Knowledge (Baseline). Le tarif renforce cette limite : l’entrée à 10 $ par million de tokens et la sortie à 30 $ le placent 413% au-dessus de la moyenne des LLM similaires, environ 2,1 fois plus cher que les modèles frontière. Son principal intérêt actuel est donc historique et comparatif, comme repère d’un modèle premium performant à sa sortie mais coûteux et daté.
Sources des données : OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0 · Benchable.ai (benchable.ai).