Microsoft

phi-3-medium 14B

phi-3-medium 14B est un LLM de Microsoft sorti le 23 avril 2024, dans la famille des modèles Phi de sa période. Son nom le situe comme une déclinaison « medium » et « 14B », mais la fiche disponible ne fournit pas d’autre détail technique vérifié sur son architecture ou son entraînement.

Son ancienneté, environ deux ans, compte beaucoup à l’échelle de l’IA générative. Le modèle doit donc être lu comme un jalon de 2024 plutôt que comme une référence actuelle, avec des performances probablement dépassées et une disponibilité éditeur souvent réduite aujourd’hui.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft
Date de sortie	23 avril 2024

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
Epoch: GPQA diamond	27,6 %	123ᵉ / 132	epoch	✅ Mesuré
Epoch: MATH level 5	17,6 %	70ᵉ / 84	epoch	✅ Mesuré

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: GPQA diamond

GPT-5.4 Pro95 %

Gemini 3.1 Pro Preview94 %

Qwen3.7 Max92 %

Phi 456 %

▶ phi-3-medium 14B28 %

Epoch: MATH level 5

GPT-598 %

Claude Sonnet 4.598 %

Qwen3-Max-Instruct97 %

Phi 465 %

▶ phi-3-medium 14B18 %

Notre analyse

Forces. À sa sortie, phi-3-medium 14B se situait dans le top 82% des LLM de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Cette position le place dans le paysage compétitif de 2024, à une période où les modèles compacts ou intermédiaires cherchaient à offrir un compromis entre taille et capacités générales. Son principal intérêt est donc historique et comparatif : il renseigne sur le niveau atteint par Microsoft avec cette branche Phi au printemps 2024, dans un segment qui n’était pas celui des modèles frontière les plus ambitieux.

Limites et points d'attention. Les résultats disponibles montrent aujourd’hui un modèle nettement distancé. Sur GPQA diamond, phi-3-medium 14B apparaît en bas de classement parmi les modèles évalués, et MATH level 5 confirme une faiblesse marquée sur les problèmes mathématiques difficiles. La couverture repose sur une seule source de données concordante, ce qui limite la profondeur de l’analyse publique disponible. En raison de son âge, environ deux ans, ses performances sont largement dépassées par les modèles récents et il est probablement souvent retiré du catalogue actif de l’éditeur.

Sources des données : Epoch AI (epoch.ai), CC-BY-4.0.

phi-3-medium 14B

Caractéristiques

Performances (benchmarks)

Comment se situe-t-il ?

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast