Phi-3.5-MoE-instruct

Phi-3.5-MoE-instruct est un LLM publié par Microsoft le 23 août 2024, sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle compte 60 milliards de paramètres et porte un positionnement « instruct », associé à une version destinée aux usages conversationnels ou…

Phi-3.5-MoE-instruct est un LLM publié par Microsoft le 23 août 2024, sous licence MIT avec poids ouverts et usage commercial autorisé. Le modèle compte 60 milliards de paramètres et porte un positionnement « instruct », associé à une version destinée aux usages conversationnels ou pilotés par consignes.

Avec environ deux ans d’ancienneté, Phi-3.5-MoE-instruct appartient déjà à une génération ancienne à l’échelle de l’IA. Sa lecture est surtout utile pour situer l’état des LLM open-weights de Microsoft à l’été 2024, plutôt que pour l’évaluer comme option de référence actuelle.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie23 août 2024
Multimodalnon
Paramètres60 milliards

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
ARC-C91,0 %10ᵉ / 34llm-statsAuto-déclaré
OpenBookQA89,6 %1ᵉ / 5llm-statsAuto-déclaré
GSM8k88,7 %29ᵉ / 47llm-statsAuto-déclaré
PIQA88,6 %1ᵉ / 11llm-statsAuto-déclaré
RULER87,1 %3ᵉ / 4llm-statsAuto-déclaré
BoolQ84,6 %3ᵉ / 10llm-statsAuto-déclaré
HellaSwag83,8 %14ᵉ / 27llm-statsAuto-déclaré
Winogrande81,3 %9ᵉ / 22llm-statsAuto-déclaré
MBPP80,8 %12ᵉ / 33llm-statsAuto-déclaré
BIG-Bench Hard79,1 %8ᵉ / 20llm-statsAuto-déclaré
MMLU78,9 %66ᵉ / 98llm-statsAuto-déclaré
Social IQa78,0 %1ᵉ / 9llm-statsAuto-déclaré
TruthfulQA77,5 %2ᵉ / 18llm-statsAuto-déclaré
HumanEval70,7 %56ᵉ / 65llm-statsAuto-déclaré
MMMLU69,9 %44ᵉ / 49llm-statsAuto-déclaré
MATH59,5 %48ᵉ / 70llm-statsAuto-déclaré
MGSM58,7 %25ᵉ / 30llm-statsAuto-déclaré
MMLU-Pro45,3 %116ᵉ / 125llm-statsAuto-déclaré
Arena Hard37,9 %22ᵉ / 26llm-statsAuto-déclaré
GPQA36,8 %190ᵉ / 213llm-statsAuto-déclaré
SQuALITY24,1 %2ᵉ / 5llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. À sa sortie, Phi-3.5-MoE-instruct se situait dans le top 65% sur GPQA parmi 34 LLM de sa période, ce qui le plaçait dans une zone compétitive sans le hisser au tout premier plan de sa génération. Sa licence MIT constitue un point fort concret : les poids sont ouverts et l’usage commercial est autorisé, un cadre plus souple que celui de nombreux modèles fermés. Son format à 60 milliards de paramètres le positionnait aussi comme un modèle substantiel dans le paysage open-weights de 2024.

Limites et points d'attention. L’ancienneté est le principal signal de prudence : à près de deux ans, Phi-3.5-MoE-instruct est très probablement dépassé par les modèles actuels, en particulier les modèles frontière et les générations open-weights plus récentes. Ce type de modèle est aussi souvent retiré ou marginalisé dans les catalogues éditeurs au fil des mises à jour. La couverture disponible repose sur une seule source de données concordante, ce qui limite la profondeur de validation externe. Aucun chiffre vérifié de coût d’entraînement, de compute ou d’équivalent GPU H100 n’est fourni ici, donc cet aspect ne peut pas être qualifié.


Sources des données : LLM-Stats (llm-stats.com).