Phi-3.5-vision-instruct

Phi-3.5-vision-instruct est un modèle Microsoft publié le 23 août 2024, sous licence MIT avec poids ouverts et usage commercial autorisé. Son positionnement associe un format compact, 4 milliards de paramètres, à une fenêtre de contexte très large de 128 000 tokens.

Phi-3.5-vision-instruct est un modèle Microsoft publié le 23 août 2024, sous licence MIT avec poids ouverts et usage commercial autorisé. Son positionnement associe un format compact, 4 milliards de paramètres, à une fenêtre de contexte très large de 128 000 tokens.

Son ancienneté, environ deux ans, est importante à l’échelle de l’IA générative. La fiche doit donc être lue comme celle d’un modèle de sa période, probablement dépassé par les modèles vision récents et souvent retiré des catalogues éditeurs actuels.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie23 août 2024
Multimodaloui
Paramètres4 milliards
Fenêtre de contexte128 000 tokens

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
MMBench81,9 %6ᵉ / 9llm-statsAuto-déclaré
ChartQA81,8 %17ᵉ / 24llm-statsAuto-déclaré
AI2D78,1 %30ᵉ / 32llm-statsAuto-déclaré
TextVQA72,0 %12ᵉ / 15llm-statsAuto-déclaré
MathVista43,9 %37ᵉ / 38llm-statsAuto-déclaré
MMMU43,0 %59ᵉ / 61llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Classements Arena (Elo)

CatégorieEloRang
Arena Vision920130ᵉ

Notre analyse

Forces. Phi-3.5-vision-instruct se distingue surtout par son équilibre entre compacité, ouverture et contexte long. Avec 4 milliards de paramètres, il appartient à la catégorie des modèles relativement légers, tout en proposant une fenêtre de 128 000 tokens, rare pour ce gabarit à sa sortie. La licence MIT, avec poids ouverts et usage commercial autorisé, en faisait un candidat exploitable hors API propriétaire. Sa présence dans Arena vision indique aussi une évaluation publique sur des tâches multimodales, utile pour situer son comportement face aux modèles de sa génération.

Limites et points d'attention. Le classement Arena vision place Phi-3.5-vision-instruct loin du haut du tableau, avec un niveau aujourd’hui nettement inférieur aux modèles vision haut de gamme récents. Son âge pèse fortement, deux ans représentent un cycle très long dans l’IA, surtout pour les modèles multimodaux. Les performances doivent donc être interprétées comme historiques plutôt qu’actuelles. Les données disponibles restent limitées à deux sources concordantes, sans chiffres publics fournis ici sur le coût ou le volume de calcul d’entraînement.


Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai).