Microsoft

Phi-3.5-vision-instruct

Phi-3.5-vision-instruct est un modèle Microsoft publié le 23 août 2024, sous licence MIT avec poids ouverts et usage commercial autorisé. Son positionnement associe un format compact, 4 milliards de paramètres, à une fenêtre de contexte très large de 128 000 tokens.

Son ancienneté, environ deux ans, est importante à l’échelle de l’IA générative. La fiche doit donc être lue comme celle d’un modèle de sa période, probablement dépassé par les modèles vision récents et souvent retiré des catalogues éditeurs actuels.

Caractéristiques

Caractéristique	Valeur
Type	Grand modèle de langage (LLM)
Éditeur	Microsoft
Licence	MIT (open-weights, usage commercial autorisé)
Date de sortie	23 août 2024
Multimodal	oui
Paramètres	4 milliards
Fenêtre de contexte	128 000 tokens

Performances (benchmarks)

Benchmark	Score	Rang (LLM)	Source	Fiabilité
MMBench	81,9 %	6ᵉ / 9	llm-stats	Auto-déclaré
ChartQA	81,8 %	17ᵉ / 24	llm-stats	Auto-déclaré
AI2D	78,1 %	30ᵉ / 32	llm-stats	Auto-déclaré
TextVQA	72,0 %	12ᵉ / 15	llm-stats	Auto-déclaré
MathVista	43,9 %	37ᵉ / 38	llm-stats	Auto-déclaré
MMMU	43,0 %	59ᵉ / 61	llm-stats	Auto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Classements Arena (Elo)

Catégorie	Elo	Rang
Arena Vision	920	130ᵉ

Notre analyse

Forces. Phi-3.5-vision-instruct se distingue surtout par son équilibre entre compacité, ouverture et contexte long. Avec 4 milliards de paramètres, il appartient à la catégorie des modèles relativement légers, tout en proposant une fenêtre de 128 000 tokens, rare pour ce gabarit à sa sortie. La licence MIT, avec poids ouverts et usage commercial autorisé, en faisait un candidat exploitable hors API propriétaire. Sa présence dans Arena vision indique aussi une évaluation publique sur des tâches multimodales, utile pour situer son comportement face aux modèles de sa génération.

Limites et points d'attention. Le classement Arena vision place Phi-3.5-vision-instruct loin du haut du tableau, avec un niveau aujourd’hui nettement inférieur aux modèles vision haut de gamme récents. Son âge pèse fortement, deux ans représentent un cycle très long dans l’IA, surtout pour les modèles multimodaux. Les performances doivent donc être interprétées comme historiques plutôt qu’actuelles. Les données disponibles restent limitées à deux sources concordantes, sans chiffres publics fournis ici sur le coût ou le volume de calcul d’entraînement.

Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai).

Phi-3.5-vision-instruct

Caractéristiques

Performances (benchmarks)

Classements Arena (Elo)

Notre analyse

À lire ensuite

qwen3.6-plus-04-02

nova-2-lite-v1

Grok Code Fast