Phi-3.5-vision-instruct
Phi-3.5-vision-instruct est un modèle Microsoft publié le 23 août 2024, sous licence MIT avec poids ouverts et usage commercial autorisé. Son positionnement associe un format compact, 4 milliards de paramètres, à une fenêtre de contexte très large de 128 000 tokens.
Phi-3.5-vision-instruct est un modèle Microsoft publié le 23 août 2024, sous licence MIT avec poids ouverts et usage commercial autorisé. Son positionnement associe un format compact, 4 milliards de paramètres, à une fenêtre de contexte très large de 128 000 tokens.
Son ancienneté, environ deux ans, est importante à l’échelle de l’IA générative. La fiche doit donc être lue comme celle d’un modèle de sa période, probablement dépassé par les modèles vision récents et souvent retiré des catalogues éditeurs actuels.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | Microsoft |
| Licence | MIT (open-weights, usage commercial autorisé) |
| Date de sortie | 23 août 2024 |
| Multimodal | oui |
| Paramètres | 4 milliards |
| Fenêtre de contexte | 128 000 tokens |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| MMBench | 81,9 % | 6ᵉ / 9 | llm-stats | Auto-déclaré |
| ChartQA | 81,8 % | 17ᵉ / 24 | llm-stats | Auto-déclaré |
| AI2D | 78,1 % | 30ᵉ / 32 | llm-stats | Auto-déclaré |
| TextVQA | 72,0 % | 12ᵉ / 15 | llm-stats | Auto-déclaré |
| MathVista | 43,9 % | 37ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 43,0 % | 59ᵉ / 61 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Classements Arena (Elo)
| Catégorie | Elo | Rang |
|---|---|---|
| Arena Vision | 920 | 130ᵉ |
Notre analyse
Forces. Phi-3.5-vision-instruct se distingue surtout par son équilibre entre compacité, ouverture et contexte long. Avec 4 milliards de paramètres, il appartient à la catégorie des modèles relativement légers, tout en proposant une fenêtre de 128 000 tokens, rare pour ce gabarit à sa sortie. La licence MIT, avec poids ouverts et usage commercial autorisé, en faisait un candidat exploitable hors API propriétaire. Sa présence dans Arena vision indique aussi une évaluation publique sur des tâches multimodales, utile pour situer son comportement face aux modèles de sa génération.
Limites et points d'attention. Le classement Arena vision place Phi-3.5-vision-instruct loin du haut du tableau, avec un niveau aujourd’hui nettement inférieur aux modèles vision haut de gamme récents. Son âge pèse fortement, deux ans représentent un cycle très long dans l’IA, surtout pour les modèles multimodaux. Les performances doivent donc être interprétées comme historiques plutôt qu’actuelles. Les données disponibles restent limitées à deux sources concordantes, sans chiffres publics fournis ici sur le coût ou le volume de calcul d’entraînement.
Sources des données : LLM-Stats (llm-stats.com) · Arena.ai (arena.ai).