Phi-4-multimodal-instruct

Phi-4-multimodal-instruct est un LLM de Microsoft publié le 1 février 2025, sous licence MIT avec poids ouverts et usage commercial autorisé. Son positionnement associe un format compact de 6 milliards de paramètres à une fenêtre de contexte de 131 072 tokens, avec des connaissances…

Phi-4-multimodal-instruct est un LLM de Microsoft publié le 1 février 2025, sous licence MIT avec poids ouverts et usage commercial autorisé. Son positionnement associe un format compact de 6 milliards de paramètres à une fenêtre de contexte de 131 072 tokens, avec des connaissances arrêtées au 2024-06-01.

À près d’un an, son ancienneté est déjà très longue à l’échelle de l’IA. La fiche doit donc le situer par rapport aux modèles de sa période, car ses performances sont probablement dépassées aujourd’hui et ce type de modèle est souvent retiré du catalogue de l’éditeur.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurMicrosoft
LicenceMIT (open-weights, usage commercial autorisé)
Date de sortie1 février 2025
Connaissances jusqu'à2024-06-01
Multimodaloui
Paramètres6 milliards
Fenêtre de contexte131 072 tokens
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
DocVQA93,2 %13ᵉ / 26llm-statsAuto-déclaré
MMBench86,7 %3ᵉ / 9llm-statsAuto-déclaré
OCRBench84,4 %16ᵉ / 22llm-statsAuto-déclaré
AI2D82,3 %27ᵉ / 32llm-statsAuto-déclaré
ChartQA81,4 %19ᵉ / 24llm-statsAuto-déclaré
TextVQA75,6 %10ᵉ / 15llm-statsAuto-déclaré
InfoVQA72,7 %5ᵉ / 9llm-statsAuto-déclaré
MathVista62,4 %24ᵉ / 38llm-statsAuto-déclaré
BLINK61,3 %13ᵉ / 13llm-statsAuto-déclaré
MMMU55,1 %50ᵉ / 61llm-statsAuto-déclaré
Video-MME55,0 %17ᵉ / 17llm-statsAuto-déclaré
MMMU-Pro38,5 %57ᵉ / 60llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Notre analyse

Forces. Phi-4-multimodal-instruct se distingue d’abord par son statut open-weights sous licence MIT, qui autorise les usages commerciaux sans dépendre uniquement d’une API propriétaire. Sa taille de 6 milliards de paramètres le place dans la catégorie des LLM compacts, avec un intérêt pratique pour les environnements qui privilégient un modèle moins volumineux. Sa fenêtre de contexte de 131 072 tokens constitue son autre atout concret, car elle permet de traiter des entrées longues à l’échelle de sa génération. La couverture repose sur deux sources concordantes, ce qui renforce la fiabilité des informations de base disponibles sur le modèle.

Limites et points d'attention. Son âge est le principal frein : sorti début 2025, il doit être lu comme un modèle de sa période, non comme une référence actuelle. Ses performances sont probablement largement dépassées par les modèles haut de gamme récents, et il peut ne plus être mis en avant dans le catalogue de Microsoft. Les données disponibles ne fournissent pas de résultats de benchmark, ni d’éléments chiffrés sur le coût ou le calcul d’entraînement, ce qui empêche d’évaluer précisément son niveau réel face aux modèles de sa génération.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai).