Gemini 1.5 Flash

Gemini 1.5 Flash est un LLM propriétaire de Google, lancé le 1 mai 2024. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération largement dépassée, à comparer d’abord aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.

Gemini 1.5 Flash est un LLM propriétaire de Google, lancé le 1 mai 2024. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération largement dépassée, à comparer d’abord aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.

Sa caractéristique la plus structurante est sa fenêtre de contexte d’environ 1,0 M de tokens, très large pour analyser de longs documents ou de grands volumes de texte. Ses connaissances s’arrêtent au 1 novembre 2023 et ses poids ne sont pas ouverts.

Caractéristiques

CaractéristiqueValeur
TypeGrand modèle de langage (LLM)
ÉditeurGoogle
LicenceProprietary (poids non ouverts)
Date de sortie1 mai 2024
Connaissances jusqu'à2023-11-01
Multimodaloui
Fenêtre de contexte1 048 576 tokens (≈ 1,0 M)
Modalités (entrée → sortie)text,image → text

Performances (benchmarks)

BenchmarkScoreRang (LLM)SourceFiabilité
Epoch: MATH level 561,9 %40ᵉ / 84epoch✅ Mesuré
Epoch: GPQA diamond47,3 %88ᵉ / 132epoch✅ Mesuré
Epoch: OTIS Mock AIME 2024-202516,2 %75ᵉ / 111epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Private0,0 %68ᵉ / 69epoch✅ Mesuré
Epoch: FrontierMath-2025-02-28-Public0,0 %35ᵉ / 64epoch✅ Mesuré
XSTest97,0 %2ᵉ / 3llm-statsAuto-déclaré
FLEURS90,4 %5ᵉ / 6llm-statsAuto-déclaré
HellaSwag86,5 %9ᵉ / 27llm-statsAuto-déclaré
GSM8k86,2 %33ᵉ / 47llm-statsAuto-déclaré
BIG-Bench Hard85,5 %6ᵉ / 20llm-statsAuto-déclaré
MGSM82,6 %17ᵉ / 30llm-statsAuto-déclaré
Natural2Code79,8 %5ᵉ / 8llm-statsAuto-déclaré
MMLU78,9 %66ᵉ / 98llm-statsAuto-déclaré
MATH77,9 %22ᵉ / 70llm-statsAuto-déclaré
Video-MME76,1 %11ᵉ / 17llm-statsAuto-déclaré
HumanEval74,3 %50ᵉ / 65llm-statsAuto-déclaré
WMT2374,1 %2ᵉ / 4llm-statsAuto-déclaré
MRCR71,9 %3ᵉ / 7llm-statsAuto-déclaré
MMLU-Pro67,3 %89ᵉ / 125llm-statsAuto-déclaré
MathVista65,8 %22ᵉ / 38llm-statsAuto-déclaré
MMMU62,3 %40ᵉ / 61llm-statsAuto-déclaré
GPQA51,0 %152ᵉ / 213llm-statsAuto-déclaré
Vibe-Eval48,9 %7ᵉ / 8llm-statsAuto-déclaré
HiddenMath47,2 %6ᵉ / 13llm-statsAuto-déclaré
AMC_2022_2334,8 %6ᵉ / 6llm-statsAuto-déclaré

« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.

Comment se situe-t-il ?

Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.

Epoch: MATH level 5

GPT-598 %
Qwen3-Max-Instruct97 %
Phi 465 %
▶ Gemini 1.5 Flash62 %

Epoch: GPQA diamond

GPT-5.4 Pro95 %
Gemini 3.1 Pro Preview94 %
Qwen3.7 Max92 %
Phi 456 %
▶ Gemini 1.5 Flash47 %

Notre analyse

Forces. À sa sortie, Gemini 1.5 Flash se situait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Ce résultat indique une bonne tenue relative, pour l’époque, sur des tâches de raisonnement scientifique exigeantes. Sa fenêtre de contexte d’environ 1,0 M de tokens reste l’élément le plus distinctif du modèle, car elle permet de traiter de longs corpus en une seule requête, avec moins de découpage préalable. Sur MATH level 5, le modèle affiche un niveau intermédiaire, suffisant pour des problèmes structurés mais pas dominant face aux meilleurs LLM évalués.

Limites et points d'attention. Gemini 1.5 Flash est aujourd’hui un modèle ancien, probablement dépassé par les modèles plus récents et souvent retiré des catalogues actifs des éditeurs. Ses résultats sont faibles sur les mathématiques les plus difficiles : OTIS Mock AIME le place loin des meilleurs en olympiades de niveau lycée, tandis que FrontierMath ne montre aucune réussite sur des problèmes de recherche très difficiles. La coupure des connaissances à novembre 2023 limite aussi son intérêt pour les sujets récents. Sa licence propriétaire empêche l’audit direct des poids et l’hébergement indépendant du modèle.


Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.