Gemini 1.5 Flash
Gemini 1.5 Flash est un LLM propriétaire de Google, lancé le 1 mai 2024. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération largement dépassée, à comparer d’abord aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.
Gemini 1.5 Flash est un LLM propriétaire de Google, lancé le 1 mai 2024. À l’échelle de l’IA générative, son ancienneté d’environ deux ans le place déjà dans une génération largement dépassée, à comparer d’abord aux modèles disponibles autour de sa sortie plutôt qu’aux systèmes actuels.
Sa caractéristique la plus structurante est sa fenêtre de contexte d’environ 1,0 M de tokens, très large pour analyser de longs documents ou de grands volumes de texte. Ses connaissances s’arrêtent au 1 novembre 2023 et ses poids ne sont pas ouverts.
Caractéristiques
| Caractéristique | Valeur |
|---|---|
| Type | Grand modèle de langage (LLM) |
| Éditeur | |
| Licence | Proprietary (poids non ouverts) |
| Date de sortie | 1 mai 2024 |
| Connaissances jusqu'à | 2023-11-01 |
| Multimodal | oui |
| Fenêtre de contexte | 1 048 576 tokens (≈ 1,0 M) |
| Modalités (entrée → sortie) | text,image → text |
Performances (benchmarks)
| Benchmark | Score | Rang (LLM) | Source | Fiabilité |
|---|---|---|---|---|
| Epoch: MATH level 5 | 61,9 % | 40ᵉ / 84 | epoch | ✅ Mesuré |
| Epoch: GPQA diamond | 47,3 % | 88ᵉ / 132 | epoch | ✅ Mesuré |
| Epoch: OTIS Mock AIME 2024-2025 | 16,2 % | 75ᵉ / 111 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Private | 0,0 % | 68ᵉ / 69 | epoch | ✅ Mesuré |
| Epoch: FrontierMath-2025-02-28-Public | 0,0 % | 35ᵉ / 64 | epoch | ✅ Mesuré |
| XSTest | 97,0 % | 2ᵉ / 3 | llm-stats | Auto-déclaré |
| FLEURS | 90,4 % | 5ᵉ / 6 | llm-stats | Auto-déclaré |
| HellaSwag | 86,5 % | 9ᵉ / 27 | llm-stats | Auto-déclaré |
| GSM8k | 86,2 % | 33ᵉ / 47 | llm-stats | Auto-déclaré |
| BIG-Bench Hard | 85,5 % | 6ᵉ / 20 | llm-stats | Auto-déclaré |
| MGSM | 82,6 % | 17ᵉ / 30 | llm-stats | Auto-déclaré |
| Natural2Code | 79,8 % | 5ᵉ / 8 | llm-stats | Auto-déclaré |
| MMLU | 78,9 % | 66ᵉ / 98 | llm-stats | Auto-déclaré |
| MATH | 77,9 % | 22ᵉ / 70 | llm-stats | Auto-déclaré |
| Video-MME | 76,1 % | 11ᵉ / 17 | llm-stats | Auto-déclaré |
| HumanEval | 74,3 % | 50ᵉ / 65 | llm-stats | Auto-déclaré |
| WMT23 | 74,1 % | 2ᵉ / 4 | llm-stats | Auto-déclaré |
| MRCR | 71,9 % | 3ᵉ / 7 | llm-stats | Auto-déclaré |
| MMLU-Pro | 67,3 % | 89ᵉ / 125 | llm-stats | Auto-déclaré |
| MathVista | 65,8 % | 22ᵉ / 38 | llm-stats | Auto-déclaré |
| MMMU | 62,3 % | 40ᵉ / 61 | llm-stats | Auto-déclaré |
| GPQA | 51,0 % | 152ᵉ / 213 | llm-stats | Auto-déclaré |
| Vibe-Eval | 48,9 % | 7ᵉ / 8 | llm-stats | Auto-déclaré |
| HiddenMath | 47,2 % | 6ᵉ / 13 | llm-stats | Auto-déclaré |
| AMC_2022_23 | 34,8 % | 6ᵉ / 6 | llm-stats | Auto-déclaré |
« Auto-déclaré » : score communiqué par l'éditeur, non rejoué indépendamment. « Mesuré » : évalué par un tiers (Epoch AI, LiveBench). Le rang est calculé parmi les LLM évalués sur le même benchmark.
Comment se situe-t-il ?
Le modèle (en orange) comparé aux meilleurs modèles « grand public » sur chaque dimension, et à ses voisins de classement.
Epoch: MATH level 5
Epoch: GPQA diamond
Notre analyse
Forces. À sa sortie, Gemini 1.5 Flash se situait dans le haut du panier de sa génération sur GPQA diamond, un benchmark de questions scientifiques de niveau doctorat. Ce résultat indique une bonne tenue relative, pour l’époque, sur des tâches de raisonnement scientifique exigeantes. Sa fenêtre de contexte d’environ 1,0 M de tokens reste l’élément le plus distinctif du modèle, car elle permet de traiter de longs corpus en une seule requête, avec moins de découpage préalable. Sur MATH level 5, le modèle affiche un niveau intermédiaire, suffisant pour des problèmes structurés mais pas dominant face aux meilleurs LLM évalués.
Limites et points d'attention. Gemini 1.5 Flash est aujourd’hui un modèle ancien, probablement dépassé par les modèles plus récents et souvent retiré des catalogues actifs des éditeurs. Ses résultats sont faibles sur les mathématiques les plus difficiles : OTIS Mock AIME le place loin des meilleurs en olympiades de niveau lycée, tandis que FrontierMath ne montre aucune réussite sur des problèmes de recherche très difficiles. La coupure des connaissances à novembre 2023 limite aussi son intérêt pour les sujets récents. Sa licence propriétaire empêche l’audit direct des poids et l’hébergement indépendant du modèle.
Sources des données : LLM-Stats (llm-stats.com) · OpenRouter (openrouter.ai) · Epoch AI (epoch.ai), CC-BY-4.0.