Stable Diffusion
Stable Diffusion : Le test complet
Stable Diffusion est un modèle de génération d’images par IA développé par le groupe Computer Vision de l’Université LMU de Munich, qui permet de créer des images numériques photoréalistes à partir de descriptions en langage naturel ou d’autres images.
Comment y accéder ? Comment l’utiliser ? Quelles sont les qualités et les limites de ce modèle ? Ce test vous apportera toutes les réponses que vous vous posez sur Stable Diffusion. Bonne lecture !
Présentation de stable diffusion
Contrairement à Dall-E 2 et Midjourney, Stable diffusion n’est pas un service, mais un modèle d’IA générative open source. Il peut être utilisé gratuitement par tous ceux qui le souhaitent, à condition de respecter la licence d’utilisation CreativeML OpenRAIL-M. De ce fait, il est possible de l’utiliser de différentes manières, en passant par l’un des nombreux services en lignes implémentant le modèle Stable Diffusion, ou en l’installant dans son propre ordinateur.
Bien qu’accessible gratuitement, le modèle de Stable Diffusion permet d’obtenir des résultats tout à fait comparables aux services payants, et son intelligence artificielle offre un grand nombre d’options et de filtres pour obtenir des images les plus précises possibles. Sa licence open source est d’ailleurs un avantage car il n’y a pas de secrets de fabrication, son mode de fonctionnement est connu et la communauté d’utilisateurs peut élaborer des prompts (descriptions) particulièrement efficaces pour en tirer les meilleurs résultats.
Historique et évolutions de Stable Diffusion
La première version de Stable Diffusion a été publiée le 22 août 2022. Elle a été développée par une équipe composée de Robin Rombach (Stability AI) et Patrick Esser (Runway ML), et dirigée par le Professeur Björn Ommer de l’Université LMU de Munich. Ils ont développé leurs travaux précédents sur les modèles de diffusion latente avec le soutien crucial de LAION et Eleuther AI.
L‘équipe de Stability AI a développé la version 2.0 de Stable Diffusion, qui a été publiée le 24 novembre 2022. Elle apporte plusieurs améliorations et nouvelles fonctionnalités, dont les suivantes :
- Utilisation du un nouvel encodeur de texte OpenCLIP pour améliorer la qualité des images. Les modèles peuvent générer des images avec des résolutions de 512x512 et 768x768 pixels.
- Amélioration du modèle d’upscaling pour des images en haute résolution : Stable Diffusion 2.0 inclut un modèle qui permet d‘améliorer la résolution des images jusqu‘à un facteur de 4, permettant ainsi de générer des images avec une résolution allant jusqu‘à 2048x2048 pixels ou plus.
- Ajout du modèle Depth-to-image qui utilise les informations de profondeur et le texte pour générer de nouvelles images, offrant ainsi davantage de possibilités créatives.
- Mise à jour du modèle d’inpainting, désormais guidé par le prompt, ce modèle est capable de compléter plus intelligemment et plus efficacement les parties manquantes d‘une image.
Depuis cette date, deux nouvelles versions ont été publiées :
- Stable Diffusion V2.1 le 7 décembre 2022, avec deux déclinaisons (SD2.1-base supportant une résolution native de 512×512 et SD2.1-v avec une résolution native de 768×768 pixels)
- Stable UnCLIP V2.1 le 24 mars 2023, une version spécifique destinée aux variations d’images et dont vous pouvez tester une démo ici : clipdrop.co/stable-diffusion-reimagine
Comment utiliser Stable Diffusion?
Comme nous l’avons mentionné en introduction, il existe plusieurs manières d’utiliser l’intelligence artificielle de Stable Diffusion afin de générer des images. Vous pouvez passer par un service en ligne, ou bien installer le modèle sur votre propre ordinateur, à condition toutefois d’avoir une carte vidéo assez puissante car les réseaux de neurones artificiels utilisés par Stable Diffusion nécessitent une capacité de calcul importante. Chaque approche présente ses avantages et ses inconvénients, et le choix dépendra de vos besoins spécifiques, de votre budget et de votre niveau de compétence technique.
Via un service en ligne
Plusieurs services en ligne implémentent le modèle de Stable Diffusion et permettent de l’utiliser directement pour générer des images directement depuis votre navigateur, et sont utilisables gratuitement pour la plupart. Voici quelques-uns des principaux services disponibles :
- DreamStudio : Il s’agit de l’application web officielle de Stable Diffusion développée par Stability AI. DreamStudio offre des crédits gratuits à l’inscription et permet d’acheter des crédits supplémentaires pour générer davantage d’images. Le site propose également des options pour choisir la résolution des images générées.
- Playground AI : Stable Diffusion 2.0 est disponible gratuitement sur Playground AI, une plateforme proposant divers outils de génération d’images basés sur l’intelligence artificielle. Chaque utilisateur dispose d’une limite quotidienne de 1000 images, avec la possibilité d’acheter des crédits supplémentaires.
- Replicate : Cette plateforme permet de partager et d’utiliser des modèles d’apprentissage automatique via une API. Un utilisateur nommé cjwbw a créé une application de test pour Stable Diffusion 2.0, permettant de générer des images à partir de textes.
- BaseTen : Cette plateforme MLOps propose une page de démonstration pour utiliser Stable Diffusion via une API. L’outil est simple d’utilisation et ne semble pas imposer de limite de génération d’images.
- Easy Diffusion : Application de bureau disponible pour Windows, MacOS ou Linux (voir les instructions d’installation). L’application permet d’utiliser localement le modèle Stable Diffusion 2.x via une interface graphique claire et agréable. Il fonctionne sur tous les ordinateurs récents, même avec une carte graphique standard.
Installer Stable Diffusion sur son ordinateur
Il est également possible d’installer Stable Diffusion sur son propre ordinateur pour générer des images localement.
Pour ce faire, suivez les étapes ci-dessous :
- Rendez-vous sur le dépôt GitHub de Stable Diffusion 2.1 : https://github.com/Stability-AI/stablediffusion et téléchargez le code source.
- Assurez-vous d’avoir installé Python et les bibliothèques nécessaires, telles que TensorFlow et PyTorch, sur votre ordinateur.
- Suivez les instructions du fichier README du dépôt GitHub pour configurer et exécuter le modèle sur votre machine.
- Téléchargez les poids du modèle (fichier ckpt)
- Lancez les commandes Python indiquées pour utiliser les fonctionnalités souhaitées. Exemple :
python scripts/txt2img.py --prompt "a fluffy unicorn flying over a rainbow" --ckpt path/to/v2-1_768-ema-pruned.ckpt --config configs/stable-diffusion/v2-inference-v.yaml --H 768 --W 768
Le dépôt mentionné ci-dessus est le dépôt officiel de Stable Diffusion par Stability AI. Mais il existe de nombreux autres dépôts, certains permettant de déployer Stable Diffusion en Docker, d’autres projets proposent une interface utilisateur, et enfin, vous trouverez également un certain nombre de notebooks Google Collab qui vous permettront d’installer Stable Diffusion sur votre ordinateur.
Spécifications minimales pour exécuter Stable Diffusion en local :
Vous devez disposer d’une carte graphique dotée d’au moins 6 Go de VRAM, ce qui est la norme des cartes milieu de gamme ces dernières années.
Il vous faudra également 10 Go de disque dur / SSD disponible pour stocker le modèle.
Qualité des images générées par Stable Diffusion
Stable Diffusion est reconnu pour sa capacité à générer des images de belle qualité à partir de descriptions en langage naturel. Les images produites sont souvent photoréalistes et fidèles aux descriptions fournies. Les détails sont impressionnants, et le modèle parvient à capturer l’essence des objets, des scènes et des concepts décrits dans les textes d’entrée.
Plusieurs exemples concrets illustrent la qualité des images générées par Stable Diffusion. Par exemple, lorsqu’on lui demande de créer une image d’un paysage montagneux avec un lac et des arbres, le modèle produit une image réaliste et esthétiquement plaisante, avec des montagnes bien définies, un lac reflétant le ciel et des arbres répartis harmonieusement dans la scène.
<image>
Il est également capable de générer des images dans différents styles artistiques, comme le cubisme, l’impressionnisme ou le pop art, en l’indiquant dans la description du prompt. Cela témoigne de la flexibilité et de la polyvalence du modèle, qui peut s’adapter à une grande variété de préférences esthétiques.
Astuces et bonnes pratiques pour obtenir les meilleurs images avec Stable Diffusion
Pour obtenir les meilleurs résultats avec Stable Diffusion, voici quelques astuces et bonnes pratiques à suivre :
1. Soyez précis dans vos descriptions : Plus vous fournissez de détails dans votre texte d’entrée, plus le modèle aura d’informations pour générer une image précise et réaliste. Par exemple, au lieu de demander simplement une « maison », décrivez le type de maison, les matériaux utilisés, la couleur, le nombre d’étages, etc.
2. Utilisez des termes clairs et simples : Essayez d’utiliser des mots et des phrases simples et compréhensibles pour décrire ce que vous voulez. Cela facilitera la tâche du modèle pour interpréter correctement vos instructions.
3. Expérimentez différents textes d’entrée : Si vous n’obtenez pas le résultat souhaité du premier coup, n’hésitez pas à modifier votre texte d’entrée et à essayer différentes formulations ou descriptions. Cela peut aider le modèle à mieux comprendre ce que vous voulez et à générer une image plus proche de vos attentes.
4. Utilisez des prompts négatifs si nécessaire : Si vous souhaitez exclure certains éléments ou caractéristiques de l’image générée, vous pouvez utiliser des prompts négatifs pour guider le modèle. Par exemple, si vous voulez une image d’un paysage sans bâtiments, vous pouvez ajouter « sans bâtiments » à votre description.
5. Explorez les paramètres avancés : Certains services en ligne et implémentations de Stable Diffusion offrent des paramètres avancés pour ajuster la qualité de l’image, le temps de génération, le type de rendu et d’autres aspects qui influent sur les algorithmes de génération d’images. N’hésitez pas à jouer avec ces paramètres pour trouver le meilleur compromis entre qualité, créatvité et rapidité.
En suivant ces conseils et en prenant le temps de vous familiariser avec le fonctionnement de Stable Diffusion, vous serez en mesure d’obtenir de très belles images, qui répondent à vos attentes et reflètent fidèlement vos descriptions.
Les avantages de Stable Diffusion
Open source et gratuit
En ce qui concerne sa licence, Stable Diffusion est open source et se distingue des modèles concurrents tels que Dall-E, Midjourney et Imagen qui sont propriétaires. Cela signifie que le code source du modèle est accessible au public, permettant ainsi aux chercheurs et aux développeurs du monde entier de contribuer à l’amélioration du modèle et de l’adapter à leurs propres besoins. Bien que sa licence CreativeML Open RAIL-M ne permette pas de le définir Stable Diffusion comme un logiciel libre en raison de certaines restrictions d’utilisation, elle offre néanmoins une plus grande accessibilité et transparence par rapport aux modèles propriétaires.
En permettant ainsi une utilisation gratuite via divers services en ligne ou en installant le modèle sur son propre ordinateur, Stable Diffusion permet à tous de s’essayer à la génération d’images par IA, sans avoir à y consacrer de budget.
Une communauté d’entraide
Comme la plupart des solutions open source, Stable Diffusion est suivi par une importante communauté de passionnés et de scientifique qui échangent pour améliorer l’outil, et s’entraident mutuellement pour permettre à chacun d’en tirer les meilleurs résultats et résoudre les difficultés rencontrées. Cette communauté se retrouve notamment sur HuggingFace, Reddit et Instagram pour échanger des astuces, partager des images et surtout des prompts. Si vous souhaiter apprendre à créer des images avec Stable Diffusion, nous vous recommandons de consulter et de contribuer à ces espaces d’échange.
Un grand choix d’implémentations
Que vous souhaitiez utiliser l’utiliser en ligne via un des nombreux services qui met à disposition le modèle Stable Diffusion, ou que vous préfériez l’utiliser localement en l’installant dans votre ordinateur, vous aurez un vaste choix de solutions (voir « Comment utiliser Stable Diffusion »). Professionnel, passionné ou simple curieux, chacun pourra trouver sa manière d’utiliser Stable Diffusion et la solution qui répondra à ses attentes et à ses besoins.
Les limites de Stable Diffusion
Bien que Stable Diffusion présente des atouts indéniables, il n’est pas exempt de défauts et dans la mesure où tout le monde peut l’utiliser sans réel filtre, il peut poser quelques préoccupations éthiques. Il est important d’être conscient des biais potentiels, des questions de droits d’auteur et des limitations matérielles lorsqu’on utilise ce modèle et les images qu’il génère.
Problèmes potentiels de droits d’auteur
Le modèle Stable Diffusion est formé sur un ensemble de données qui peut inclure du contenu protégé par le droit d’auteur sans le consentement des artistes originaux. Par conséquent, il existe un risque que les images générées enfreignent les droits d’auteur, ce qui soulève des questions légales et éthiques.
Biais algorithmique et perspective occidentale
L’un des principaux inconvénients de Stable Diffusion est le biais algorithmique potentiel. Étant donné que le modèle a été principalement formé une base d’images accompagnées de descriptions en anglais, les images générées peuvent renforcer les stéréotypes sociaux et refléter une perspective occidentale. Cela peut limiter la diversité culturelle et la représentativité des images produites par le modèle.
Utilisation de l’IA pour créer des deepfakes
Stable Diffusion peut être utilisé pour créer des deepfakes, c’est-à-dire des images ou vidéos manipulées numériquement pour représenter une personne réelle dans une situation fictive ou trompeuse. Ces contenus peuvent avoir un impact négatif sur la vie privée, la réputation et la sécurité des individus concernés.
Conclusion
Stable diffusion est une alternative open source très sérieuse aux grandes solutions d’intelligence artificielle générative d’images propriétaires. La gratuité est son principal atout, mais cela n’en fait pas pour autant une solution au rabais, bien au contraire. La qualité des images produites n’a rien à envier à la concurrence, et de nombreuses solutions du marché reposent d’ailleurs sur la technologie de Stable Diffusion.
Le fait de pouvoir choisir parmi plusieurs services et même de pouvoir l’installer dans son propre ordinateur sont des avantages indéniables, pour les particuliers comme pour les professionnels qui pourront même adapter et entrainer le modèle avec leurs propres images.
Specification: Stable Diffusion
|
User Reviews
Be the first to review “Stable Diffusion” Annuler la réponse
You must be logged in to post a review.
There are no reviews yet.