🌟 Stable Diffusion. Genera cualquier imagen o video

Genera cualquier tipo de imagen a partir de texto, retoca imágenes ya existentes, inventa fotografías a partir de un boceto dibujado, modifica posiciones de personajes, fabrica deepfakes... Stable Diffusion (SD) es de código abierto y gratuito, con lo que la comunidad se está poniendo mucho las pilas y cada día aparecen nuevas utilidades. Se instala en tu ordenador, con lo que el control es completo. Puedes crear modelos de personajes u objetos, de tipos de iluminación... De esta forma podrás reproducir esos modelos en cualquier imagen o vídeo.

Existe una versión demo online, pero es extremadamente reducida comparada con la versatilidad del programa en local. Si es verdad, que esta versión (Stable Diffusion XL) resulta útil para probar prompts mientras estás trabajando con SD en local o cuando tu ordenador no es demasiado potente. No recomiendo la versión en MacOS puesto que la instalación más común recurre a DiffusionBee, que no es más que una pequeña muestra de lo que realmente puede hacer SD. Lo ideal hasta el momento es trabajar con SD en local en Windows o Linux.

🌍 Tutorial de instalación en Windows con A1111 WebUI Launcher (el canal es un buen curso de SD). 🌍

🌍 Otro tutorial de instalación en Windows (el canal enseña a utilizar SD) 🌍

🌍 Existe la opción de instalarlo en remoto en Google Colab. 🌍

Stable Diffusion es un modelo de aprendizaje automático desarrollado por Runway y LMU Múnich1para generar imágenes digitales de alta calidad a partir de descripciones en lenguaje natural o estímulos (prompts en inglés). El modelo se puede usar para diferentes tareas, como la generación de traducciones de imagen a imagen guiadas por mensajes de texto y la mejora de imágenes.

A diferencia de modelos de la competencia como DALL-E, Stable Diffusion es de código abierto y no limita artificialmente las imágenes que produce. Los críticos han expresado su preocupación por la ética de la IA, afirmando que el modelo se puede utilizar para crear deepfakes. Puede ejecutarse en el hardware del usuario equipado con una tarjeta gráfica (GPU), es completamente gratis, se puede acceder a él en línea y fue elogiado por PC World como "la próxima aplicación revolucionaria para su PC".

Existen una gran cantidad de extensiones como:

Controlnet: para generar o corregir poses de personajes (OpenPose), controlar un patrón de profundidad o encuadre, trabajar desde bocetos, posee herramienta de inpaint mucho más potentes...
Photopea: una especie de Photoshop.
Prompt Generator: para generar automáticamente prompts de texto más potentes
Infinite Zoom: para generar animaciones de zoom in o zoom out.
OpenPose con PoseX y Depth library: para controlar las poses de los personajes.
FaceSwapLab: para hacer deep fakes poniendo cualquier cara a partir de una o varias fotografías en otra imagen o vídeo. Antes se utilizaba Roop.
Ultimate Upscale: para reescalar las imágenes.
Pix2Pix: para cambiar cualquier elemento de una imagen
Inpaint Anything: cambiar cualquier elemento de la imagen mediante máscaras.
Outpaiting: Ampliar la imagen.
...

Todo ello sin contar con la enorme comunidad generando y publicando en webs como CivitAI modelos de iluminación, personajes, estilos...

Respecto a los prompts, es útil saber que se puede controlar el peso de los términos utilizados mediante el siguiente código (término:1.0), siendo el número con decimal el peso respectivo que tendrá el término en la imagen siendo 0.5 un peso bajo y 3.5 un peso muy muy alto que producirá aberraciones. Me explico: en el prompt "Un elefante haciendo surf en el polo norte con un (iglú:1.9) de fondo" el iglú tendrá bastante presencia en la imagen aún tratándose de un elemento secundario. Si escribiéramos "Un elefante haciendo surf en el (polo norte:0.2) con un iglú de fondo" es bastante probable que el elefante aparezca en una playa y el programa se olvide por completo de representar hielo o elementos invernales.

🌍 Cómo generar encuadres concretos. 🌍

🌍 Qué son los Samplers. 🌍

Según SD, las imágenes generadas con esa aplicación son de dominio público. Es decir, se supone que no puedes lucrarte con ello. Dall-E da los derechos directamente al usuario que genera el prompt, mientras MidJourney dice que los derechos son compartidos y se puede lucrar tanto el usuario como la plataforma.

TAGS: imagen, video, gratis, local, retoque fotográfico, deepfake, imprescindible

Buscar este blog

🌟 Stable Diffusion. Genera cualquier imagen o video

Comentarios

Publicar un comentario