Los mejores métodos gratuitos para crear imágenes de IA mediante difusión estable
¿Alguna vez has deseado generar imágenes con IA sin depender de herramientas en línea? Muchos generadores de imágenes en línea gratuitos limitan la cantidad de resultados y, a menudo, solicitan suscripciones después de unos pocos intentos. Presentamos Stable Diffusion: un generador de imágenes con IA gratuito y de código abierto que te permite crear imágenes en casa sin limitaciones.
¿Qué es la difusión estable?
Stable Diffusion es un marco gratuito de código abierto que transforma texto en imágenes visuales según sus descripciones. Aunque no es una aplicación independiente, funciona como una tecnología clave utilizada por varias aplicaciones. Cuando se trata de IA generativa para la creación de imágenes, Stable Diffusion sigue siendo uno de los principales contendientes. Esta guía destaca tres enfoques para utilizar Stable Diffusion, que van desde los más sencillos para principiantes hasta los más complejos, con características únicas dentro de cada método.
Requisitos del sistema
Aquí están las especificaciones recomendadas para una experiencia exitosa:
- macOS: Apple Silicon (chip de la serie M)
- Windows o Linux: GPU NVIDIA o AMD
- RAM: 16 GB para un rendimiento óptimo
- VRAM de GPU: al menos 4 GB (se prefieren 8 GB)
- Almacenamiento: 60-70 GB de espacio disponible
1. Uso de la interfaz web de Automatic1111
El primer enfoque implica utilizar la interfaz web AUTOMATIC1111 para acceder a Stable Diffusion, compatible con todos los sistemas operativos principales.
Comience descargando la última versión estable de Python . Después de la descarga, ejecute el instalador y asegúrese de seleccionar Agregar python.exe a PATH antes de hacer clic en Instalar ahora .
A continuación, dirígete al repositorio de la interfaz web AUTOMATIC1111 en GitHub, haz clic en Código y selecciona Descargar ZIP . Una vez que se complete la descarga, descomprime el archivo y recuerda la ubicación donde se instaló la interfaz web.
Instalar un modelo
Antes de comenzar a utilizar la interfaz web, debe instalar al menos un modelo. Estos modelos son puntos de control entrenados previamente que determinan el estilo artístico para la generación de imágenes. Para seleccionar un modelo, visite CIVITAI y elija el que más le interese.
Después de encontrar el modelo que prefiera, haga clic en el botón de descarga. Una vez completado, transfiera el archivo de punto de control ‘.safetensors’ a la carpeta correcta. Navegue hasta el directorio de descarga de su interfaz web Automatic1111 y luego vaya a webui -> models -> Stable-diffusion . Pegue el archivo del modelo descargado en este directorio y estará listo.
Ejecutar y configurar la interfaz web
Ahora, puedes ejecutar y utilizar Stable Diffusion directamente en tu navegador web.
En macOS, acceda a su carpeta “stable-diffusion-webui” a través de la Terminal y ejecute el comando ./webui.sh --xformers
. Para usuarios de Windows, ejecute ./webui-user.bat
. Una vez completado, copie la URL proporcionada junto a “Ejecutando en URL local”, que generalmente aparece como http://127.0.0.1:7860 .
Ingresa la URL en la barra de direcciones de tu navegador y presiona Enter. La interfaz web se cargará localmente en tu navegador de Internet predeterminado. Aunque la interfaz inicial puede parecer abrumadora, no necesitarás ajustar muchas configuraciones al principio.
Comience ajustando los parámetros Ancho y Alto y estableciendo el tamaño del lote en 4, lo que generará cuatro imágenes distintas para cada solicitud.
A continuación, introduce cualquier mensaje creativo en la pestaña txt2img . Especifica los detalles que quieres que tenga la imagen y separa los distintos descriptores con comas. Además, describe el estilo artístico utilizando términos como «realista», «detallado» o «retrato en primer plano».
En el cuadro de indicaciones negativas, incluya los elementos que desee excluir de su imagen. Considere modificar la configuración de “Escala CFG”; un valor más alto hace que el generador se ajuste más a las indicaciones dadas, mientras que un valor más bajo permite resultados más creativos.
No modifique los demás ajustes y haga clic en Generar en la parte superior para comenzar el proceso de generación de imágenes. Luego, puede hacer clic en las imágenes en miniatura para verlas y decidir si cumplen con sus expectativas. Si no es así, no dude en ajustar la escala CFG y las indicaciones. Durante esta etapa, se utilizará mucho su GPU.
Si encuentra una imagen que le gusta pero desea refinarla o corregir problemas (como rasgos distorsionados), haga clic en Enviar a img2img o Enviar a inpaint . Esta opción transferirá su imagen y sus indicaciones a sus respectivas pestañas para mejorarlas aún más.
2. Explorando Fooocus: el generador de imágenes con IA más sencillo
Fooocus se destaca como una de las herramientas de generación de imágenes con IA más simples y efectivas que existen. Su interfaz intuitiva la hace accesible para principiantes que quieran experimentar con la creación de imágenes con IA antes de sumergirse en métodos más complejos.
Descarga el archivo comprimido de Fooocus y extráelo una vez que finalice la descarga. A continuación, dirígete a CIVITAI para elegir el punto de control que te guste. Después de descargar el punto de control, navega hasta la carpeta de Fooocus. Haz clic en Fooocus -> modelos -> puntos de control y coloca allí el archivo de punto de control que descargaste.
También puedes descargar archivos LoRA de Civitai, que son archivos más pequeños que mejoran los modelos de lenguaje de gran tamaño con nuevos conceptos o estilos. A diferencia de los puntos de control, que pueden tener varios gigabytes, los archivos LoRA añaden elementos distintivos a las imágenes finales mientras utilizan un punto de control existente.
Si elige utilizar un LoRA para mejorar el estilo visual de sus imágenes de IA, regrese a la carpeta de modelos en su directorio Fooocus y pegue el archivo LoRA en la carpeta loras .
Corriendo Fooocus
Es hora de comenzar a generar imágenes en Fooocus. Navegue hasta la carpeta donde extrajo el software y haga doble clic en run.bat . Aparecerá el símbolo del sistema y cargará automáticamente la interfaz de Fooocus en su navegador web.
En la pantalla de inicio, asegúrate de marcar la opción Avanzada en la parte inferior, que mostrará configuraciones adicionales. Aquí, puedes seleccionar la relación de aspecto deseada, la cantidad de imágenes que generará Fooocus por mensaje y elegir el formato de archivo de imagen.
En primer lugar, configure la opción de rendimiento en Velocidad , ya que esto aumentará significativamente la velocidad de generación de imágenes. En la parte inferior, ingrese indicaciones negativas para elementos no deseados.
Coloca el cursor sobre cada estilo para obtener una vista previa. Luego, ve a la pestaña Modelos, donde puedes seleccionar el modelo base que has colocado en tu carpeta Fooocus. Justo debajo, elige un LoRA si tienes alguno instalado.
Lo único que queda es hacer clic en el botón Generar y ver cómo Fooocus crea las imágenes que desea. Si bien puede que no sea el generador de imágenes más potente disponible, Fooocus ciertamente demuestra ser el método más sencillo, ya que permite realizar ajustes sencillos de estilos, puntos de control y LoRA para crear las imágenes ideales.
Utilizando el intercambio de caras con IA en Fooocus
Fooocus incluso cuenta con una función FaceSwap, que te permite reemplazar caras en una imagen por otras. Primero, marca la opción Imagen de entrada en la parte inferior, luego selecciona Solicitud de imagen . Aquí, carga la imagen con la que quieres intercambiar la cara. Desplázate hacia abajo, haz clic en Avanzado nuevamente y, entre las opciones, elige FaceSwap .
Junto a la sección Solicitud de imagen , haz clic en la pestaña Inpaint o Outpaint y carga la imagen para el intercambio de rostros. Delinea el rostro y el cabello, luego ve a la pestaña Advanced en la esquina superior derecha. Activa Developer Debug Mode , haz clic en Control y marca la casilla Mixing Image Prompt and Inpaint .
Una vez hecho esto, desmarque el cuadro de diálogo y haga clic en Generar . Esto ejecutará el intercambio de rostros con la imagen seleccionada, lo que producirá distintos resultados.
Después de generar sus imágenes, es posible que desee mejorarlas utilizando algunas herramientas de ampliación de imágenes con inteligencia artificial de primer nivel para mejorar su resolución.
3. Generación de imágenes de IA con ComfyUI
ComfyUI es otro método preferido para aprovechar Stable Diffusion para la creación de imágenes con IA. Si bien el flujo de trabajo puede ser más atractivo, también es más complejo. Para comenzar, descargue y extraiga ComfyUI de GitHub.
Probablemente ya esté familiarizado con los puntos de control y las LoRA. Como se mencionó anteriormente, descargue un archivo de punto de control (y un archivo LoRA si lo desea) y colóquelo en las carpetas correctas dentro del directorio de modelos de ComfyUI. En su directorio ComfyUI, abra la carpeta Update y ejecute update_comfyui.bat para preparar la configuración.
Ahora es el momento de ejecutar el generador de imágenes de IA de ComfyUI. Vuelve al directorio de ComfyUI, donde deberías ver dos archivos por lotes. Si tienes una GPU Nvidia, haz doble clic en run_nvidia_gpu.bat ; de lo contrario, ejecuta run_cpu.bat .
Una vez que ComfyUI se inicia en su navegador, verá su flujo de trabajo predeterminado, que incluye varios nodos interconectados. Si bien puede parecer complejo al principio, estos nodos representan varios pasos en el proceso de generación de imágenes de IA.
Los múltiples nodos le permiten crear un flujo de trabajo personalizado, integrando diferentes nodos, modelos, LoRA y refinadores, lo que otorga a los usuarios un amplio control sobre el resultado final. Sin embargo, esta complejidad puede hacer que ComfyUI sea difícil de navegar y dominar.
Ejecución de ComfyUI
Para comenzar, seleccione un punto de control en el nodo Cargar punto de control . Vaya al nodo Codificación de texto CLIP (Indicación) , donde ingresará la indicación de texto para la imagen. Debajo de este, hay un nodo de indicación negativa correspondiente para descripciones no deseadas. En el nodo Imagen latente vacía , puede ajustar el ancho, la altura y la cantidad de imágenes que desea generar.
Una vez que hayas configurado las indicaciones, ajusta las dimensiones de la imagen, el tamaño del lote y los pasos clave para el procesamiento. Generalmente, con entre 20 y 30 pasos se obtiene una imagen de buena calidad. Por último, pulsa el botón Poner en cola las indicaciones y deja que ComfyUI haga el trabajo.
Uso de LoRA en ComfyUI
Para incluir ciertas LoRA en ComfyUI, simplemente haga clic derecho cerca del nodo de punto de control y elija Agregar nodo -> cargadores -> Cargar LoRA . Seleccione cualquier LoRA de su carpeta en el directorio.
Sin embargo, tenga en cuenta que cada vez que se agregue un nuevo nodo LoRA, deberá reorganizar las conexiones. Arrastre la línea desde el nodo Punto de control etiquetado Modelo hasta el punto de entrada del modelo del nodo LoRA en el lado izquierdo en lugar del KSampler. Luego, vuelva a conectar el punto de salida del nodo LoRA a la entrada del modelo del KSampler.
Asegúrese de que ambas líneas de Clip del nodo de punto de control estén dirigidas a cada nodo de indicación. De manera similar, conecte los puntos de entrada del lado izquierdo del Clip de LoRA a las indicaciones positivas y negativas.
Al comprender el flujo de trabajo predeterminado y agregar progresivamente nodos personalizados, podrá utilizar ComfyUI de manera competente para sus necesidades de generación de imágenes de IA.
Preguntas frecuentes
¿Cómo se diferencian Stable Diffusion, DALL-E y Midjourney?
Los tres sistemas de IA pueden producir imágenes a partir de indicaciones de texto, pero solo Stable Diffusion es completamente gratuito y de código abierto. Puede instalarlo y ejecutarlo en su computadora sin costo alguno, mientras que DALL-E y Midjourney son software propietario.
¿Qué es exactamente un modelo en Difusión Estable?
Un modelo funciona como un archivo que incorpora un algoritmo de IA entrenado con imágenes y palabras clave específicas. Varios modelos se destacan por generar distintos tipos de elementos visuales. Por ejemplo, algunos pueden estar optimizados para representaciones humanas realistas, mientras que otros son más adecuados para ilustraciones en 2D o diversos estilos artísticos.
Crédito de la imagen: Imagen destacada de Stable Diffusion. Todas las capturas de pantalla fueron proporcionadas por Brandon Li y Samarveer Singh.
Deja una respuesta