Najlepsze darmowe metody tworzenia obrazów AI przy użyciu stabilnej dyfuzji

2024/11/07

Artysta cyfrowy pracujący w futurystycznym środowisku, wykorzystujący zaawansowany układ komputerowy z wieloma ekranami.

Czy kiedykolwiek chciałeś generować obrazy AI bez polegania na narzędziach online? Wiele darmowych generatorów obrazów online ogranicza liczbę wyników i często wymaga subskrypcji po zaledwie kilku próbach. Przedstawiamy Stable Diffusion: darmowy i open-source’owy generator obrazów AI, który pozwala tworzyć obrazy w domu bez ograniczeń.

Czym jest dyfuzja stabilna?

Stable Diffusion to darmowy, open-source’owy framework, który przekształca tekst w obrazy wizualne na podstawie Twoich opisów. Chociaż nie jest to samodzielna aplikacja, służy jako kluczowa technologia wykorzystywana przez różne aplikacje. Jeśli chodzi o generatywną sztuczną inteligencję do tworzenia obrazów, Stable Diffusion pozostaje jednym z głównych kandydatów. Ten przewodnik podkreśla trzy podejścia do wykorzystania Stable Diffusion, od przyjaznych dla początkujących po bardziej złożone, z unikalnymi cechami w ramach każdej metody.

Wymagania systemowe

Oto zalecane wymagania, które należy spełnić, aby doświadczenie było udane:

macOS: Apple Silicon (chip serii M)
Windows lub Linux: GPU NVIDIA lub AMD
Pamięć RAM: 16 GB dla optymalnej wydajności
Pamięć VRAM GPU: co najmniej 4 GB (preferowane 8 GB)
Pamięć masowa: 60-70 GB dostępnej przestrzeni

1. Korzystanie z interfejsu użytkownika Automatic1111 WebUI

Pierwsze podejście polega na wykorzystaniu internetowego interfejsu użytkownika AUTOMATIC1111 w celu uzyskania dostępu do Stable Diffusion, kompatybilnego ze wszystkimi głównymi systemami operacyjnymi.

Zacznij od pobrania najnowszej stabilnej wersji Pythona . Po pobraniu uruchom instalator i upewnij się, że wybrałeś Dodaj python.exe do PATH przed kliknięciem Zainstaluj teraz .

Zrzut ekranu przedstawiający instalator języka Python 3.13.0 dla systemu Windows.

Następnie przejdź do repozytorium AUTOMATIC1111 Web UI na GitHub, kliknij na Code i wybierz Download ZIP . Po zakończeniu pobierania rozpakuj plik i zapamiętaj lokalizację, w której zainstalowano WebUI.

Zainstaluj model

Zanim zaczniesz korzystać z interfejsu użytkownika sieci Web, musisz zainstalować co najmniej jeden model. Modele te są wstępnie wytrenowanymi punktami kontrolnymi, które określają styl artystyczny generowania obrazu. Aby wybrać model, odwiedź CIVITAI i wybierz ten, który Ci odpowiada.

Zrzut ekranu ze strony CIVIT.AI pokazujący przykłady tego, co może wygenerować model obrazu Pony Realism AI oparty na technologii Stable Diffusion.

Po znalezieniu preferowanego modelu kliknij przycisk pobierania. Po zakończeniu przenieś plik punktu kontrolnego „.safetensors” do właściwego folderu. Przejdź do katalogu pobierania dla swojego Automatic1111 WebUI, a następnie przejdź do webui -> models -> Stable-diffusion . Wklej pobrany plik modelu do tego katalogu i gotowe.

Uruchom i skonfiguruj WebUI

Teraz możesz uruchomić i używać Stable Diffusion bezpośrednio w przeglądarce internetowej.

W systemie macOS uzyskaj dostęp do folderu „stable-diffusion-webui” za pomocą terminala i uruchom polecenie ./webui.sh --xformers. W przypadku użytkowników systemu Windows wykonaj polecenie ./webui-user.bat. Po zakończeniu skopiuj adres URL podany obok „Uruchomiony na lokalnym adresie URL”, który zwykle pojawia się jako http://127.0.0.1:7860 .

Zrzut ekranu terminala macOS pokazujący uruchomiony lokalnie generator obrazów Stable Diffusion Automatic1111 AI.

Wprowadź adres URL w pasku adresu przeglądarki i naciśnij Enter. Interfejs użytkownika sieci Web zostanie załadowany lokalnie w domyślnej przeglądarce internetowej. Chociaż początkowy interfejs może wydawać się przytłaczający, początkowo nie będziesz musiał dostosowywać wielu ustawień.

Zacznij od dostosowania parametrów Szerokość i Wysokość i ustawienia rozmiaru partii na 4, co spowoduje wygenerowanie czterech odrębnych obrazów dla każdego monitu.

Zrzut ekranu programu Automatic1111 wykorzystującego technologię Stable Diffusion do generowania obrazu za pomocą sztucznej inteligencji.

Następnie wprowadź dowolny kreatywny monit w zakładce txt2img . Określ szczegółowo szczegóły, które chcesz uzyskać na obrazie, oddzielając różne deskryptory przecinkami. Ponadto opisz styl artystyczny, używając terminów takich jak „realistyczny”, „szczegółowy” lub „portret z bliska”.

Zrzut ekranu przedstawiający wprowadzanie poleceń w programie Automatic1111.

W polu dla negatywnych podpowiedzi uwzględnij wszystkie elementy, które chcesz wykluczyć ze swojego obrazu. Rozważ modyfikację ustawienia „Skala CFG”; wyższa wartość powoduje, że generator ściślej trzyma się podanych przez Ciebie podpowiedzi, podczas gdy niższa wartość umożliwia bardziej kreatywne wyniki.

Pozostaw pozostałe ustawienia bez zmian i kliknij Generate na górze, aby rozpocząć proces generowania obrazu. Następnie możesz kliknąć miniatury obrazów, aby je wyświetlić i zdecydować, czy spełniają Twoje oczekiwania. Jeśli nie, możesz swobodnie dostosować skalę CFG i swoje monity. Na tym etapie Twój GPU będzie intensywnie wykorzystywany.

Zrzut ekranu przedstawiający wiele obrazów wygenerowanych przez model sztucznej inteligencji Stable Diffusion.

Jeśli znajdziesz obraz, który Ci się podoba, ale chcesz udoskonalić lub naprawić problemy (np. zniekształcone cechy), kliknij Wyślij do img2img lub Wyślij do inpaint . Ta opcja przeniesie Twój obraz i monity do odpowiednich kart w celu dalszego ulepszenia.

2. Odkrywanie Fooocus: najłatwiejszy generator obrazów AI

Fooocus wyróżnia się jako jedno z najprostszych i najskuteczniejszych dostępnych narzędzi do generowania obrazów AI. Jego intuicyjny interfejs sprawia, że jest on dostępny dla początkujących, którzy chcą eksperymentować z tworzeniem obrazów AI, zanim zanurzą się w bardziej skomplikowane metody.

Zrzut ekranu z CIVIT.AI przedstawiający przykłady obrazów wygenerowanych przez sztuczną inteligencję z wykorzystaniem technologii Stable Diffusion, na przykład górską świątynię i młodą kobietę o blond włosach.

Pobierz skompresowany plik Fooocus i rozpakuj go po zakończeniu pobierania. Następnie przejdź do CIVITAI, aby wybrać punkt kontrolny, który Ci odpowiada. Po pobraniu punktu kontrolnego przejdź do folderu Fooocus. Kliknij Fooocus -> models -> checkpoints i umieść tam pobrany plik punktu kontrolnego.

Zrzut ekranu katalogu punktów kontrolnych w oprogramowaniu do generowania obrazów Fooocus AI.

Możesz również pobrać LoRA z Civitai, które są mniejszymi plikami, które wzbogacają duże modele językowe o nowe koncepcje lub style. W przeciwieństwie do punktów kontrolnych, które mogą mieć kilka gigabajtów, LoRA dodają charakterystyczne elementy do ostatecznych obrazów, wykorzystując istniejący punkt kontrolny.

Przykład pliku LoRA do pobrania z CIVIT.AI.

Jeśli zdecydujesz się na użycie LoRA w celu ulepszenia stylu wizualnego swoich obrazów AI, wróć do folderu models w katalogu Fooocus i wklej plik LoRA do folderu loras .

Bieganie Fooocus

Czas zacząć generować obrazy w Fooocus. Przejdź do folderu, w którym wypakowałeś oprogramowanie i kliknij dwukrotnie run.bat . Pojawi się wiersz poleceń i automatycznie załaduje interfejs Fooocus w przeglądarce internetowej.

Zrzut ekranu przedstawiający przepływ pracy interfejsu użytkownika Fooocus podczas generowania obrazu Stable Diffusion z ustawieniami zaawansowanymi.

Na ekranie otwierającym upewnij się, że zaznaczyłeś opcję Zaawansowane na dole, która ujawni dodatkowe ustawienia. Tutaj możesz wybrać pożądany współczynnik proporcji, liczbę obrazów, które Fooocus wygeneruje na monit, i wybrać format pliku obrazu.

Początkowo ustaw opcję wydajności na Szybkość , ponieważ znacznie zwiększy to szybkość generowania obrazu. Na dole wprowadź negatywne monity dla niechcianych elementów.

Najedź kursorem na każdy styl, aby go podejrzeć. Następnie przejdź do zakładki Modele, gdzie możesz wybrać model bazowy, który umieściłeś w folderze Fooocus. Bezpośrednio poniżej wybierz LoRA, jeśli masz zainstalowany.

Obraz przedstawiający dwie wizualizacje wygenerowane przez sztuczną inteligencję w grze Fooocus, przedstawiające futurystyczną kobietę w cyberpunkowym otoczeniu.

Pozostaje tylko kliknąć przycisk Generate i zobaczyć, jak Fooocus tworzy pożądane obrazy. Choć może nie jest to najpotężniejszy dostępny generator obrazów, Fooocus z pewnością okazuje się najprostszą metodą, umożliwiającą łatwe dostosowywanie stylów, punktów kontrolnych i LoRA w celu tworzenia idealnych obrazów.

Wykorzystanie zamiany twarzy AI w Fooocus

Fooocus oferuje nawet funkcję FaceSwap, która pozwala na zamianę twarzy na obrazie na inne. Najpierw zaznacz opcję Input Image na dole, a następnie wybierz Image Prompt . Tutaj prześlij obraz, na który chcesz zamienić twarz. Przewiń w dół, kliknij ponownie Advanced i z opcji wybierz FaceSwap .

Zrzut ekranu z generatora obrazów Fooocus AI, przedstawiający futurystyczną kobietę-cyborga poddaną operacji FaceSwap.

Obok sekcji Image Prompt kliknij na zakładkę Inpaint lub Outpaint i prześlij obraz do zamiany twarzy. Narysuj kontur twarzy i włosów, a następnie przejdź do zakładki Advanced w prawym górnym rogu. Aktywuj tryb debugowania programisty , kliknij Control i zaznacz pole wyboru Mixing Image Prompt and Inpaint .

Obraz przedstawiający funkcję inpaintingu w programie Fooocus, podświetlający twarz, która ma zostać zamieniona.

Po wykonaniu tej czynności wyczyść pole monitu i kliknij Generuj . Spowoduje to wykonanie zamiany twarzy z wybranym obrazem, co da różne rezultaty.

Wynik zamiany twarzy wykonanej przez generator obrazów Fooocus AI.

Po wygenerowaniu obrazów możesz chcieć je udoskonalić, korzystając z najlepszych narzędzi do skalowania obrazów opartych na sztucznej inteligencji (AI), aby zwiększyć ich rozdzielczość.

3. Generowanie obrazów AI za pomocą ComfyUI

ComfyUI to kolejna preferowana metoda wykorzystania Stable Diffusion do tworzenia obrazów AI. Chociaż przepływ pracy może być bardziej angażujący, jest również bardziej złożony. Aby rozpocząć, pobierz i wyodrębnij ComfyUI z GitHub.

Prawdopodobnie jesteś już zaznajomiony z punktami kontrolnymi i LoRA. Jak wspomniano wcześniej, pobierz plik punktu kontrolnego (i plik LoRA, jeśli chcesz) i umieść go w odpowiednich folderach w katalogu models w ComfyUI. W katalogu ComfyUI otwórz folder Update i uruchom update_comfyui.bat , aby przygotować konfigurację.

Zrzut ekranu katalogu ComfyUI w systemie Windows, wyświetlający plik wsadowy aktualizacji i jego okno wiersza poleceń.

Teraz czas uruchomić generator obrazów ComfyUI AI. Wróć do katalogu ComfyUI, gdzie powinieneś zobaczyć dwa pliki wsadowe. Jeśli masz kartę graficzną Nvidia, kliknij dwukrotnie run_nvidia_gpu.bat ; w przeciwnym razie uruchom run_cpu.bat .

Po uruchomieniu ComfyUI w przeglądarce zobaczysz jego domyślny przepływ pracy, który obejmuje kilka połączonych ze sobą węzłów. Chociaż początkowo może to wyglądać skomplikowanie, węzły te reprezentują różne kroki w procesie generowania obrazu AI.

Zrzut ekranu domyślnego przepływu pracy ComfyUI, przedstawiający proces generowania obrazów AI.

Wiele węzłów pozwala na tworzenie dostosowanego przepływu pracy, integrując różne węzły, modele, LoRA i rafinerie, zapewniając użytkownikom rozległą kontrolę nad końcowym wynikiem. Jednak ta złożoność może utrudniać nawigację i opanowanie ComfyUI.

Uruchamianie ComfyUI

Aby rozpocząć, wybierz punkt kontrolny w węźle Load Checkpoint . Przejdź do węzła CLIP Text Encode (Prompt) , w którym wprowadzisz tekstowy monit dla obrazu. Poniżej znajduje się odpowiadający mu węzeł negatywnego monitu dla niechcianych deskryptorów. W węźle Empty Latent Image możesz dostosować szerokość, wysokość i liczbę obrazów, które chcesz wygenerować.

Zrzut ekranu przepływu pracy ComfyUI ilustrujący selektor punktów kontrolnych, pola monitów pozytywnych i negatywnych oraz ustawienia pustego obrazu ukrytego.

Gdy już ustawisz swoje monity, dostosuj wymiary obrazu, rozmiar partii i kluczowe kroki przetwarzania. Około 20 do 30 kroków zwykle daje obraz dobrej jakości. Na koniec naciśnij przycisk Queue Prompt i pozwól ComfyUI wykonać pracę.

Zrzut ekranu z procesu generowania obrazów w ComfyUI, przedstawiający tworzenie obrazów z kolorowym słoniem.

Korzystanie z LoRA w ComfyUI

Aby uwzględnić określone LoRA w ComfyUI, po prostu kliknij prawym przyciskiem myszy w pobliżu węzła punktu kontrolnego i wybierz Dodaj węzeł -> ładowarki -> Załaduj LoRA . Wybierz dowolny LoRA ze swojego folderu w katalogu.

Zrzut ekranu z przepływu pracy ComfyUI pokazujący, jak dodać węzeł LoRA w celu ulepszenia obrazów generowanych przez sztuczną inteligencję.

Należy jednak pamiętać, że za każdym razem, gdy dodawany jest nowy węzeł LoRA, konieczne będzie ponowne uporządkowanie połączeń. Przeciągnij linię z węzła Checkpoint oznaczonego jako Model do punktu wejścia modelu węzła LoRA po lewej stronie zamiast do KSampler. Następnie połącz punkt wyjścia węzła LoRA z powrotem do wejścia modelu KSampler.

Zrzut ekranu z przepływu pracy ComfyUI pokazujący, jak połączyć węzeł LoRA z punktu kontrolnego do KSampler.

Upewnij się, że obie linie Clip z węzła Checkpoint są kierowane do każdego węzła Prompt. Podobnie, połącz lewe punkty wejścia LoRA’s Clip zarówno z pozytywnymi, jak i negatywnymi monitami.

Zrzut ekranu z przepływu pracy generowania obrazu ComfyUI, pokazujący połączenia umożliwiające integrację LoRA pomiędzy węzłami Checkpoint i Prompt.

Dzięki zrozumieniu domyślnego przepływu pracy i stopniowemu dodawaniu niestandardowych węzłów, nabędziesz biegłości w korzystaniu z ComfyUI na potrzeby generowania obrazów za pomocą sztucznej inteligencji.

Często zadawane pytania

Jak odróżnić od siebie stabilną dyfuzję, DALL-E i Midjourney?

Wszystkie trzy systemy AI mogą generować obrazy z podpowiedzi tekstowych, ale tylko Stable Diffusion jest całkowicie darmowy i ma otwarte źródło. Możesz zainstalować i uruchomić go na swoim komputerze bez żadnych kosztów, podczas gdy DALL-E i Midjourney są zastrzeżonymi programami.

Czym właściwie jest model w Stable Diffusion?

Model służy jako plik, który ucieleśnia algorytm AI trenowany przy użyciu określonych obrazów i słów kluczowych. Różne modele doskonale radzą sobie z generowaniem różnych typów wizualizacji. Na przykład niektóre mogą być zoptymalizowane pod kątem realistycznych przedstawień ludzi, podczas gdy inne są lepiej dostosowane do ilustracji 2D lub różnych stylów artystycznych.

Źródło obrazu: Obraz główny autorstwa Stable Diffusion. Wszystkie zrzuty ekranu dostarczone przez Brandona Li i Samarveera Singha.

Źródło i obrazy