Najlepsze darmowe techniki generowania obrazów AI ze stabilną dyfuzją

2024/11/07

Notatki kluczowe

Stable Diffusion jest rozwiązaniem typu open source, które pozwala na lokalne generowanie obrazów.
Istnieje wiele metod jego wykorzystania, każda dostosowana do różnych poziomów zaawansowania użytkownika.
Specyfikacje systemu optymalizują wydajność, zwłaszcza wymagania dotyczące procesora graficznego.

Wykorzystanie mocy stabilnej dyfuzji do generowania obrazów AI

Wyobraź sobie tworzenie oszałamiających wizualizacji zasilanych przez AI w zaciszu swojego domu. W przeciwieństwie do ograniczonych generatorów online, Stable Diffusion jest potężnym narzędziem typu open source, które umożliwia tę swobodę. W tym przewodniku przyjrzymy się trzem różnym metodom wykorzystania Stable Diffusion do generowania autentycznych obrazów AI.

Czym jest dyfuzja stabilna?

Stable Diffusion służy jako podstawa, która zamienia podpowiedzi tekstowe w szczegółowe obrazy. Chociaż nie jest to tradycyjna aplikacja sama w sobie, stanowi podstawę wielu aplikacji, oferując użytkownikom najwyższej klasy metodę generatywnej produkcji obrazów AI. Ten przewodnik podkreśla strategie odpowiednie dla wszystkich poziomów umiejętności — przyjazne dla początkujących metody obok zaawansowanych technik.

Podstawowe wymagania systemowe

Aby zapewnić optymalne działanie funkcji Stable Diffusion, należy wziąć pod uwagę następujące specyfikacje systemu:

macOS: Apple Silicon (chip serii M)
Windows lub Linux: GPU NVIDIA lub AMD
Pamięć RAM: Zalecane minimum 16 GB w celu zapewnienia wydajności.
Pamięć VRAM GPU: co najmniej 4 GB (idealnie 8 GB).
Pamięć: Wymaga około 60–70 GB dostępnego miejsca na dysku.

1. Korzystanie z interfejsu użytkownika Automatic1111 WebUI

Pierwsza metoda umożliwia wykorzystanie internetowego interfejsu użytkownika AUTOMATIC1111 w celu uzyskania bezproblemowego dostępu do stabilnej wersji Diffusion, kompatybilnej z różnymi systemami operacyjnymi.

Zacznij od pobrania najnowszej wersji Pythona. Po zainstalowaniu upewnij się, że wybrałeś opcję Dodaj python.exe do PATH podczas instalacji.

Krok 1: Zainstaluj model

Przed użyciem interfejsu użytkownika sieci Web musisz zainstalować co najmniej jeden model, który będzie stanowił artystyczną podstawę dla Twoich wyników obrazu. Wybierz model CIVITAI, który rezonuje z Twoją wizją.

Po wybraniu modelu pobierz odpowiedni plik punktu kontrolnego „.safetensors” i umieść go w odpowiednim katalogu w ścieżce instalacji Automatic1111 WebUI.

Krok 2: Uruchom i skonfiguruj WebUI

Mając gotowy model, otwórz terminal dla systemu macOS i przejdź do folderu „stable-diffusion-webui”, a następnie wykonaj polecenie ./webui.sh --xformers. Użytkownicy systemu Windows powinni uruchomić ./webui-user.bat. Spowoduje to podanie adresu URL, zazwyczaj http://127.0.0.1:7860, do dostępu lokalnego.

Wprowadź ten adres URL w przeglądarce, a znajdziesz lokalnie hostowany interfejs użytkownika sieci Web. Chociaż interfejs może wydawać się onieśmielający, większość ustawień może pozostać nietknięta na początku. Dostosuj parametry szerokości i wysokości oraz ustaw rozmiar partii na 4, co pozwoli na cztery unikalne obrazy przy każdym monicie.

Wprowadź kreatywny monit w zakładce txt2img, szczegółowo opisując pożądane atrybuty obrazu — bądź konkretny i używaj przecinków do oddzielania pomysłów. Zdefiniuj styl artystyczny za pomocą słów kluczowych, takich jak „realistyczny” lub „szczegółowy”.

Podczas określania negatywnych monitów, uwzględnij elementy, które chcesz wykluczyć z ostatecznego obrazu. Kliknij Generuj, aby rozpocząć proces. Możesz przejrzeć i udoskonalić swoje wyniki na podstawie wygenerowanych miniatur.

2. Odkrywanie Fooocus: najłatwiejszy generator obrazów AI

Jako intuicyjna alternatywa Fooocus wyróżnia się przyjaznym dla użytkownika interfejsem, dzięki czemu idealnie nadaje się dla osób, które dopiero zaczynają przygodę z generowaniem obrazów przy użyciu sztucznej inteligencji.

Aby rozpocząć, pobierz skompresowany plik Fooocus i wypakuj jego zawartość. Następnie wybierz punkt kontrolny z CIVITAI, przejdź do folderu Fooocus i przejdź do models -> checkpoints, aby umieścić plik.

Krok 1: Uruchomienie Fooocus

Uruchom Fooocus, klikając dwukrotnie run.bat, co otwiera interfejs w przeglądarce internetowej. Włącz opcję Ustawienia zaawansowane, aby uzyskać więcej opcji konfiguracji.

Dostosuj współczynnik proporcji i określ liczbę obrazów na monit. Ustaw wydajność na Szybkość, aby uzyskać optymalne wskaźniki generowania, i wprowadź wszelkie negatywne monity, aby odfiltrować niepożądane elementy z obrazów.

Krok 2: Wykorzystanie funkcji zamiany twarzy AI w Fooocus

Fooocus oferuje również funkcję FaceSwap, umożliwiającą zastąpienie twarzy jednego obrazu inną. Upewnij się, że aktywowano opcje Input Image i Image Prompt, aby przesłać odpowiedni obraz.

Po zaznaczeniu obszaru twarzy przejdź do dostosowania ustawień w trybie debugowania programisty, aby sprawnie wykonać zamianę. Po prostu wyczyść monity i kliknij Generate, aby aktywować funkcję zamiany twarzy.

3. Generowanie obrazów AI za pomocą ComfyUI

ComfyUI oferuje użytkownikom kompleksowe, ale wyrafinowane doświadczenie UI do generowania obrazów przy użyciu Stable Diffusion. Najpierw pobierz ComfyUI i skonfiguruj go zgodnie z instrukcjami.

Krok 1: Uruchomienie ComfyUI

Po ekstrakcji umieść swoje punkty kontrolne i LoRA w odpowiednim katalogu. Rozpocznij od uruchomienia update_comfyui.bat w folderze Update, aby upewnić się, że wszystko jest aktualne.

Po zakończeniu uruchom ComfyUI za pomocą run_nvidia_gpu.bat lub run_cpu.bat, w zależności od posiadanego sprzętu, i zapoznaj się ze strukturą połączonych węzłów, która zarządza generowaniem obrazu AI.

Krok 2: Korzystanie z LoRA w ComfyUI

Aby jeszcze bardziej ulepszyć obrazy, kliknij prawym przyciskiem myszy w pobliżu węzła punktu kontrolnego i wybierz opcję załadowania LoRA. Uporządkuj połączenia między węzłami prawidłowo, aby ułatwić przepływ danych i zapewnić płynne działanie w całym procesie.

Często zadawane pytania

Jak odróżnić od siebie stabilną dyfuzję, DALL-E i Midjourney?

Wszystkie trzy systemy AI mogą generować obrazy z podpowiedzi tekstowych, ale tylko Stable Diffusion jest całkowicie darmowy i open-source. Możesz zainstalować i uruchomić go na swoim komputerze bez żadnych kosztów, podczas gdy DALL-E i Midjourney są zastrzeżonym oprogramowaniem.

Czym właściwie jest model w Stable Diffusion?

Model służy jako plik, który ucieleśnia algorytm AI trenowany przy użyciu określonych obrazów i słów kluczowych. Różne modele doskonale radzą sobie z generowaniem różnych typów wizualizacji. Na przykład niektóre mogą być zoptymalizowane pod kątem realistycznych przedstawień ludzi, podczas gdy inne są lepiej dostosowane do ilustracji 2D lub różnych stylów artystycznych.

Informacje dodatkowe

Więcej informacji na temat Stable Diffusion i jego możliwości znajdziesz na oficjalnej stronie GitHub poświęconej Stable Diffusion, gdzie znajdziesz najnowsze aktualizacje i treści społeczności.

Streszczenie

W tym przewodniku omówiono możliwości Stable Diffusion, szczegółowo opisując jego wymagania, a także trzy różne metody generowania obrazów AI, od Automatic1111 WebUI po uproszczony proces Fooocus oraz opcje dostosowywania za pomocą ComfyUI. Użyj tych technik, aby uwolnić swoją kreatywność dzięki wizualizacjom generowanym przez AI.

Wniosek

Wykorzystanie mocy Stable Diffusion rewolucjonizuje sposób tworzenia obrazów. Dzięki różnym dostępnym metodom i bogactwu zasobów zanurz się już dziś, aby udoskonalić swoje artystyczne eksploracje dzięki AI.