Jak używać stabilnej dyfuzji do tworzenia obrazów generowanych przez sztuczną inteligencję
Chatboty wykorzystujące sztuczną inteligencję, takie jak ChatGPT, stały się ostatnio niezwykle potężne – są we wszystkich wiadomościach! Ale nie zapomnij o generatorach obrazów AI (takich jak Stable Diffusion, DALL-E i Midjourney). Mogą stworzyć praktycznie każdy obraz, jeśli dostarczymy im tylko kilka słów. Skorzystaj z tego samouczka, aby dowiedzieć się, jak to zrobić za darmo bez ograniczeń, uruchamiając stabilną dyfuzję na komputerze.
Co to jest stabilna dyfuzja?
Stable Diffusion to darmowy i otwarty model uczenia maszynowego zamiany tekstu na obraz. Zasadniczo jest to program, który pozwala opisać obraz za pomocą tekstu, a następnie tworzy obraz za Ciebie. Dostarczono mu miliardy obrazów i towarzyszących im opisów tekstowych oraz nauczono je analizować i rekonstruować.
Stable Diffusion nie jest programem, którego używasz bezpośrednio – pomyśl o nim bardziej jak o podstawowym narzędziu programowym, z którego korzystają inne programy. Ten samouczek pokazuje, jak zainstalować program Stable Diffusion na komputerze. Pamiętaj, że istnieje wiele programów i stron internetowych korzystających ze stabilnej dystrybucji, ale wiele z nich pobiera opłaty i nie zapewnia tak dużej kontroli.
wymagania systemowe
Zgrubne wytyczne dotyczące tego, do czego powinieneś dążyć, są następujące:
- macOS: Apple Silicon (układ z serii M)
- Windows lub Linux: GPU NVIDIA lub AMD
- RAM: 16 GB dla najlepszych rezultatów
- GPU VRAM: co najmniej 4 GB
- Pamięć: co najmniej 15 GB
Zainstaluj interfejs sieciowy AUTOMATIC1111
Używamy programu AUTOMATIC1111 Web UI , dostępnego we wszystkich głównych systemach operacyjnych komputerów stacjonarnych, aby uzyskać dostęp do Stable Diffusion. Pamiętaj, aby zanotować, gdzie pobierany jest katalog „stable-diffiusion-webui”.
AUTOMATIC1111 Internetowy interfejs użytkownika w systemie macOS
- W Terminalu zainstaluj Homebrew, wpisując polecenie:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Skopiuj dwa polecenia dodania Homebrew do PATH i wprowadź je.
- Zamknij i ponownie otwórz Terminal, a następnie wprowadź:
brew install cmake protobuf rust python@3.10 git wget
- Wchodzić:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
AUTOMATYCZNY1111 Internetowy interfejs użytkownika w systemie Windows
- Pobierz najnowszą stabilną wersję Pythona 3.10 .
- Uruchom instalator Pythona, zaznacz „Dodaj python.exe do PATH” i kliknij „Zainstaluj teraz”.
- Przejdź do repozytorium AUTOMATIC1111 Web UI na GitHub, kliknij „Kod”, a następnie kliknij „Pobierz ZIP” i rozpakuj go.
AUTOMATIC1111 Web UI w systemie Linux
- Otwórz Terminal.
- Wprowadź jedno z następujących poleceń, w zależności od wersji systemu Linux:
Oparte na Debianie, w tym Ubuntu:
sudo apt-get updatesudo apt install wget git python3 python3-ven
Oparte na Red Hat:
sudo dnf install wget git python3
Oparte na łukach:
sudo pacman -S wget git python3
- Zainstaluj w „/home/$(whoami)/stable-diffusion-webui/”, wykonując to polecenie:
bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)
Zainstaluj model
Zanim zaczniesz korzystać z internetowego interfejsu użytkownika, nadal musisz dodać co najmniej jeden model.
- Idź do CIVITAI .
- Kliknij strzałkę rozwijaną na przycisku pobierania i wybierz „Model SafeTensor”.
- Przesuń. safetensors pobrany w kroku 2 do folderu „stable-diffiusion-webui/models/Stable-diffusion”.
Uruchom i skonfiguruj interfejs WWW
W tym momencie jesteś gotowy do uruchomienia i rozpoczęcia korzystania z programu Stable Diffusion w swojej przeglądarce internetowej.
- W swoim terminalu otwórz katalog „stable-diffusion-webui” i wprowadź polecenie
./webui.sh --xformers
dla systemu Linux / macOS lub./webui-user.bat
Windows. Po zakończeniu wybierz i skopiuj adres URL obok „Uruchamianie na lokalnym adresie URL”, który powinien wyglądać tak: http://127.0.0.1:7860.
- Wklej link w pasku adresu przeglądarki i naciśnij Enter. Zostanie wyświetlona witryna internetowa interfejsu użytkownika.
- Zmieńmy niektóre ustawienia, aby uzyskać lepsze wyniki. Przejdź do „Ustawienia -> Stabilna dyfuzja”.
- Przewiń w dół i zaznacz „Włącz kwantyzację w próbnikach K, aby uzyskać ostrzejsze i czystsze wyniki”.
- Przewiń w górę i kliknij „Zastosuj ustawienia”, a następnie „Załaduj ponownie interfejs użytkownika”.
FYI: Jeśli chcesz znaleźć źródło obrazu, użyj Google.
Użyj txt2txt do generowania obrazów koncepcyjnych
Teraz przychodzi zabawna część: utworzenie kilku początkowych obrazów i wyszukanie takiego, który najbardziej przypomina pożądany wygląd.
- Przejdź do zakładki „txt2img”.
- W pierwszym polu tekstowym zachęty wpisz słowa opisujące obraz, oddzielone przecinkami. Warto dołączyć słowa opisujące styl obrazu, takie jak „realistyczny”, „szczegółowy” lub „portret z bliska”.
- W poniższym polu tekstowym monitu negatywnego wpisz słowa kluczowe, których nie chcesz, aby Twój obraz wyglądał. Na przykład, jeśli chcesz stworzyć realistyczne obrazy, dodaj słowa takie jak „gra wideo”, „sztuka” i „ilustracja”.
- Przewiń w dół i ustaw „Rozmiar partii” na „4”. Spowoduje to, że Stable Diffusion wygeneruje cztery różne obrazy z Twojego monitu.
- Ustaw „Skalę CFG” na wyższą wartość, jeśli chcesz, aby Stabilna dyfuzja ściślej podążała za słowami kluczowymi zachęty, lub na niższą wartość, jeśli chcesz, aby była bardziej kreatywna. Niska wartość (na przykład domyślna wartość 7) zazwyczaj tworzy obrazy dobrej jakości i kreatywne.
- Pozostałe ustawienia pozostaw na razie domyślne. Kliknij duży przycisk „Generuj” u góry, aby stabilna dyfuzja zaczęła działać.
- Pod przyciskiem „Generuj” kliknij miniatury obrazów, aby wyświetlić ich podgląd i określić, czy któryś z nich Ci się podoba.
Jeśli nie podoba Ci się żaden z obrazów, powtórz kroki od 1 do 5 z niewielkimi zmianami.
Jeśli ogólnie podoba Ci się jeden obraz, ale chcesz go zmodyfikować lub naprawić problemy (zniekształconą twarz, problemy anatomiczne itp.), Kliknij „Wyślij do img2img” lub „Wyślij do inpaint”. Spowoduje to skopiowanie obrazu i monitów do odpowiednich kart, w których można poprawić obraz.
Jeśli obraz jest wyjątkowo interesujący lub dobry, kliknij przycisk „Zapisz”, a następnie przycisk „Pobierz”.
Znajdowanie monitów używanych w przypadku obrazów z przeszłości
Po wygenerowaniu kilku obrazów pomocne jest uzyskanie monitów i ustawień używanych do tworzenia obrazu po fakcie.
- Kliknij kartę „Informacje o PNG”.
- Prześlij obraz do pudełka. Wszystkie monity i inne szczegóły obrazu pojawią się po prawej stronie.
Użyj img2img, aby wygenerować podobne obrazy
Możesz użyć funkcji img2img do generowania nowych obrazów naśladujących ogólny wygląd dowolnego obrazu podstawowego.
- Na karcie „img2img” upewnij się, że używasz wcześniej wygenerowanego obrazu z tymi samymi monitami.
- Ustaw wyższą lub niższą wartość „Siła odszumiania”, aby zregenerować mniej lub więcej obrazu (0,50 regeneruje 50%, a 1 regeneruje 100%).
- Kliknij „Generuj” i przejrzyj różnice. Jeśli nie jesteś zadowolony, powtórz kroki od 1 do 3 po dostosowaniu ustawień.
- Alternatywnie kliknij „Wyślij do img2img”, aby kontynuować wprowadzanie modyfikacji w oparciu o nowy obraz.
- Przepisz monity, aby dodać zupełnie nowe elementy do obrazu i dostosować inne ustawienia zgodnie z potrzebami.
- Kliknij „Generuj” i przejrzyj wynik.
Użyj farby, aby zmienić część obrazu
Funkcja Inpaint to potężne narzędzie, które umożliwia precyzyjne punktowe poprawki obrazu podstawowego za pomocą myszy w celu „zamalowania” części obrazu, które mają zostać zregenerowane. Części, których nie pomalowałeś, nie ulegają zmianie.
- Na karcie „img2img -> karta Inpaint” upewnij się, że używasz wcześniej wygenerowanego obrazu.
- Zmień podpowiedzi, jeśli chcesz mieć nowe elementy wizualne.
- Użyj myszki, aby zamalować część obrazu, którą chcesz zmienić.
- Zmień „Metodę próbkowania” na DDIM, która jest zalecana do malowania.
- Ustaw „Siła odszumiania”, wybierając wyższą wartość, jeśli dokonujesz ekstremalnych zmian.
- Kliknij „Generuj” i przejrzyj wynik.
Stabilna dyfuzja prawdopodobnie nie naprawi wszystkiego za pierwszym razem, więc możesz kliknąć „Wyślij do Inpaint” i powtórzyć powyższe kroki tyle razy, ile chcesz.
Zwiększ skalę swojego obrazu
Do tej pory tworzyłeś stosunkowo małe obrazy o wymiarach 512 x 512 pikseli, ale zwiększenie rozdzielczości obrazu zwiększa również poziom szczegółów wizualnych.
Zainstaluj rozszerzenie Ultimate SD Upscale
- Kliknij „Rozszerzenia -> Dostępne -> Załaduj z”.
- Przewiń w dół, aby znaleźć „Ultimate SD Upscale manipulacje” i kliknij „Zainstaluj”.
- Przewiń w górę i kliknij kartę „Zainstalowane”. Zaznacz „ultimate-upscale-for-automatic1111”, a następnie kliknij „Zastosuj i uruchom ponownie interfejs użytkownika”.
Zmień rozmiar obrazu
- Na karcie „img2img” upewnij się, że używasz wcześniej wygenerowanego obrazu z tymi samymi monitami. Na początku monitu dodaj wyrażenia, takie jak „4k”, „UHD”, „zdjęcie w wysokiej rozdzielczości”, „RAW”, „zbliżenie”, „pory skóry” i „szczegółowe oczy”, aby uzyskać więcej. Na początku negatywnego monitu dodaj wyrażenia, takie jak „selfie”, „niewyraźne”, „niska rozdzielczość” i „kamera telefoniczna”, aby się od nich wycofać.
- Ustaw „Siła odszumiania” na niską wartość (około 0,25) i podwój wartości „Szerokość” i „Wysokość”.
- W rozwijanym menu „Skrypt” wybierz „Ultimate SD upscale”, a następnie w „Upscaler” zaznacz opcję „R-ESRGAN 4x+”.
- Kliknij „Generuj” i przejrzyj wynik. Powinieneś zauważyć drobne zmiany i ostrzejsze szczegóły.
Możesz jeszcze bardziej zwiększyć rozdzielczość, klikając „Wyślij do img2img” i powtarzając kroki, jednocześnie zwiększając wartości „Szerokość” i „Wysokość” oraz dostrajając „Siła odszumiania”.
Często Zadawane Pytania
Jaka jest różnica między stabilną dyfuzją, DALL-E i Midjourney?
Wszystkie trzy to programy AI, które mogą stworzyć prawie każdy obraz z monitu tekstowego. Największą różnicą jest to, że tylko Stable Diffusion jest całkowicie darmowy i open source. Możesz uruchomić go na swoim komputerze bez płacenia, a każdy może uczyć się i ulepszać kod Stable Diffusion. Jednak fakt, że musisz zainstalować go samodzielnie, utrudnia korzystanie z niego.
DALL-E i Midjourney to zamknięte źródła. DALL-E jest dostępny przede wszystkim za pośrednictwem swojej strony internetowej i oferuje ograniczoną liczbę generacji obrazów miesięcznie, zanim zostanie poproszony o zapłatę. Dostęp do Midjourney można uzyskać głównie za pomocą poleceń na serwerze Discord i ma różne poziomy subskrypcji.
Co to jest model w stabilnej dyfuzji?
Model to plik reprezentujący algorytm AI przeszkolony na określonych obrazach i słowach kluczowych. Różne modele lepiej radzą sobie z tworzeniem różnych rodzajów obrazów — możesz mieć model, który jest dobry w tworzeniu realistycznych ludzi, inny, który jest dobry w tworzeniu postaci z kreskówek 2D, a jeszcze inny, który najlepiej nadaje się do tworzenia pejzaży.
Model Deliberate, który zainstalowaliśmy w tym przewodniku, jest popularnym modelem, który nadaje się do większości obrazów, ale możesz sprawdzić wszystkie rodzaje modeli na stronach internetowych, takich jak Civitai lub Hugging Face . O ile pobierzesz plik. safetensors, możesz zaimportować go do internetowego interfejsu użytkownika AUTOMATIC1111, korzystając z tych samych instrukcji w tym przewodniku.
Jaka jest różnica między SafeTensor a PickleTensor?
Krótko mówiąc, zawsze używaj SafeTensor do ochrony komputera przed zagrożeniami bezpieczeństwa.
Podczas gdy zarówno SafeTensor, jak i PickleTensor to formaty plików używane do przechowywania modeli dla stabilnej dyfuzji, PickleTensor jest starszym i mniej bezpiecznym formatem. Model PickleTensor może wykonać dowolny kod (w tym złośliwe oprogramowanie) w twoim systemie.
Czy powinienem użyć ustawienia wielkości partii lub liczby partii?
Możesz użyć obu. Partia to grupa obrazów generowanych równolegle. Ustawienie rozmiaru partii kontroluje liczbę obrazów w jednej partii. Ustawienie liczby partii kontroluje, ile partii jest uruchamianych w jednej generacji; każda partia działa sekwencyjnie.
Jeśli masz liczbę partii 2 i rozmiar partii 4, wygenerujesz dwie partie i łącznie osiem obrazów.
Jeśli wolisz samodzielnie rysować, sprawdź naszą listę aplikacji do szkicowania dla systemu Windows.
Źródło obrazu: Pixabay . Wszystkie zrzuty ekranu autorstwa Brandona Li.
- Ćwierkać
Dodaj komentarz