Jak używać stabilnej dyfuzji do tworzenia obrazów generowanych przez sztuczną inteligencję

2023/04/07

Chatboty wykorzystujące sztuczną inteligencję, takie jak ChatGPT, stały się ostatnio niezwykle potężne – są we wszystkich wiadomościach! Ale nie zapomnij o generatorach obrazów AI (takich jak Stable Diffusion, DALL-E i Midjourney). Mogą stworzyć praktycznie każdy obraz, jeśli dostarczymy im tylko kilka słów. Skorzystaj z tego samouczka, aby dowiedzieć się, jak to zrobić za darmo bez ograniczeń, uruchamiając stabilną dyfuzję na komputerze.

Co to jest stabilna dyfuzja?

Stable Diffusion to darmowy i otwarty model uczenia maszynowego zamiany tekstu na obraz. Zasadniczo jest to program, który pozwala opisać obraz za pomocą tekstu, a następnie tworzy obraz za Ciebie. Dostarczono mu miliardy obrazów i towarzyszących im opisów tekstowych oraz nauczono je analizować i rekonstruować.

Stable Diffusion nie jest programem, którego używasz bezpośrednio – pomyśl o nim bardziej jak o podstawowym narzędziu programowym, z którego korzystają inne programy. Ten samouczek pokazuje, jak zainstalować program Stable Diffusion na komputerze. Pamiętaj, że istnieje wiele programów i stron internetowych korzystających ze stabilnej dystrybucji, ale wiele z nich pobiera opłaty i nie zapewnia tak dużej kontroli.

wymagania systemowe

Zgrubne wytyczne dotyczące tego, do czego powinieneś dążyć, są następujące:

macOS: Apple Silicon (układ z serii M)

Windows lub Linux: GPU NVIDIA lub AMD
RAM: 16 GB dla najlepszych rezultatów
GPU VRAM: co najmniej 4 GB
Pamięć: co najmniej 15 GB

Zainstaluj interfejs sieciowy AUTOMATIC1111

Używamy programu AUTOMATIC1111 Web UI , dostępnego we wszystkich głównych systemach operacyjnych komputerów stacjonarnych, aby uzyskać dostęp do Stable Diffusion. Pamiętaj, aby zanotować, gdzie pobierany jest katalog „stable-diffiusion-webui”.

AUTOMATIC1111 Internetowy interfejs użytkownika w systemie macOS

W Terminalu zainstaluj Homebrew, wpisując polecenie:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

Stabilna dyfuzja Macos Zainstaluj Homebrew

Skopiuj dwa polecenia dodania Homebrew do PATH i wprowadź je.

Maka o stabilnej dyfuzji dodają Homebrew do ścieżki

Zamknij i ponownie otwórz Terminal, a następnie wprowadź:

brew install cmake protobuf rust python@3.10 git wget

Stabilna dyfuzja Macos Brew Zależności instalacji

Wchodzić:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

AUTOMATYCZNY1111 Internetowy interfejs użytkownika w systemie Windows

Pobierz najnowszą stabilną wersję Pythona 3.10 .

Stabilna dystrybucja Windows Python Wersja stabilna 3 10 1

Uruchom instalator Pythona, zaznacz „Dodaj python.exe do PATH” i kliknij „Zainstaluj teraz”.

Stabilna dyfuzja Windows Zainstaluj Python 3 Dodaj do ścieżki

Przejdź do repozytorium AUTOMATIC1111 Web UI na GitHub, kliknij „Kod”, a następnie kliknij „Pobierz ZIP” i rozpakuj go.

Stabilna dyfuzja Windows Github Code Pobierz

AUTOMATIC1111 Web UI w systemie Linux

Otwórz Terminal.

Stabilna dystrybucja otwartego terminala Linux

Wprowadź jedno z następujących poleceń, w zależności od wersji systemu Linux:

Oparte na Debianie, w tym Ubuntu:

sudo apt-get updatesudo apt install wget git python3 python3-ven

Oparte na Red Hat:

sudo dnf install wget git python3

Oparte na łukach:

sudo pacman -S wget git python3

Zainstaluj w „/home/$(whoami)/stable-diffusion-webui/”, wykonując to polecenie:

bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)

Stabilna dystrybucja Linux Instaluj interfejs sieciowy

Zainstaluj model

Zanim zaczniesz korzystać z internetowego interfejsu użytkownika, nadal musisz dodać co najmniej jeden model.

Idź do CIVITAI .
Kliknij strzałkę rozwijaną na przycisku pobierania i wybierz „Model SafeTensor”.

Stabilna dystrybucja Civit Ai Celowe pobieranie modelu Safetensor 1

Przesuń. safetensors pobrany w kroku 2 do folderu „stable-diffiusion-webui/models/Stable-diffusion”.

Stabilna dyfuzja Przenieś do folderu Webui Models 1

Uruchom i skonfiguruj interfejs WWW

W tym momencie jesteś gotowy do uruchomienia i rozpoczęcia korzystania z programu Stable Diffusion w swojej przeglądarce internetowej.

W swoim terminalu otwórz katalog „stable-diffusion-webui” i wprowadź polecenie ./webui.sh --xformersdla systemu Linux / macOS lub ./webui-user.batWindows. Po zakończeniu wybierz i skopiuj adres URL obok „Uruchamianie na lokalnym adresie URL”, który powinien wyglądać tak: http://127.0.0.1:7860.

Stabilna dystrybucja Webui Xformers Lokalny adres URL

Wklej link w pasku adresu przeglądarki i naciśnij Enter. Zostanie wyświetlona witryna internetowa interfejsu użytkownika.

Stabilna przeglądarka internetowa Webui Difusion

Zmieńmy niektóre ustawienia, aby uzyskać lepsze wyniki. Przejdź do „Ustawienia -> Stabilna dyfuzja”.

Ustawienia stabilnej dyfuzji Stabilna dyfuzja

Przewiń w dół i zaznacz „Włącz kwantyzację w próbnikach K, aby uzyskać ostrzejsze i czystsze wyniki”.

Stabilne ustawienia dyfuzji Kwantyzacja Próbniki K Ostrzejsze czyszczenie

Przewiń w górę i kliknij „Zastosuj ustawienia”, a następnie „Załaduj ponownie interfejs użytkownika”.

Stabilne ustawienia dyfuzji Zastosuj ustawienia Przeładuj interfejs użytkownika

FYI: Jeśli chcesz znaleźć źródło obrazu, użyj Google.

Użyj txt2txt do generowania obrazów koncepcyjnych

Teraz przychodzi zabawna część: utworzenie kilku początkowych obrazów i wyszukanie takiego, który najbardziej przypomina pożądany wygląd.

Przejdź do zakładki „txt2img”.
W pierwszym polu tekstowym zachęty wpisz słowa opisujące obraz, oddzielone przecinkami. Warto dołączyć słowa opisujące styl obrazu, takie jak „realistyczny”, „szczegółowy” lub „portret z bliska”.

W poniższym polu tekstowym monitu negatywnego wpisz słowa kluczowe, których nie chcesz, aby Twój obraz wyglądał. Na przykład, jeśli chcesz stworzyć realistyczne obrazy, dodaj słowa takie jak „gra wideo”, „sztuka” i „ilustracja”.

Stabilna dyfuzja Txt2img Negatywny monit

Przewiń w dół i ustaw „Rozmiar partii” na „4”. Spowoduje to, że Stable Diffusion wygeneruje cztery różne obrazy z Twojego monitu.

Ustaw „Skalę CFG” na wyższą wartość, jeśli chcesz, aby Stabilna dyfuzja ściślej podążała za słowami kluczowymi zachęty, lub na niższą wartość, jeśli chcesz, aby była bardziej kreatywna. Niska wartość (na przykład domyślna wartość 7) zazwyczaj tworzy obrazy dobrej jakości i kreatywne.

Pozostałe ustawienia pozostaw na razie domyślne. Kliknij duży przycisk „Generuj” u góry, aby stabilna dyfuzja zaczęła działać.

Stabilna dyfuzja Przycisk generowania Txt2img 1

Pod przyciskiem „Generuj” kliknij miniatury obrazów, aby wyświetlić ich podgląd i określić, czy któryś z nich Ci się podoba.

Jeśli nie podoba Ci się żaden z obrazów, powtórz kroki od 1 do 5 z niewielkimi zmianami.

Jeśli ogólnie podoba Ci się jeden obraz, ale chcesz go zmodyfikować lub naprawić problemy (zniekształconą twarz, problemy anatomiczne itp.), Kliknij „Wyślij do img2img” lub „Wyślij do inpaint”. Spowoduje to skopiowanie obrazu i monitów do odpowiednich kart, w których można poprawić obraz.

Jeśli obraz jest wyjątkowo interesujący lub dobry, kliknij przycisk „Zapisz”, a następnie przycisk „Pobierz”.

Znajdowanie monitów używanych w przypadku obrazów z przeszłości

Po wygenerowaniu kilku obrazów pomocne jest uzyskanie monitów i ustawień używanych do tworzenia obrazu po fakcie.

Kliknij kartę „Informacje o PNG”.

Stabilna dyfuzja Png Info Upuść przesyłanie obrazu

Prześlij obraz do pudełka. Wszystkie monity i inne szczegóły obrazu pojawią się po prawej stronie.

Użyj img2img, aby wygenerować podobne obrazy

Możesz użyć funkcji img2img do generowania nowych obrazów naśladujących ogólny wygląd dowolnego obrazu podstawowego.

Na karcie „img2img” upewnij się, że używasz wcześniej wygenerowanego obrazu z tymi samymi monitami.

Ustaw wyższą lub niższą wartość „Siła odszumiania”, aby zregenerować mniej lub więcej obrazu (0,50 regeneruje 50%, a 1 regeneruje 100%).

Kliknij „Generuj” i przejrzyj różnice. Jeśli nie jesteś zadowolony, powtórz kroki od 1 do 3 po dostosowaniu ustawień.

Alternatywnie kliknij „Wyślij do img2img”, aby kontynuować wprowadzanie modyfikacji w oparciu o nowy obraz.

Przepisz monity, aby dodać zupełnie nowe elementy do obrazu i dostosować inne ustawienia zgodnie z potrzebami.

Kliknij „Generuj” i przejrzyj wynik.

Użyj farby, aby zmienić część obrazu

Funkcja Inpaint to potężne narzędzie, które umożliwia precyzyjne punktowe poprawki obrazu podstawowego za pomocą myszy w celu „zamalowania” części obrazu, które mają zostać zregenerowane. Części, których nie pomalowałeś, nie ulegają zmianie.

Na karcie „img2img -> karta Inpaint” upewnij się, że używasz wcześniej wygenerowanego obrazu.

Zmień podpowiedzi, jeśli chcesz mieć nowe elementy wizualne.

Użyj myszki, aby zamalować część obrazu, którą chcesz zmienić.

Stabilna dyfuzja Inpaint Draw za pomocą myszy

Zmień „Metodę próbkowania” na DDIM, która jest zalecana do malowania.

Stabilna metoda pobierania próbek farby dyfuzyjnej Ddim

Ustaw „Siła odszumiania”, wybierając wyższą wartość, jeśli dokonujesz ekstremalnych zmian.

Stabilna siła odszumiania lakieru dyfuzyjnego 08

Kliknij „Generuj” i przejrzyj wynik.

Stabilna dyfuzja prawdopodobnie nie naprawi wszystkiego za pierwszym razem, więc możesz kliknąć „Wyślij do Inpaint” i powtórzyć powyższe kroki tyle razy, ile chcesz.

Zwiększ skalę swojego obrazu

Do tej pory tworzyłeś stosunkowo małe obrazy o wymiarach 512 x 512 pikseli, ale zwiększenie rozdzielczości obrazu zwiększa również poziom szczegółów wizualnych.

Zainstaluj rozszerzenie Ultimate SD Upscale

Kliknij „Rozszerzenia -> Dostępne -> Załaduj z”.

Dostępne rozszerzenia stabilnej dyfuzji Załaduj od

Przewiń w dół, aby znaleźć „Ultimate SD Upscale manipulacje” i kliknij „Zainstaluj”.

Dostępne rozszerzenia stabilnej dystrybucji Ultimate Sd Upscale

Przewiń w górę i kliknij kartę „Zainstalowane”. Zaznacz „ultimate-upscale-for-automatic1111”, a następnie kliknij „Zastosuj i uruchom ponownie interfejs użytkownika”.

Zainstalowane rozszerzenia stabilnej dystrybucji Sprawdź aplikację Ultimate Sd Upscale i uruchom ponownie interfejs użytkownika

Zmień rozmiar obrazu

Na karcie „img2img” upewnij się, że używasz wcześniej wygenerowanego obrazu z tymi samymi monitami. Na początku monitu dodaj wyrażenia, takie jak „4k”, „UHD”, „zdjęcie w wysokiej rozdzielczości”, „RAW”, „zbliżenie”, „pory skóry” i „szczegółowe oczy”, aby uzyskać więcej. Na początku negatywnego monitu dodaj wyrażenia, takie jak „selfie”, „niewyraźne”, „niska rozdzielczość” i „kamera telefoniczna”, aby się od nich wycofać.

Stabilna dyfuzja Zmień rozmiar nowych monitów

Ustaw „Siła odszumiania” na niską wartość (około 0,25) i podwój wartości „Szerokość” i „Wysokość”.

Stabilna dyfuzja Zmiana rozmiaru Szerokość Wysokość Odszumianie Siła

W rozwijanym menu „Skrypt” wybierz „Ultimate SD upscale”, a następnie w „Upscaler” zaznacz opcję „R-ESRGAN 4x+”.

Stable Diffusion Script Ultimate Sd Upscaler R Esrgan

Kliknij „Generuj” i przejrzyj wynik. Powinieneś zauważyć drobne zmiany i ostrzejsze szczegóły.

Możesz jeszcze bardziej zwiększyć rozdzielczość, klikając „Wyślij do img2img” i powtarzając kroki, jednocześnie zwiększając wartości „Szerokość” i „Wysokość” oraz dostrajając „Siła odszumiania”.

Często Zadawane Pytania

Jaka jest różnica między stabilną dyfuzją, DALL-E i Midjourney?

Wszystkie trzy to programy AI, które mogą stworzyć prawie każdy obraz z monitu tekstowego. Największą różnicą jest to, że tylko Stable Diffusion jest całkowicie darmowy i open source. Możesz uruchomić go na swoim komputerze bez płacenia, a każdy może uczyć się i ulepszać kod Stable Diffusion. Jednak fakt, że musisz zainstalować go samodzielnie, utrudnia korzystanie z niego.

DALL-E i Midjourney to zamknięte źródła. DALL-E jest dostępny przede wszystkim za pośrednictwem swojej strony internetowej i oferuje ograniczoną liczbę generacji obrazów miesięcznie, zanim zostanie poproszony o zapłatę. Dostęp do Midjourney można uzyskać głównie za pomocą poleceń na serwerze Discord i ma różne poziomy subskrypcji.

Co to jest model w stabilnej dyfuzji?

Model to plik reprezentujący algorytm AI przeszkolony na określonych obrazach i słowach kluczowych. Różne modele lepiej radzą sobie z tworzeniem różnych rodzajów obrazów — możesz mieć model, który jest dobry w tworzeniu realistycznych ludzi, inny, który jest dobry w tworzeniu postaci z kreskówek 2D, a jeszcze inny, który najlepiej nadaje się do tworzenia pejzaży.

Model Deliberate, który zainstalowaliśmy w tym przewodniku, jest popularnym modelem, który nadaje się do większości obrazów, ale możesz sprawdzić wszystkie rodzaje modeli na stronach internetowych, takich jak Civitai lub Hugging Face . O ile pobierzesz plik. safetensors, możesz zaimportować go do internetowego interfejsu użytkownika AUTOMATIC1111, korzystając z tych samych instrukcji w tym przewodniku.

Jaka jest różnica między SafeTensor a PickleTensor?

Krótko mówiąc, zawsze używaj SafeTensor do ochrony komputera przed zagrożeniami bezpieczeństwa.

Podczas gdy zarówno SafeTensor, jak i PickleTensor to formaty plików używane do przechowywania modeli dla stabilnej dyfuzji, PickleTensor jest starszym i mniej bezpiecznym formatem. Model PickleTensor może wykonać dowolny kod (w tym złośliwe oprogramowanie) w twoim systemie.

Czy powinienem użyć ustawienia wielkości partii lub liczby partii?

Możesz użyć obu. Partia to grupa obrazów generowanych równolegle. Ustawienie rozmiaru partii kontroluje liczbę obrazów w jednej partii. Ustawienie liczby partii kontroluje, ile partii jest uruchamianych w jednej generacji; każda partia działa sekwencyjnie.

Jeśli masz liczbę partii 2 i rozmiar partii 4, wygenerujesz dwie partie i łącznie osiem obrazów.

Jeśli wolisz samodzielnie rysować, sprawdź naszą listę aplikacji do szkicowania dla systemu Windows.

Źródło obrazu: Pixabay . Wszystkie zrzuty ekranu autorstwa Brandona Li.

Facebook
Ćwierkać