如何使用穩定擴散來創建 AI 生成的圖像

2023/04/07

人工智能聊天機器人，如 ChatGPT，最近變得非常強大 – 它們遍布新聞！但不要忘記 AI 圖像生成器（如 Stable Diffusion、DALL-E 和 Midjourney）。只要提供幾句話，他們幾乎可以製作任何圖像。按照本教程學習如何通過在您的計算機上運行 Stable Diffusion 來免費無限制地執行此操作。

什麼是穩定擴散？

Stable Diffusion 是一種免費開源的文本到圖像機器學習模型。基本上，它是一個程序，可以讓您使用文本描述圖片，然後為您創建圖像。它被賦予了數十億張圖像和伴隨的文字描述，並被教導分析和重建它們。

Stable Diffusion 不是您直接使用的程序——更像是其他程序使用的底層軟件工具。本教程介紹如何在您的計算機上安裝 Stable Diffusion 程序。請注意，有許多使用 Stable Diffusion 的程序和網站，但許多程序和網站會向您收費並且不會給您太多控制權。

系統要求

您應該達到的目標的粗略指南如下：

macOS： Apple Silicon（M 系列芯片）

Windows 或 Linux： NVIDIA 或 AMD GPU
內存： 16GB 以獲得最佳效果
GPU 顯存：至少 4GB
存儲空間：至少 15GB

安裝 AUTOMATIC1111 Web 用戶界面

我們正在使用AUTOMATIC1111 Web UI程序，可在所有主要桌面操作系統上使用，以訪問 Stable Diffusion。確保記下“stable-diffiusion-webui”目錄的下載位置。

macOS 上的 AUTOMATIC1111 Web UI

在終端中，輸入以下命令安裝 Homebrew：

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

將用於添加 Homebrew 的兩個命令複製到您的 PATH 並輸入它們。

退出並重新打開終端，然後輸入：

brew install cmake protobuf rust python@3.10 git wget

進入：

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

Windows 上的 AUTOMATIC1111 Web 用戶界面

下載最新穩定版 Python 3.10。

Stable Diffusion Windows Python Website Stable Release 3 10 1

運行 Python 安裝程序，選中“將 python.exe 添加到 PATH”，然後單擊“立即安裝”。

轉到GitHub 上的AUTOMATIC1111 Web UI 存儲庫，單擊“代碼”，然後單擊“下載 ZIP”並解壓縮。

Linux 上的 AUTOMATIC1111 Web UI

打開終端。

根據您的 Linux 風格，輸入以下命令之一：

基於 Debian，包括 Ubuntu：

sudo apt-get updatesudo apt install wget git python3 python3-ven

基於紅帽：

sudo dnf install wget git python3

基於 Arch：

sudo pacman -S wget git python3

通過執行以下命令在“/home/$(whoami)/stable-diffusion-webui/”中安裝：

bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)

安裝模型

在開始使用 Web UI 之前，您仍然需要至少添加一個模型。

去CIVITAI。
單擊下載按鈕上的下拉箭頭並選擇“Model SafeTensor”。

移動。將在步驟 2 中下載的 safetensors 文件放入“stable-diffiusion-webui/models/Stable-diffusion”文件夾中。

運行和配置 Web UI

此時，您已準備好在 Web 瀏覽器中運行並開始使用 Stable Diffusion 程序。

./webui.sh --xformers在您的終端中，打開您的“stable-diffusion-webui”目錄並輸入適用於 Linux / macOS 或./webui-user.batWindows 的命令。完成後，選擇並複制“在本地 URL 上運行”旁邊的 URL，它應該類似於 http://127.0.0.1:7860。

將鏈接粘貼到瀏覽器地址欄中並點擊Enter。Web UI 網站將出現。

讓我們更改一些設置以獲得更好的結果。轉到“設置 -> 穩定擴散”。

向下滾動並選中“在 K 採樣器中啟用量化以獲得更清晰、更清晰的結果”。

穩定的擴散設置 Quantization K Samplers Sharper Cleaner

向上滾動並單擊“應用設置”，然後單擊“重新加載 UI”。

僅供參考：如果您需要查找圖片來源，請使用 Google。

使用 txt2txt 生成概念圖

現在到了有趣的部分：創建一些初始圖像並蒐索與您想要的外觀最相似的圖像。

轉到“txt2img”選項卡。
在第一個提示文本框中，鍵入用逗號分隔的描述圖像的詞。它有助於包括描述圖像風格的詞，例如“真實”、“詳細”或“特寫肖像”。

在下面的否定提示文本框中，鍵入您不希望圖像看起來像的關鍵字。例如，如果您要創建逼真的圖像，請添加“視頻遊戲”、“藝術”和“插圖”等詞。

向下滾動並將“批量大小”設置為“4”。這將使 Stable Diffusion 根據您的提示生成四個不同的圖像。

如果您希望 Stable Diffusion 更嚴格地遵循您的提示關鍵字，請將“CFG Scale”設為更高的值；如果您希望它更具創意，請將其設為較低的值。較低的值（如默認值 7）通常會生成質量好且富有創意的圖像。

暫時將其他設置保留為默認值。單擊頂部的大“生成”按鈕，讓 Stable Diffusion 開始工作。

在“生成”按鈕下方，單擊圖像縮略圖進行預覽並確定您是否喜歡其中的任何一個。

如果您不喜歡任何圖像，請重複步驟 1 到 5 並稍做改動。

如果您總體上喜歡一張圖片，但想要對其進行修改或修復問題（扭曲的面部、解剖學問題等），請單擊“發送到 img2img”或“發送到修復”。這會將您的圖像和提示複製到相應的選項卡，您可以在其中改進圖像。

如果圖像特別有趣或好，請單擊“保存”按鈕，然後單擊“下載”按鈕。

查找用於過去圖像的提示

生成一些圖像後，獲取用於事後創建圖像的提示和設置會很有幫助。

單擊“PNG 信息”選項卡。

將圖像上傳到框中。您的圖像的所有提示和其他詳細信息將顯示在右側。

使用 img2img 生成相似圖像

您可以使用 img2img 功能來生成模仿任何基本圖像整體外觀的新圖像。

在“img2img”選項卡上，確保您使用的是以前生成的具有相同提示的圖像。

將“去噪強度”值設置得更高或更低，以重新生成或多或少的圖像（0.50 重新生成 50%，1 重新生成 100%）。

單擊“生成”並查看差異。如果您不滿意，請在調整設置後重複步驟 1 到 3。

或者，單擊“發送到 img2img”以繼續根據新圖像進行修改。

重寫提示以向圖像添加全新元素並根據需要調整其他設置。

單擊“生成”並查看結果。

使用 inpaint 更改圖像的一部分

修復功能是一個強大的工具，可讓您通過使用鼠標在要重新生成的圖像部分上“繪製”來對基本圖像進行精確的點校正。你沒有畫的部分不會改變。

在“img2img 選項卡 -> Inpaint 選項卡”上，確保您使用的是以前生成的圖像。

如果您想要新的視覺元素，請更改您的提示。

使用鼠標在要更改的圖像部分上繪畫。

將“採樣方法”更改為建議用於修復的DDIM。

設置“降噪強度”，如果您要進行極端更改，請選擇更高的值。

單擊“生成”並查看結果。

Stable Diffusion 可能無法在第一次嘗試時修復所有問題，因此您可以單擊“發送到修復”並根據需要多次重複上述步驟。

提升你的形象

到目前為止，您一直在創建 512 x 512 像素的相對較小的圖像，但是如果您增加圖像的分辨率，它也會增加視覺細節的級別。

安裝 Ultimate SD 高檔擴展

單擊“擴展 -> 可用 -> 從中加載”。

向下滾動以找到“Ultimate SD Upscale manipulations”並單擊“Install”。

向上滾動並單擊“已安裝”選項卡。選中“ultimate-upscale-for-automatic1111”，然後單擊“應用並重新啟動 UI”。

已安裝穩定的擴散擴展檢查 Ultimate Sd Upscale 應用並重新啟動 Ui

調整圖像大小

在“img2img”選項卡上，確保您使用的是具有相同提示的先前生成的圖像。在提示輸入的前面，添加諸如“4k”、“UHD”、“高分辨率照片”、“RAW”、“特寫”、“皮膚毛孔”和“細緻的眼睛”之類的短語，以進一步磨練它。在你的負面提示輸入的前面，添加諸如“自拍”、“模糊”、“低分辨率”和“手機攝像頭”之類的短語來遠離這些。

將“降噪強度”設置為較低的值（大約 0.25）並將“寬度”和“高度”值加倍。

在“Script”下拉菜單中，選擇“Ultimate SD upscale”，然後在“Upscaler”下，勾選“R-ESRGAN 4x+”選項。

單擊“生成”並查看結果。您應該注意到細微的變化和更清晰的細節。

您可以通過單擊“發送到 img2img”並重複這些步驟，同時進一步增加“寬度”和“高度”值並調整“降噪強度”來進一步提高分辨率。

經常問的問題

Stable Diffusion、DALL-E 和 Midjourney 之間有什麼區別？

這三個都是 AI 程序，可以根據文本提示創建幾乎任何圖像。最大的區別是只有 Stable Diffusion 是完全免費和開源的。您可以在您的計算機上運行它而無需支付任何費用，任何人都可以學習和改進 Stable Diffusion 代碼。不過，您需要自己安裝的事實使其更難使用。

DALL-E 和 Midjourney 都是閉源的。DALL-E 可以主要通過其網站訪問，並在要求您付款之前每月提供有限數量的圖像生成。Midjourney主要可以通過其 Discord 服務器上的命令訪問，並且具有不同的訂閱層級。

Stable Diffusion 中的模型是什麼？

模型是代表針對特定圖像和關鍵字訓練的 AI 算法的文件。不同的模型更擅長創建不同類型的圖像——您可能有一個模型擅長創建逼真的人物，另一個模型擅長創建 2D 卡通人物，還有一個最適合創建風景畫。

我們在本指南中安裝的 Deliberate 模型是一種流行的模型，適用於大多數圖像，但您可以在Civitai或Hugging Face等網站上查看各種模型。只要你下載一個。safetensors 文件，您可以使用本指南中的相同說明將其導入 AUTOMATIC1111 Web UI。

SafeTensor 和 PickleTensor 有什麼區別？

簡而言之，始終使用 SafeTensor 來保護您的計算機免受安全威脅。

雖然 SafeTensor 和 PickleTensor 都是用於存儲穩定擴散模型的文件格式，但 PickleTensor 是較舊且安全性較低的格式。PickleTensor 模型可以在您的系統上執行任意代碼（包括惡意軟件）。

我應該使用批量大小還是批量計數設置？

您可以同時使用兩者。批次是一組並行生成的圖像。批量大小設置控制單個批次中有多少圖像。批次計數設置控制在單代中運行多少批次；每個批次按順序運行。

如果批次計數為 2，批次大小為 4，則將生成兩個批次，總共八張圖像。

如果您更喜歡自己畫東西，請查看我們的 Windows 素描應用程序列表。

圖片來源：Pixabay。Brandon Li 的所有屏幕截圖。

Facebook
鳴叫