如何使用穩定擴散來創建 AI 生成的圖像
人工智能聊天機器人,如 ChatGPT,最近變得非常強大 – 它們遍布新聞!但不要忘記 AI 圖像生成器(如 Stable Diffusion、DALL-E 和 Midjourney)。只要提供幾句話,他們幾乎可以製作任何圖像。按照本教程學習如何通過在您的計算機上運行 Stable Diffusion 來免費無限制地執行此操作。
什麼是穩定擴散?
Stable Diffusion 是一種免費開源的文本到圖像機器學習模型。基本上,它是一個程序,可以讓您使用文本描述圖片,然後為您創建圖像。它被賦予了數十億張圖像和伴隨的文字描述,並被教導分析和重建它們。
Stable Diffusion 不是您直接使用的程序——更像是其他程序使用的底層軟件工具。本教程介紹如何在您的計算機上安裝 Stable Diffusion 程序。請注意,有許多使用 Stable Diffusion 的程序和網站,但許多程序和網站會向您收費並且不會給您太多控制權。
系統要求
您應該達到的目標的粗略指南如下:
- macOS: Apple Silicon(M 系列芯片)
- Windows 或 Linux: NVIDIA 或 AMD GPU
- 內存: 16GB 以獲得最佳效果
- GPU 顯存:至少 4GB
- 存儲空間:至少 15GB
安裝 AUTOMATIC1111 Web 用戶界面
我們正在使用AUTOMATIC1111 Web UI程序,可在所有主要桌面操作系統上使用,以訪問 Stable Diffusion。確保記下“stable-diffiusion-webui”目錄的下載位置。
macOS 上的 AUTOMATIC1111 Web UI
- 在終端中,輸入以下命令安裝 Homebrew:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- 將用於添加 Homebrew 的兩個命令複製到您的 PATH 並輸入它們。
- 退出並重新打開終端,然後輸入:
brew install cmake protobuf rust python@3.10 git wget
- 進入:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
Windows 上的 AUTOMATIC1111 Web 用戶界面
- 運行 Python 安裝程序,選中“將 python.exe 添加到 PATH”,然後單擊“立即安裝”。
- 轉到GitHub 上的AUTOMATIC1111 Web UI 存儲庫,單擊“代碼”,然後單擊“下載 ZIP”並解壓縮。
Linux 上的 AUTOMATIC1111 Web UI
- 打開終端。
- 根據您的 Linux 風格,輸入以下命令之一:
基於 Debian,包括 Ubuntu:
sudo apt-get updatesudo apt install wget git python3 python3-ven
基於紅帽:
sudo dnf install wget git python3
基於 Arch:
sudo pacman -S wget git python3
- 通過執行以下命令在“/home/$(whoami)/stable-diffusion-webui/”中安裝:
bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)
安裝模型
在開始使用 Web UI 之前,您仍然需要至少添加一個模型。
- 去CIVITAI。
- 單擊下載按鈕上的下拉箭頭並選擇“Model SafeTensor”。
- 移動。將在步驟 2 中下載的 safetensors 文件放入“stable-diffiusion-webui/models/Stable-diffusion”文件夾中。
運行和配置 Web UI
此時,您已準備好在 Web 瀏覽器中運行並開始使用 Stable Diffusion 程序。
./webui.sh --xformers
在您的終端中,打開您的“stable-diffusion-webui”目錄並輸入適用於 Linux / macOS 或./webui-user.bat
Windows 的命令。完成後,選擇並複制“在本地 URL 上運行”旁邊的 URL,它應該類似於 http://127.0.0.1:7860。
- 將鏈接粘貼到瀏覽器地址欄中並點擊Enter。Web UI 網站將出現。
- 讓我們更改一些設置以獲得更好的結果。轉到“設置 -> 穩定擴散”。
- 向下滾動並選中“在 K 採樣器中啟用量化以獲得更清晰、更清晰的結果”。
- 向上滾動並單擊“應用設置”,然後單擊“重新加載 UI”。
僅供參考:如果您需要查找圖片來源,請使用 Google。
使用 txt2txt 生成概念圖
現在到了有趣的部分:創建一些初始圖像並蒐索與您想要的外觀最相似的圖像。
- 轉到“txt2img”選項卡。
- 在第一個提示文本框中,鍵入用逗號分隔的描述圖像的詞。它有助於包括描述圖像風格的詞,例如“真實”、“詳細”或“特寫肖像”。
- 在下面的否定提示文本框中,鍵入您不希望圖像看起來像的關鍵字。例如,如果您要創建逼真的圖像,請添加“視頻遊戲”、“藝術”和“插圖”等詞。
- 向下滾動並將“批量大小”設置為“4”。這將使 Stable Diffusion 根據您的提示生成四個不同的圖像。
- 如果您希望 Stable Diffusion 更嚴格地遵循您的提示關鍵字,請將“CFG Scale”設為更高的值;如果您希望它更具創意,請將其設為較低的值。較低的值(如默認值 7)通常會生成質量好且富有創意的圖像。
- 暫時將其他設置保留為默認值。單擊頂部的大“生成”按鈕,讓 Stable Diffusion 開始工作。
- 在“生成”按鈕下方,單擊圖像縮略圖進行預覽並確定您是否喜歡其中的任何一個。
如果您不喜歡任何圖像,請重複步驟 1 到 5 並稍做改動。
如果您總體上喜歡一張圖片,但想要對其進行修改或修復問題(扭曲的面部、解剖學問題等),請單擊“發送到 img2img”或“發送到修復”。這會將您的圖像和提示複製到相應的選項卡,您可以在其中改進圖像。
如果圖像特別有趣或好,請單擊“保存”按鈕,然後單擊“下載”按鈕。
查找用於過去圖像的提示
生成一些圖像後,獲取用於事後創建圖像的提示和設置會很有幫助。
- 單擊“PNG 信息”選項卡。
- 將圖像上傳到框中。您的圖像的所有提示和其他詳細信息將顯示在右側。
使用 img2img 生成相似圖像
您可以使用 img2img 功能來生成模仿任何基本圖像整體外觀的新圖像。
- 在“img2img”選項卡上,確保您使用的是以前生成的具有相同提示的圖像。
- 將“去噪強度”值設置得更高或更低,以重新生成或多或少的圖像(0.50 重新生成 50%,1 重新生成 100%)。
- 單擊“生成”並查看差異。如果您不滿意,請在調整設置後重複步驟 1 到 3。
- 或者,單擊“發送到 img2img”以繼續根據新圖像進行修改。
- 重寫提示以向圖像添加全新元素並根據需要調整其他設置。
- 單擊“生成”並查看結果。
使用 inpaint 更改圖像的一部分
修復功能是一個強大的工具,可讓您通過使用鼠標在要重新生成的圖像部分上“繪製”來對基本圖像進行精確的點校正。你沒有畫的部分不會改變。
- 在“img2img 選項卡 -> Inpaint 選項卡”上,確保您使用的是以前生成的圖像。
- 如果您想要新的視覺元素,請更改您的提示。
- 使用鼠標在要更改的圖像部分上繪畫。
- 將“採樣方法”更改為建議用於修復的DDIM。
- 設置“降噪強度”,如果您要進行極端更改,請選擇更高的值。
- 單擊“生成”並查看結果。
Stable Diffusion 可能無法在第一次嘗試時修復所有問題,因此您可以單擊“發送到修復”並根據需要多次重複上述步驟。
提升你的形象
到目前為止,您一直在創建 512 x 512 像素的相對較小的圖像,但是如果您增加圖像的分辨率,它也會增加視覺細節的級別。
安裝 Ultimate SD 高檔擴展
- 單擊“擴展 -> 可用 -> 從中加載”。
- 向下滾動以找到“Ultimate SD Upscale manipulations”並單擊“Install”。
- 向上滾動並單擊“已安裝”選項卡。選中“ultimate-upscale-for-automatic1111”,然後單擊“應用並重新啟動 UI”。
調整圖像大小
- 在“img2img”選項卡上,確保您使用的是具有相同提示的先前生成的圖像。在提示輸入的前面,添加諸如“4k”、“UHD”、“高分辨率照片”、“RAW”、“特寫”、“皮膚毛孔”和“細緻的眼睛”之類的短語,以進一步磨練它。在你的負面提示輸入的前面,添加諸如“自拍”、“模糊”、“低分辨率”和“手機攝像頭”之類的短語來遠離這些。
- 將“降噪強度”設置為較低的值(大約 0.25)並將“寬度”和“高度”值加倍。
- 在“Script”下拉菜單中,選擇“Ultimate SD upscale”,然後在“Upscaler”下,勾選“R-ESRGAN 4x+”選項。
- 單擊“生成”並查看結果。您應該注意到細微的變化和更清晰的細節。
您可以通過單擊“發送到 img2img”並重複這些步驟,同時進一步增加“寬度”和“高度”值並調整“降噪強度”來進一步提高分辨率。
經常問的問題
Stable Diffusion、DALL-E 和 Midjourney 之間有什麼區別?
這三個都是 AI 程序,可以根據文本提示創建幾乎任何圖像。最大的區別是只有 Stable Diffusion 是完全免費和開源的。您可以在您的計算機上運行它而無需支付任何費用,任何人都可以學習和改進 Stable Diffusion 代碼。不過,您需要自己安裝的事實使其更難使用。
DALL-E 和 Midjourney 都是閉源的。DALL-E 可以主要通過其網站訪問,並在要求您付款之前每月提供有限數量的圖像生成。Midjourney主要可以通過其 Discord 服務器上的命令訪問,並且具有不同的訂閱層級。
Stable Diffusion 中的模型是什麼?
模型是代表針對特定圖像和關鍵字訓練的 AI 算法的文件。不同的模型更擅長創建不同類型的圖像——您可能有一個模型擅長創建逼真的人物,另一個模型擅長創建 2D 卡通人物,還有一個最適合創建風景畫。
我們在本指南中安裝的 Deliberate 模型是一種流行的模型,適用於大多數圖像,但您可以在Civitai或Hugging Face等網站上查看各種模型。只要你下載一個。safetensors 文件,您可以使用本指南中的相同說明將其導入 AUTOMATIC1111 Web UI。
SafeTensor 和 PickleTensor 有什麼區別?
簡而言之,始終使用 SafeTensor 來保護您的計算機免受安全威脅。
雖然 SafeTensor 和 PickleTensor 都是用於存儲穩定擴散模型的文件格式,但 PickleTensor 是較舊且安全性較低的格式。PickleTensor 模型可以在您的系統上執行任意代碼(包括惡意軟件)。
我應該使用批量大小還是批量計數設置?
您可以同時使用兩者。批次是一組並行生成的圖像。批量大小設置控制單個批次中有多少圖像。批次計數設置控制在單代中運行多少批次;每個批次按順序運行。
如果批次計數為 2,批次大小為 4,則將生成兩個批次,總共八張圖像。
如果您更喜歡自己畫東西,請查看我們的 Windows 素描應用程序列表。
圖片來源:Pixabay。Brandon Li 的所有屏幕截圖。
- 鳴叫
發佈留言