使用穩定擴散創建 AI 影像的頂級免費方法

2024/11/07

您是否曾經希望在不依賴線上工具的情況下產生人工智慧影像？許多免費的線上圖像產生器限制輸出數量，並且經常在幾次嘗試後提示訂閱。引入 Stable Diffusion：一款免費的開源 AI 圖像生成器，可讓您在家中不受限制地製作圖像。

什麼是穩定擴散？

Stable Diffusion 是一個免費的開源框架，可根據您的描述將文字轉換為視覺圖像。儘管它不是一個獨立的應用程序，但它是各種應用程式使用的關鍵技術。當談到用於影像創建的生成式人工智慧時，穩定擴散仍然是最有力的競爭者之一。本指南重點介紹了利用穩定擴散的三種方法，從適合初學者到更複雜的方法，每種方法都具有獨特的功能。

系統需求

以下是成功體驗的推薦規格：

macOS： Apple Silicon（M 系列晶片）
Windows 或 Linux： NVIDIA 或 AMD GPU
RAM： 16GB 以獲得最佳效能
GPU VRAM：至少 4GB（首選 8GB）
儲存： 60-70GB可用空間

1.使用Automatic1111 WebUI

第一種方法涉及使用 AUTOMATIC1111 Web UI 存取穩定擴散，與所有主要作業系統相容。

首先下載最新的穩定版本的 Python。下載後，執行安裝程式並確保選擇「將 python.exe 新增至 PATH」，然後再按一下「立即安裝」。

接下來，前往GitHub 上的AUTOMATIC1111 Web UI 儲存庫，點擊Code，然後選擇Download ZIP。下載完成後，解壓縮文件，並記住 WebUI 的安裝位置。

安裝模型

在開始使用 Web UI 之前，您需要安裝至少一種模型。這些模型是預先訓練的檢查點，決定圖像生成的藝術風格。若要選擇型號，請造訪CIVITAI並選擇您感興趣的型號。

CIVIT.AI 網站的螢幕截圖顯示了基於穩定擴散的 Pony Realism AI 影像模型可以產生的範例。

找到您喜歡的型號後，點擊下載按鈕。完成後，將“.safetensors”檢查點檔案傳輸到正確的資料夾。導航至 Automatic1111 WebUI 的下載目錄，然後前往webui -> models -> Stable-diffusion。將下載的模型檔案貼到此目錄中，然後就可以開始了。

運行並配置 WebUI

現在，您可以直接在 Web 瀏覽器中執行和使用 Stable Diffusion。

在 macOS 上，透過終端機存取「stable-diffusion-webui」資料夾並執行命令./webui.sh --xformers。對於 Windows 用戶，執行./webui-user.bat.完成後，複製「在本機 URL 上執行」旁邊提供的 URL，該 URL 通常顯示為http://127.0.0.1:7860。

macOS 終端機的螢幕截圖，顯示本地運行的穩定擴散自動 1111 AI 影像產生器。

在瀏覽器網址列中輸入 URL，然後按Enter。 Web UI 將在您的預設網際網路瀏覽器中本機載入。儘管初始介面可能顯得令人難以接受，但您最初不需要調整許多設定。

首先調整寬度和高度參數並將批次大小設為 4，這將為每個提示產生四個不同的影像。

接下來，在txt2img選項卡中輸入任何創意提示。具體說明圖像中所需的細節，用逗號分隔各種描述符。此外，使用“現實”、“詳細”或“特寫肖像”等術語來描述藝術風格。

在否定提示框中，包含您希望從影像中排除的任何元素。考慮修改“CFG Scale”設定；較高的值會使生成器更緊密地遵循您給定的提示，而較低的值則允許更具創意的輸出。

保持其餘設定不變，然後點擊頂部的“生成”開始圖像生成過程。之後，您可以點擊縮圖進行查看並確定它們是否符合您的期望。如果沒有，請隨意調整CFG 比例和提示。在此階段，您的 GPU 將被大量使用。

如果您找到喜歡的圖像但希望改進或修復問題（例如扭曲的特徵），請按一下「傳送至 img2img」或「傳送至 inpaint」。此選項會將您的圖像和提示傳輸到各自的選項卡以進一步增強。

2. 探索Fooocus：最簡單的AI影像產生器

Fooocus 是最簡單、最有效的人工智慧影像產生工具之一。其直覺的介面使想要在深入研究更複雜的方法之前嘗試 AI 影像創建的初學者也能輕鬆上手。

來自 CIVIT.AI 的螢幕截圖，突出顯示了具有穩定擴散功能的 AI 生成圖像的範例，例如一座山廟和一位金髮的年輕女子。

下載 Fooocus 壓縮檔案並在下載完成後解壓縮。接下來，前往 CIVITAI 選擇您喜歡的檢查點。下載檢查點後，導覽至您的 Fooocus 資料夾。點擊 Fooocus -> models -> checkpoints，然後將下載的檢查點檔案放在那裡。

您也可以從 Civitai 下載 LoRA，它們是較小的文件，可以透過新概念或風格增強大型語言模型。與可能有幾個 GB 的檢查點不同，LoRA 在利用現有檢查點的同時為最終影像添加獨特的元素。

如果您選擇使用 LoRA 來增強 AI 影像的視覺風格，請返回Fooocus 目錄中的models資料夾，並將 LoRA 檔案貼到loras資料夾中。

跑步福庫斯

是時候開始在 Fooocus 中產生影像了。導覽至擷取軟體的資料夾，然後雙擊run.bat。命令提示字元將出現並自動在您的網頁瀏覽器中載入 Fooocus 介面。

顯示具有進階設定的穩定擴散影像產生的 Fooocus UI 工作流程的螢幕截圖。

在打開的螢幕上，請確保選中底部的“高級”選項，這將顯示其他設定。在這裡，您可以選擇所需的寬高比、Fooocus 根據提示產生的圖像數量，並選擇圖像檔案格式。

最初，將效能選項設為Speed，因為這將顯著提高影像產生速度。在底部，輸入不需要的元素的否定提示。

將滑鼠懸停在每種樣式上即可預覽。然後，導航至“模型”選項卡，您可以在其中選擇已放置在 Fooocus 資料夾中的基本模型。在其正下方，選擇 LoRA（如果已安裝）。

一張圖片展示了 Fooocus 中兩個人工智慧生成的視覺效果，其中一個是賽博龐克環境中的未來女性。

剩下的就是點擊“生成”按鈕並觀看 Fooocus 創建您想要的圖像。雖然它可能不是最強大的圖像生成器，但 Fooocus 無疑被證明是最簡單的方法，允許輕鬆調整樣式、檢查點和 LoRA 以創建理想的圖像。

在Fooocus中使用AI換臉

Fooocus 甚至還具有 FaceSwap 功能，可讓您用其他人替換影像中的臉。首先，檢查底部的輸入影像選項，然後選擇影像提示。在這裡，上傳您想要交換臉部的圖像。向下捲動，再次按一下「進階」，然後從選項中選擇「FaceSwap」。

來自 Fooocus AI 影像產生器的螢幕截圖，顯示了正在進行 FaceSwap 的未來機器人女性影像。

在“圖像提示”部分旁邊，按一下“修復”或“修復”選項卡，然後上傳用於換臉的圖像。勾勒出臉部和頭髮的輪廓，然後轉到右上角的“高級”選項卡。啟動開發人員偵錯模式，按一下「控制」，然後勾選「混合影像提示」和「修復」複選框。

完成後，清除提示框並按一下「生成」。這將與您選擇的影像執行臉部交換，產生不同的結果。

生成影像後，您可能會想要使用一些頂級 AI 影像放大工具來增強影像，以提高其解析度。

3. 使用 ComfyUI 產生 AI 影像

ComfyUI 是另一種利用穩定擴散進行 AI 影像創建的受歡迎方法。雖然工作流程可能更有吸引力，但也更複雜。首先，從 GitHub下載並解壓縮 ComfyUI 。

此時您可能已經熟悉檢查點和 LoRA。如前所述，下載檢查點檔案（如果需要，也可以下載 LoRA 檔案）並將其放置在ComfyUI模型目錄中的正確資料夾中。在 ComfyUI 目錄中，開啟Update資料夾並執行update_comfyui.bat來準備安裝。

ComfyUI 目錄的 Windows 螢幕截圖，顯示更新批次檔及其命令提示字元視窗。

現在，是時候運行 ComfyUI AI 影像產生器了。導航回 ComfyUI 目錄，您應該在其中看到兩個批次檔。如果您有 Nvidia GPU，請雙擊run_nvidia_gpu.bat；否則，執行run_cpu.bat。

一旦 ComfyUI 在瀏覽器中啟動，您將看到其預設工作流程，其中包括多個互連的節點。儘管最初看起來可能很複雜，但這些節點代表了人工智慧影像生成過程中的各個步驟。

多個節點可讓您建立客製化的工作流程，整合不同的節點、模型、LoRA 和精煉器，從而使用戶能夠對最終輸出進行廣泛的控制。然而，這種複雜性可能會使 ComfyUI 難以導航和掌握。

運行ComfyUI

首先，在「載入檢查點」節點中選擇一個檢查點。繼續到CLIP 文字編碼（提示）節點，您將在其中輸入圖像的文字提示。下面是不需要的描述符對應的負面提示節點。在「空潛在影像」節點中，您可以調整寬度、高度以及要產生的影像數量。

ComfyUI 工作流程的螢幕截圖，展示了檢查點選擇器、正向和負向提示欄位以及空潛像設定。

設定完提示後，調整影像尺寸、大量大小和處理的關鍵步驟。大約 20 到 30 個步驟通常會產生高品質的影像。最後，點擊「隊列提示」按鈕並讓 ComfyUI 完成工作。

ComfyUI 影像產生工作流程的螢幕截圖，捕捉了使用粗體顏色大象創建影像的過程。

在 ComfyUI 中使用 LoRA

要在 ComfyUI 中包含某些 LoRA，只需右鍵單擊檢查點節點附近並選擇“新增節點”->“載入器”->“載入 LoRA”。從目錄中的資料夾中選擇任何 LoRA。

ComfyUI 工作流程的螢幕截圖，展示如何新增 LoRA 節點來增強 AI 產生的影像。

但是，請記住，每次新增的 LoRA 節點時，您都需要重新安排連線。將線從標記為Model 的Checkpoint 節點拖曳到左側 LoRA 節點的模型入口點，而不是 KSampler。然後將 LoRA 節點的出口點連接回 KSampler 的模型輸入。

ComfyUI 工作流程的螢幕截圖，顯示如何將 LoRA 節點從 Checkpoint 連接到 KSampler。

確保來自檢查點節點的兩條剪輯線都定向到每個提示節點。同樣，將 LoRA Clip 的左側入口點連接到正向和負向提示。

ComfyUI 影像產生工作流程的螢幕截圖，顯示了在 Checkpoint 和 Prompt 節點之間整合 LoRA 的連接。

透過了解預設工作流程並逐步新增自訂節點，您將能夠熟練地利用 ComfyUI 來滿足 AI 影像生成需求。

常見問題解答

穩定擴散、DALL-E 和中程如何區分？

所有三個人工智慧系統都可以根據文字提示產生圖像，但只有穩定擴散是完全免費且開源的。您可以免費在電腦上安裝並運行它，而 DALL-E 和 Midjourney 是專有軟體。

穩定擴散中的模型到底是什麼？

模型作為一個文件，體現了使用特定圖像和關鍵字訓練的人工智慧演算法。各種模型擅長產生不同類型的視覺效果。例如，有些可能針對真實的人類描繪進行了最佳化，而有些則更適合 2D 插圖或不同的藝術風格。

圖片來源：穩定擴散的特徵影像。所有螢幕截圖均由 Brandon Li 和 Samarveer Singh 提供。

來源&圖片