安定拡散法を使用して AI 画像を作成するための無料の方法

2024/11/07

多数のスクリーンを備えた高度なコンピューター配置を活用し、未来的な環境に取り組んでいるデジタルアーティスト。

オンラインツールに頼らずに AI 画像を生成したいと思ったことはありませんか? 多くの無料オンライン画像ジェネレーターは出力数を制限しており、数回試しただけでサブスクリプションを要求することがよくあります。Stable Diffusion をご紹介します。これは、制限なしに自宅で画像を作成できる無料のオープンソース AI 画像ジェネレーターです。

安定拡散とは何ですか?

Stable Diffusion は、説明に基づいてテキストを視覚的な画像に変換する無料のオープンソースフレームワークです。スタンドアロンアプリケーションではありませんが、さまざまなアプリケーションで利用される主要なテクノロジとして機能します。画像作成用の生成 AI に関しては、Stable Diffusion は依然として最有力候補の 1 つです。このガイドでは、初心者向けのものからより複雑なものまで、Stable Diffusion を利用する 3 つのアプローチを取り上げ、各方法に独自の機能があります。

システム要件

成功体験のための推奨仕様は次のとおりです。

macOS: Apple Silicon (M シリーズチップ)
Windows または Linux: NVIDIA または AMD GPU
RAM:最適なパフォーマンスを得るには 16GB
GPU VRAM:少なくとも 4GB (8GB を推奨)
ストレージ: 60～70GBの空き容量

1. Automatic1111 WebUIの使用

最初のアプローチでは、AUTOMATIC1111 Web UI を使用して、すべての主要なオペレーティングシステムと互換性のある Stable Diffusion にアクセスします。

まず、 Python の最新の安定バージョンをダウンロードします。ダウンロード後、インストーラーを実行し、「今すぐインストール」をクリックする前に「python.exe を PATH に追加」が選択されていることを確認します。

Windows Python 3.13.0 インストーラーを示すスクリーンショット。

次に、 GitHub のAUTOMATIC1111 Web UI リポジトリに移動し、[コード]をクリックして、[ZIP のダウンロード]を選択します。ダウンロードが完了したら、ファイルを解凍し、WebUI がインストールされている場所を覚えておいてください。

モデルをインストールする

Web UI の使用を開始する前に、少なくとも 1 つのモデルをインストールする必要があります。これらのモデルは、画像生成の芸術的なスタイルを決定する事前トレーニング済みのチェックポイントです。モデルを選択するには、CIVITAIにアクセスして、気に入ったモデルを選択してください。

CIVIT.AI Web サイトのスクリーンショット。Stable Diffusion に基づく Pony Realism AI 画像モデルが生成できるものの例が表示されています。

希望するモデルを見つけたら、ダウンロードボタンをクリックします。完了したら、「.safetensors」チェックポイントファイルを適切なフォルダーに転送します。Automatic1111 WebUI のダウンロードディレクトリに移動し、webui -> models -> Stable-diffusionに移動します。ダウンロードしたモデルファイルをこのディレクトリに貼り付ければ、準備完了です。

WebUI の実行と構成

これで、Stable Diffusion を Web ブラウザで直接実行して使用できるようになりました。

macOS では、ターミナルから「stable-diffusion-webui」フォルダにアクセスし、コマンドを実行します./webui.sh --xformers。Windows ユーザーの場合は、を実行します./webui-user.bat。完了したら、「ローカル URL で実行中」の横に表示されている URL をコピーします。通常、この URL はhttp://127.0.0.1:7860と表示されます。

macOS ターミナルのスクリーンショット。Stable Diffusion Automatic1111 AI 画像ジェネレーターがローカルで実行されていることを示しています。

ブラウザのアドレスバーに URL を入力し、を押しますEnter。Web UI がデフォルトのインターネットブラウザにローカルに読み込まれます。最初のインターフェースは複雑に見えるかもしれませんが、最初は多くの設定を調整する必要はありません。

まず、幅と高さのパラメータを調整し、バッチサイズを 4 に設定します。これにより、プロンプトごとに 4 つの異なる画像が生成されます。

AI画像生成にStable Diffusionを利用したAutomatic1111のスクリーンショット。

次に、 txt2imgタブにクリエイティブプロンプトを入力します。画像に必要な詳細を具体的に記述し、さまざまな説明をコンマで区切ります。さらに、「リアル」、「詳細」、「クローズアップポートレート」などの用語を使用して芸術的なスタイルを説明します。

否定プロンプトのボックスには、画像から除外したい要素をすべて含めます。「CFG スケール」設定を変更することを検討してください。値が高いほど、ジェネレーターは指定されたプロンプトに厳密に従うようになり、値が低いほど、よりクリエイティブな出力が可能になります。

残りの設定は変更せずに、上部の [生成]をクリックして画像生成プロセスを開始します。その後、サムネイル画像をクリックして表示し、期待どおりかどうか判断できます。期待どおりでない場合は、 CFG スケールとプロンプトを自由に調整してください。この段階では、GPU が大量に使用されます。

Stable Diffusion AI モデルによって生成された複数の画像を示すスクリーンショット。

気に入った画像を見つけたが、問題（歪んだ特徴など）を修正または改良したい場合は、「img2img に送信」または「inpaint に送信」をクリックします。このオプションにより、画像とプロンプトがそれぞれのタブに転送され、さらに強化することができます。

2. Fooocus の探索: 最も簡単な AI 画像ジェネレーター

Fooocus は、現在入手可能な最もシンプルで効果的な AI 画像生成ツールの 1 つとして際立っています。直感的なインターフェイスにより、より複雑な方法に進む前に AI 画像作成を試してみたい初心者でも簡単に使用できます。

CIVIT.AI のスクリーンショット。山寺や金髪の若い女性など、安定した拡散で AI が生成した画像の例が強調表示されています。

Fooocus の圧縮ファイルをダウンロードし、ダウンロードが完了したら解凍します。次に、CIVITAI にアクセスして、好きなチェックポイントを選択します。チェックポイントをダウンロードしたら、Fooocus フォルダーに移動します。Fooocus -> models -> checkpoints をクリックし、ダウンロードしたチェックポイントファイルをそこに配置します。

Fooocus AI 画像生成ソフトウェアのチェックポイントディレクトリのスクリーンショット。

Civitai から LoRA をダウンロードすることもできます。これは、新しい概念やスタイルで大規模な言語モデルを強化する小さなファイルです。数ギガバイトになることもあるチェックポイントとは異なり、LoRA は既存のチェックポイントを活用しながら、最終的な画像に独特の要素を追加します。

LoRA を使用して AI 画像のビジュアルスタイルを強化することを選択した場合は、 Fooocus ディレクトリのmodelsフォルダーに戻り、LoRA ファイルをlorasフォルダーに貼り付けます。

Foocus の実行

Fooocus で画像の生成を開始します。ソフトウェアを解凍したフォルダーに移動し、run.bat をダブルクリックします。コマンドプロンプトが表示され、Web ブラウザーに Fooocus インターフェイスが自動的に読み込まれます。

詳細設定による安定した拡散画像生成のための Fooocus UI ワークフローを表示するスクリーンショット。

開始画面で、下部にある[詳細設定]オプションを必ずチェックしてください。これにより、追加の設定が表示されます。ここで、希望するアスペクト比、Fooocus がプロンプトごとに生成する画像の数、および画像ファイル形式を選択できます。

最初に、パフォーマンスオプションをSpeedに設定します。これにより、画像の生成速度が大幅に向上します。下部で、不要な要素に対する否定プロンプトを入力します。

各スタイルにマウスを合わせるとプレビューできます。次に、[モデル] タブに移動して、Fooocus フォルダーに配置したベースモデルを選択します。そのすぐ下で、LoRA がインストールされている場合はそれを選択します。

Fooocus で AI が生成した 2 つのビジュアルを紹介する画像。サイバーパンクの世界を舞台にした未来的な女性をフィーチャーしています。

後は、[生成]ボタンをクリックして、Fooocus が希望する画像を作成するのを見るだけです。Fooocus は最も強力な画像ジェネレータではないかもしれませんが、スタイル、チェックポイント、LoRA を簡単に調整して理想的な画像を作成できる最も簡単な方法であることは間違いありません。

Fooocus で AI フェイススワップを活用する

Fooocus には FaceSwap 機能も備わっており、画像内の顔を他の顔と置き換えることができます。まず、下部にある [ Input Image]オプションをチェックし、 [Image Prompt]を選択します。ここで、顔を入れ替えたい画像をアップロードします。下にスクロールし、もう一度[Advanced]をクリックし、オプションから[FaceSwap]を選択します。

Fooocus AI 画像ジェネレーターのスクリーンショット。FaceSwap を受けている未来的なサイボーグ女性の画像を示しています。

[イメージプロンプト]セクションの横にある[インペイント] または [アウトペイント]タブをクリックして、顔のスワップ用の画像をアップロードします。顔と髪の輪郭を描き、右上隅の [詳細設定]タブに移動します。 [開発者デバッグモード]を有効にし、[コントロール]をクリックして、 [イメージプロンプトとインペイントの混合]のボックスをオンにします。

Fooocus のインペインティング機能を示す画像。入れ替える顔を強調表示しています。

完了したら、プロンプトボックスをクリアして[生成]をクリックします。これにより、選択した画像との顔の交換が実行され、さまざまな結果が得られます。

画像を生成した後、解像度を向上させるために、トップレベルの AI 画像アップスケーリングツールを使用して画像を強化することもできます。

3. ComfyUI で AI 画像を生成する

ComfyUI は、AI 画像作成に Stable Diffusion を活用するもう 1 つの推奨方法です。ワークフローはより魅力的かもしれませんが、より複雑でもあります。まず、 GitHub からComfyUI をダウンロードして解凍します。

この時点で、チェックポイントと LoRA についてよくご存知でしょう。前述のように、チェックポイントファイル (および必要に応じて LoRA ファイル) をダウンロードし、 ComfyUI のモデルディレクトリ内の適切なフォルダーに配置します。ComfyUI ディレクトリで、Updateフォルダーを開き、update_comfyui.bat を実行してセットアップを準備します。

更新バッチファイルとコマンドプロンプトウィンドウを表示する ComfyUI ディレクトリの Windows スクリーンショット。

ここで、ComfyUI AI 画像ジェネレーターを実行します。ComfyUI ディレクトリに戻ると、2 つのバッチファイルが表示されます。Nvidia GPU をお持ちの場合は、run_nvidia_gpu.batをダブルクリックします。そうでない場合は、 run_cpu.batを実行します。

ブラウザで ComfyUI が起動すると、相互接続された複数のノードを含むデフォルトのワークフローが表示されます。最初は複雑に見えるかもしれませんが、これらのノードは AI 画像生成プロセスのさまざまなステップを表しています。

AI 画像を生成するプロセスを反映した、ComfyUI のデフォルトワークフローのスクリーンショット。

複数のノードを使用すると、さまざまなノード、モデル、LoRA、リファイナーを統合してカスタマイズされたワークフローを作成し、ユーザーが最終出力を広範囲に制御できるようになります。ただし、この複雑さにより、ComfyUI の操作と習得が難しくなる可能性があります。

ComfyUIの実行

開始するには、Load Checkpointノードでチェックポイントを選択します。CLIP Text Encode (Prompt)ノードに進み、画像のテキストプロンプトを入力します。その下には、不要な記述子に対応する否定プロンプトノードがあります。Empty Latent Imageノードでは、生成する画像の幅、高さ、数を調整できます。

チェックポイントセレクター、肯定および否定のプロンプトフィールド、空の潜在画像設定を示す ComfyUI のワークフローのスクリーンショット。

プロンプトを設定したら、画像のサイズ、バッチサイズ、処理の主な手順を調整します。通常、約 20 ～ 30 の手順で高品質の画像が生成されます。最後に、[キュープロンプト]ボタンを押して、ComfyUI に作業を任せます。

ComfyUI の画像生成ワークフローのスクリーンショット。太字の象の画像作成をキャプチャしています。

ComfyUI での LoRA の使用

特定の LoRA を ComfyUI に含めるには、チェックポイントノードの近くを右クリックし、[ノードの追加] -> [ローダー] -> [LoRA のロード]を選択します。ディレクトリ内のフォルダーから任意の LoRA を選択します。

ComfyUI ワークフローのスクリーンショット。LoRA ノードを追加して AI 生成画像を強化する方法を示しています。

ただし、新しい LoRA ノードが追加されるたびに、接続を再配置する必要があることに注意してください。モデルというラベルの付いたチェックポイントノードから、KSampler ではなく、左側の LoRA ノードのモデルエントリポイントに線をドラッグします。次に、LoRA ノードの終了ポイントを KSampler のモデル入力に接続します。

ComfyUI のワークフローのスクリーンショット。Checkpoint から KSampler に LoRA ノードを接続する方法を示しています。

チェックポイントノードからの両方のクリップラインが各プロンプトノードに向けられていることを確認します。同様に、LoRA のクリップの左側のエントリポイントを、肯定プロンプトと否定プロンプトの両方に接続します。

ComfyUI のイメージ生成ワークフローのスクリーンショット。Checkpoint ノードと Prompt ノード間の LoRA を統合するための接続を示しています。

デフォルトのワークフローを理解し、カスタムノードを段階的に追加することで、AI 画像生成のニーズに合わせて ComfyUI を活用できるようになります。

よくある質問

Stable Diffusion、DALL-E、Midjourney はどのように区別されますか?

これら 3 つの AI システムはすべてテキストプロンプトから画像を生成できますが、Stable Diffusion だけが完全に無料でオープンソースです。DALL-E と Midjourney は独自のソフトウェアですが、Stable Diffusion は無料でコンピューターにインストールして実行できます。

安定拡散におけるモデルとは正確には何でしょうか?

モデルは、特定の画像とキーワードを使用してトレーニングされた AI アルゴリズムを具体化したファイルとして機能します。さまざまなモデルが、異なるタイプのビジュアルを生成することに優れています。たとえば、リアルな人間の描写に最適化されたモデルもあれば、2D イラストやさまざまな芸術スタイルに適したモデルもあります。

画像クレジット: 特集画像は Stable Diffusion 提供。すべてのスクリーンショットは Brandon Li と Samarveer Singh 提供。

出典と画像