安定拡散法を使用して AI 画像を作成するための無料の方法
オンライン ツールに頼らずに AI 画像を生成したいと思ったことはありませんか? 多くの無料オンライン画像ジェネレーターは出力数を制限しており、数回試しただけでサブスクリプションを要求することがよくあります。Stable Diffusion をご紹介します。これは、制限なしに自宅で画像を作成できる無料のオープン ソース AI 画像ジェネレーターです。
安定拡散とは何ですか?
Stable Diffusion は、説明に基づいてテキストを視覚的な画像に変換する無料のオープンソース フレームワークです。スタンドアロン アプリケーションではありませんが、さまざまなアプリケーションで利用される主要なテクノロジとして機能します。画像作成用の生成 AI に関しては、Stable Diffusion は依然として最有力候補の 1 つです。このガイドでは、初心者向けのものからより複雑なものまで、Stable Diffusion を利用する 3 つのアプローチを取り上げ、各方法に独自の機能があります。
システム要件
成功体験のための推奨仕様は次のとおりです。
- macOS: Apple Silicon (M シリーズ チップ)
- Windows または Linux: NVIDIA または AMD GPU
- RAM:最適なパフォーマンスを得るには 16GB
- GPU VRAM:少なくとも 4GB (8GB を推奨)
- ストレージ: 60~70GBの空き容量
1. Automatic1111 WebUIの使用
最初のアプローチでは、AUTOMATIC1111 Web UI を使用して、すべての主要なオペレーティング システムと互換性のある Stable Diffusion にアクセスします。
まず、 Python の最新の安定バージョンをダウンロードします。ダウンロード後、インストーラーを実行し、「今すぐインストール」をクリックする前に「python.exe を PATH に追加」が選択されていることを確認します。
次に、 GitHub のAUTOMATIC1111 Web UI リポジトリに移動し、[コード]をクリックして、[ZIP のダウンロード]を選択します。ダウンロードが完了したら、ファイルを解凍し、WebUI がインストールされている場所を覚えておいてください。
モデルをインストールする
Web UI の使用を開始する前に、少なくとも 1 つのモデルをインストールする必要があります。これらのモデルは、画像生成の芸術的なスタイルを決定する事前トレーニング済みのチェックポイントです。モデルを選択するには、CIVITAIにアクセスして、気に入ったモデルを選択してください。
希望するモデルを見つけたら、ダウンロード ボタンをクリックします。完了したら、「.safetensors」チェックポイント ファイルを適切なフォルダーに転送します。Automatic1111 WebUI のダウンロード ディレクトリに移動し、webui -> models -> Stable-diffusionに移動します。ダウンロードしたモデル ファイルをこのディレクトリに貼り付ければ、準備完了です。
WebUI の実行と構成
これで、Stable Diffusion を Web ブラウザで直接実行して使用できるようになりました。
macOS では、ターミナルから「stable-diffusion-webui」フォルダにアクセスし、コマンドを実行します./webui.sh --xformers
。Windows ユーザーの場合は、を実行します./webui-user.bat
。完了したら、「ローカル URL で実行中」の横に表示されている URL をコピーします。通常、この URL はhttp://127.0.0.1:7860と表示されます。
ブラウザのアドレスバーに URL を入力し、 を押しますEnter。Web UI がデフォルトのインターネットブラウザにローカルに読み込まれます。最初のインターフェースは複雑に見えるかもしれませんが、最初は多くの設定を調整する必要はありません。
まず、幅と高さのパラメータを調整し、バッチ サイズを 4 に設定します。これにより、プロンプトごとに 4 つの異なる画像が生成されます。
次に、 txt2imgタブにクリエイティブ プロンプトを入力します。画像に必要な詳細を具体的に記述し、さまざまな説明をコンマで区切ります。さらに、「リアル」、「詳細」、「クローズアップ ポートレート」などの用語を使用して芸術的なスタイルを説明します。
否定プロンプトのボックスには、画像から除外したい要素をすべて含めます。「CFG スケール」設定を変更することを検討してください。値が高いほど、ジェネレーターは指定されたプロンプトに厳密に従うようになり、値が低いほど、よりクリエイティブな出力が可能になります。
残りの設定は変更せずに、上部の [生成]をクリックして画像生成プロセスを開始します。その後、サムネイル画像をクリックして表示し、期待どおりかどうか判断できます。期待どおりでない場合は、 CFG スケールとプロンプトを自由に調整してください。この段階では、GPU が大量に使用されます。
気に入った画像を見つけたが、問題(歪んだ特徴など)を修正または改良したい場合は、「img2img に送信」または「inpaint に送信」をクリックします。このオプションにより、画像とプロンプトがそれぞれのタブに転送され、さらに強化することができます。
2. Fooocus の探索: 最も簡単な AI 画像ジェネレーター
Fooocus は、現在入手可能な最もシンプルで効果的な AI 画像生成ツールの 1 つとして際立っています。直感的なインターフェイスにより、より複雑な方法に進む前に AI 画像作成を試してみたい初心者でも簡単に使用できます。
Fooocus の圧縮ファイルをダウンロードし、ダウンロードが完了したら解凍します。次に、CIVITAI にアクセスして、好きなチェックポイントを選択します。チェックポイントをダウンロードしたら、Fooocus フォルダーに移動します。Fooocus -> models -> checkpoints をクリックし、ダウンロードしたチェックポイント ファイルをそこに配置します。
Civitai から LoRA をダウンロードすることもできます。これは、新しい概念やスタイルで大規模な言語モデルを強化する小さなファイルです。数ギガバイトになることもあるチェックポイントとは異なり、LoRA は既存のチェックポイントを活用しながら、最終的な画像に独特の要素を追加します。
LoRA を使用して AI 画像のビジュアル スタイルを強化することを選択した場合は、 Fooocus ディレクトリのmodelsフォルダーに戻り、LoRA ファイルをlorasフォルダーに貼り付けます。
Foocus の実行
Fooocus で画像の生成を開始します。ソフトウェアを解凍したフォルダーに移動し、run.bat をダブルクリックします。コマンド プロンプトが表示され、Web ブラウザーに Fooocus インターフェイスが自動的に読み込まれます。
開始画面で、下部にある[詳細設定]オプションを必ずチェックしてください。これにより、追加の設定が表示されます。ここで、希望するアスペクト比、Fooocus がプロンプトごとに生成する画像の数、および画像ファイル形式を選択できます。
最初に、パフォーマンス オプションをSpeedに設定します。これにより、画像の生成速度が大幅に向上します。下部で、不要な要素に対する否定プロンプトを入力します。
各スタイルにマウスを合わせるとプレビューできます。次に、[モデル] タブに移動して、Fooocus フォルダーに配置したベース モデルを選択します。そのすぐ下で、LoRA がインストールされている場合はそれを選択します。
後は、[生成]ボタンをクリックして、Fooocus が希望する画像を作成するのを見るだけです。Fooocus は最も強力な画像ジェネレータではないかもしれませんが、スタイル、チェックポイント、LoRA を簡単に調整して理想的な画像を作成できる最も簡単な方法であることは間違いありません。
Fooocus で AI フェイススワップを活用する
Fooocus には FaceSwap 機能も備わっており、画像内の顔を他の顔と置き換えることができます。まず、下部にある [ Input Image]オプションをチェックし、 [Image Prompt]を選択します。ここで、顔を入れ替えたい画像をアップロードします。下にスクロールし、もう一度[Advanced]をクリックし、オプションから[FaceSwap]を選択します。
[イメージ プロンプト]セクションの横にある[インペイント] または [アウトペイント]タブをクリックして、顔のスワップ用の画像をアップロードします。顔と髪の輪郭を描き、右上隅の [詳細設定]タブに移動します。 [開発者デバッグ モード]を有効にし、[コントロール]をクリックして、 [イメージ プロンプトとインペイントの混合]のボックスをオンにします。
完了したら、プロンプト ボックスをクリアして[生成]をクリックします。これにより、選択した画像との顔の交換が実行され、さまざまな結果が得られます。
画像を生成した後、解像度を向上させるために、トップレベルの AI 画像アップスケーリング ツールを使用して画像を強化することもできます。
3. ComfyUI で AI 画像を生成する
ComfyUI は、AI 画像作成に Stable Diffusion を活用するもう 1 つの推奨方法です。ワークフローはより魅力的かもしれませんが、より複雑でもあります。まず、 GitHub からComfyUI をダウンロードして解凍します。
この時点で、チェックポイントと LoRA についてよくご存知でしょう。前述のように、チェックポイント ファイル (および必要に応じて LoRA ファイル) をダウンロードし、 ComfyUI のモデルディレクトリ内の適切なフォルダーに配置します。ComfyUI ディレクトリで、Updateフォルダーを開き、update_comfyui.bat を実行してセットアップを準備します。
ここで、ComfyUI AI 画像ジェネレーターを実行します。ComfyUI ディレクトリに戻ると、2 つのバッチ ファイルが表示されます。Nvidia GPU をお持ちの場合は、run_nvidia_gpu.batをダブルクリックします。そうでない場合は、 run_cpu.batを実行します。
ブラウザで ComfyUI が起動すると、相互接続された複数のノードを含むデフォルトのワークフローが表示されます。最初は複雑に見えるかもしれませんが、これらのノードは AI 画像生成プロセスのさまざまなステップを表しています。
複数のノードを使用すると、さまざまなノード、モデル、LoRA、リファイナーを統合してカスタマイズされたワークフローを作成し、ユーザーが最終出力を広範囲に制御できるようになります。ただし、この複雑さにより、ComfyUI の操作と習得が難しくなる可能性があります。
ComfyUIの実行
開始するには、Load Checkpointノードでチェックポイントを選択します。CLIP Text Encode (Prompt)ノードに進み、画像のテキスト プロンプトを入力します。その下には、不要な記述子に対応する否定プロンプト ノードがあります。Empty Latent Imageノードでは、生成する画像の幅、高さ、数を調整できます。
プロンプトを設定したら、画像のサイズ、バッチ サイズ、処理の主な手順を調整します。通常、約 20 ~ 30 の手順で高品質の画像が生成されます。最後に、[キュー プロンプト]ボタンを押して、ComfyUI に作業を任せます。
ComfyUI での LoRA の使用
特定の LoRA を ComfyUI に含めるには、チェックポイント ノードの近くを右クリックし、[ノードの追加] -> [ローダー] -> [LoRA のロード]を選択します。ディレクトリ内のフォルダーから任意の LoRA を選択します。
ただし、新しい LoRA ノードが追加されるたびに、接続を再配置する必要があることに注意してください。モデルというラベルの付いたチェックポイント ノードから、KSampler ではなく、左側の LoRA ノードのモデル エントリ ポイントに線をドラッグします。次に、LoRA ノードの終了ポイントを KSampler のモデル入力に接続します。
チェックポイント ノードからの両方のクリップラインが各プロンプト ノードに向けられていることを確認します。同様に、LoRA のクリップの左側のエントリ ポイントを、肯定プロンプトと否定プロンプトの両方に接続します。
デフォルトのワークフローを理解し、カスタム ノードを段階的に追加することで、AI 画像生成のニーズに合わせて ComfyUI を活用できるようになります。
よくある質問
Stable Diffusion、DALL-E、Midjourney はどのように区別されますか?
これら 3 つの AI システムはすべてテキスト プロンプトから画像を生成できますが、Stable Diffusion だけが完全に無料でオープン ソースです。DALL-E と Midjourney は独自のソフトウェアですが、Stable Diffusion は無料でコンピューターにインストールして実行できます。
安定拡散におけるモデルとは正確には何でしょうか?
モデルは、特定の画像とキーワードを使用してトレーニングされた AI アルゴリズムを具体化したファイルとして機能します。さまざまなモデルが、異なるタイプのビジュアルを生成することに優れています。たとえば、リアルな人間の描写に最適化されたモデルもあれば、2D イラストやさまざまな芸術スタイルに適したモデルもあります。
画像クレジット: 特集画像は Stable Diffusion 提供。すべてのスクリーンショットは Brandon Li と Samarveer Singh 提供。
コメントを残す