安定拡散を使用して AI 生成画像を作成する方法
ChatGPT のような人工知能チャットボットは、最近信じられないほど強力になりました。ただし、AI 画像ジェネレーター (Stable Diffusion、DALL-E、Midjourney など) を忘れないでください。ほんの数語があれば、事実上どんなイメージでも作ることができます。このチュートリアルに従って、コンピューターで Stable Diffusion を実行することにより、制限なしで無料でこれを行う方法を学びます。
安定拡散とは?
Stable Diffusion は、無料でオープン ソースのテキストから画像への機械学習モデルです。基本的には、テキストを使用して画像を説明し、画像を作成するプログラムです。何十億もの画像と付随するテキストの説明が与えられ、それらを分析して再構築するように教えられました。
Stable Diffusion は、直接使用するプログラムではありません。他のプログラムが使用する基本的なソフトウェア ツールのようなものだと考えてください。このチュートリアルでは、コンピューターに Stable Diffusion プログラムをインストールする方法を示します。Stable Diffusion を使用するプログラムや Web サイトは多数ありますが、その多くは料金を請求するだけでなく、あまり制御できないことに注意してください。
システム要求
何を目指すべきかについての大まかなガイドラインは次のとおりです。
- macOS: Apple Silicon (M シリーズチップ)
- Windows または Linux: NVIDIA または AMD GPU
- RAM:最適な結果を得るには 16GB
- GPU VRAM: 4GB 以上
- ストレージ: 15GB 以上
AUTOMATIC1111 Web UI をインストールする
すべての主要なデスクトップ オペレーティング システムで利用可能なAUTOMATIC1111 Web UIプログラムを使用して、Stable Diffusion にアクセスしています。「stable-diffiusion-webui」ディレクトリがダウンロードされる場所を書き留めておいてください。
AUTOMATIC1111 macOS の Web UI
- ターミナルで、次のコマンドを入力して Homebrew をインストールします。
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Homebrew を追加するための 2 つのコマンドを PATH にコピーして入力します。
- ターミナルを終了して再度開き、次のように入力します。
brew install cmake protobuf rust python@3.10 git wget
- 入力:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
AUTOMATIC1111 Windows 上の Web UI
- Python 3.10 の最新の安定バージョンをダウンロードします。
- Python インストーラーを実行し、「python.exe を PATH に追加する」にチェックを入れ、「今すぐインストール」をクリックします。
- GitHub のAUTOMATIC1111 Web UI リポジトリに移動し、[コード] をクリックしてから、[ZIP をダウンロード] をクリックして解凍します。
AUTOMATIC1111 Linux 上の Web UI
- ターミナルを開きます。
- Linux のフレーバーに応じて、次のコマンドのいずれかを入力します。
Ubuntu を含む Debian ベース:
sudo apt-get updatesudo apt install wget git python3 python3-ven
Red Hat ベース:
sudo dnf install wget git python3
アーチベース:
sudo pacman -S wget git python3
- 次のコマンドを実行して、「/home/$(whoami)/stable-diffusion-webui/」にインストールします。
bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)
モデルをインストールする
Web UI の使用を開始する前に、少なくとも 1 つのモデルを追加する必要があります。
- チビタイに行きます。
- ダウンロード ボタンのドロップダウン矢印をクリックし、「Model SafeTensor」を選択します。
- を動かします。ステップ 2 でダウンロードした safetensors ファイルを「stable-diffiusion-webui/models/Stable-diffusion」フォルダーに保存します。
Web UI の実行と構成
この時点で、Web ブラウザーで Stable Diffusion プログラムを実行して使用する準備が整いました。
./webui.sh --xformers
ターミナルで、「stable-diffusion-webui」ディレクトリを開き、 Linux / macOS または./webui-user.bat
Windows 用のコマンドを入力します。完了したら、[Running on local URL] の横にある URL を選択してコピーします。この URL は http://127.0.0.1:7860 のようになります。
- ブラウザのアドレス バーにリンクを貼り付けて、 をクリックしますEnter。Web UI Web サイトが表示されます。
- より良い結果を得るために、いくつかの設定を変更してみましょう。「設定 -> 安定拡散」に移動します。
- 下にスクロールして、「Kサンプラーで量子化を有効にして、よりシャープでクリーンな結果を得る」にチェックを入れます。
- 上にスクロールして、[設定を適用]、[UI の再読み込み] の順にクリックします。
参考までに:画像ソースを見つける必要がある場合は、Google を使用してください。
txt2txt を使用してコンセプト イメージを生成する
ここからが楽しい部分です。最初の画像をいくつか作成し、希望する外観に最も近い画像を検索します。
- 「txt2img」タブに移動します。
- 最初のプロンプト テキスト ボックスに、イメージを説明する単語をコンマで区切って入力します。「リアル」、「詳細」、「クローズアップ ポートレート」など、画像のスタイルを説明する言葉を含めると役立ちます。
- 下の否定プロンプトのテキスト ボックスに、画像を表示させたくないキーワードを入力します。たとえば、リアルな画像を作成しようとしている場合は、「ビデオ ゲーム」、「アート」、「イラスト」などの単語を追加します。
- 下にスクロールして、「バッチサイズ」を「4」に設定します。これにより、Stable Diffusion はプロンプトから 4 つの異なる画像を生成します。
- Stable Diffusion をより厳密にプロンプト キーワードに追従させたい場合は「CFG スケール」を高い値に設定し、よりクリエイティブにしたい場合は低い値に設定します。低い値 (デフォルトの 7 など) では、通常、高品質でクリエイティブなイメージが生成されます。
- 他の設定はデフォルトのままにしておきます。Stable Diffusion の上部にある大きな [Generate] ボタンをクリックして作業を開始します。
- [生成] ボタンの下にある画像のサムネイルをクリックしてプレビューし、気に入ったものがあるかどうかを判断します。
どの画像も気に入らない場合は、手順 1 ~ 5 を少し変えて繰り返します。
全体的に気に入っている 1 つの画像を変更したり、問題 (顔のゆがみ、解剖学的な問題など) を修正したい場合は、[img2img に送信] または [修復に送信] をクリックします。これにより、画像がコピーされ、画像を改善できるそれぞれのタブにプロンプトが表示されます。
画像が非常に興味深いか優れている場合は、[保存] ボタンをクリックしてから [ダウンロード] ボタンをクリックします。
過去の画像に使用されたプロンプトを見つける
いくつかの画像を生成したら、後で画像を作成するために使用されるプロンプトと設定を取得すると役立ちます。
- 「PNG 情報」タブをクリックします。
- ボックスに画像をアップロードします。画像のすべてのプロンプトとその他の詳細が右側に表示されます。
img2img を使用して類似の画像を生成する
img2img 機能を使用して、ベース イメージの全体的な外観を模倣した新しいイメージを生成できます。
- 「img2img」タブで、同じプロンプトで以前に生成されたイメージを使用していることを確認します。
- 「ノイズ除去強度」の値を高くまたは低く設定して、画像を多かれ少なかれ再生成します (0.50 は 50% を再生成し、1 は 100% を再生成します)。
- 「生成」をクリックして違いを確認します。気に入らない場合は、設定を微調整した後、手順 1 ~ 3 を繰り返します。
- または、「img2img に送信」をクリックして、新しい画像に基づいて変更を続けます。
- プロンプトを書き直して、まったく新しい要素を画像に追加し、必要に応じて他の設定を調整します。
- 「生成」をクリックして、結果を確認します。
修復を使用して画像の一部を変更する
修復機能は、マウスを使用して再生成する画像の部分を「ペイント」することで、ベース画像に正確なスポット修正を加えることができる強力なツールです。塗っていない部分は変わりません。
- 「img2img タブ -> Inpaint タブ」で、以前に生成した画像を使用していることを確認します。
- 新しいビジュアル要素が必要な場合は、プロンプトを変更してください。
- 変更したい画像の部分をマウスでペイントします。
- 「サンプリング方法」を、修復に推奨されるDDIMに変更します。
- 「ノイズ除去の強さ」を設定します。極端な変更を行う場合は、より高い値を選択します。
- 「生成」をクリックして、結果を確認します。
Stable Diffusion では、おそらく最初の試行ですべてが修正されるわけではないため、[Send to inpaint] をクリックして、上記の手順を何度でも繰り返すことができます。
画像をアップスケールする
ここまでは 512 x 512 ピクセルの比較的小さな画像を作成してきましたが、画像の解像度を上げると、視覚的なディテールのレベルも上がります。
Ultimate SD Upscale Extension をインストールする
- 「拡張機能 -> 使用可能 -> ロード元」をクリックします。
- 下にスクロールして「究極のSDアップスケール操作」を見つけ、「インストール」をクリックします。
- 上にスクロールして、「インストール済み」タブをクリックします。「ultimate-upscale-for-automatic1111」にチェックを入れ、「Apply and restart UI」をクリックします。
画像のサイズを変更する
- 「img2img」タブで、同じプロンプトで以前に生成されたイメージを使用していることを確認します。プロンプト入力の前に、「4k」、「UHD」、「高解像度写真」、「RAW」、「クローズアップ」、「肌の毛穴」、「詳細な目」などのフレーズを追加して、さらに磨きをかけます。否定的なプロンプト入力の前に、「セルフィー」、「ぼやけた」、「低解像度」、「電話カメラ」などのフレーズを追加して、それらから離れます。
- 「ノイズ除去強度」を低い値 (約 0.25) に設定し、「幅」と「高さ」の値を 2 倍にします。
- [スクリプト] ドロップダウンで [Ultimate SD アップスケール] を選択し、[アップスケーラー] で [R-ESRGAN 4x+] オプションをオンにします。
- 「生成」をクリックして、結果を確認します。マイナーな変更とよりシャープな詳細に気付くはずです。
「Send to img2img」をクリックし、「幅」と「高さ」の値をさらに増やし、「ノイズ除去強度」を微調整しながら手順を繰り返すことで、解像度をさらに上げることができます。
よくある質問
Stable Diffusion、DALL-E、Midjourney の違いは何ですか?
3 つすべてが、テキスト プロンプトからほぼすべての画像を作成できる AI プログラムです。最大の違いは、Stable Diffusion だけが完全に無料でオープン ソースであることです。何も支払わずにコンピューターで実行でき、誰もが Stable Diffusion コードから学び、改善することができます。ただし、自分でインストールする必要があるという事実は、使用を難しくします。
DALL-E と Midjourney はどちらもクローズド ソースです。DALL-E は、主にその Web サイトからアクセスでき、支払いを求める前に月に限られた数の画像生成を提供します。Midjourney は、主にDiscord サーバーのコマンドを介してアクセスでき、さまざまなサブスクリプション層があります。
安定拡散におけるモデルとは?
モデルは、特定の画像とキーワードでトレーニングされた AI アルゴリズムを表すファイルです。モデルによって、作成できる画像の種類が異なります。リアルな人物を作成するのが得意なモデル、2D の漫画のキャラクターを作成するのが得意なモデル、風景画を作成するのに最適なモデルなどがあります。
このガイドでインストールした Deliberate モデルは、ほとんどの画像に適した人気のあるモデルですが、 CivitaiやHugging Faceなどの Web サイトであらゆる種類のモデルを確認できます。ダウンロードする限り、. safetensors ファイルの場合、このガイドと同じ手順を使用して AUTOMATIC1111 Web UI にインポートできます。
SafeTensor と PickleTensor の違いは何ですか?
つまり、常に SafeTensor を使用して、コンピューターをセキュリティの脅威から保護してください。
SafeTensor と PickleTensor はどちらも Stable Diffusion のモデルを格納するために使用されるファイル形式ですが、PickleTensor は古く安全性の低い形式です。PickleTensor モデルは、システム上で任意のコード (マルウェアを含む) を実行できます。
バッチ サイズまたはバッチ カウント設定を使用する必要がありますか?
両方を使用できます。バッチは、並行して生成されるイメージのグループです。バッチ サイズ設定は、1 つのバッチに含まれる画像の数を制御します。バッチ カウント設定は、1 つの世代で実行されるバッチの数を制御します。各バッチは順番に実行されます。
バッチ数が 2 でバッチ サイズが 4 の場合、2 つのバッチと合計 8 つの画像が生成されます。
自分で絵を描く方が好きな場合は、Windows 用のスケッチ アプリのリストをご覧ください。
画像クレジット:Pixabay . ブランドン・リーによるすべてのスクリーンショット。
- フェイスブック
- つぶやき
コメントを残す