DreamArtist-sd-webui-extensionの利用例とその効果の評価

2023年8月18日2023年9月16日

1. 「DreamArtist」とは？
2. 「DreamArtist」のインストール
3. 「DreamArtist」の設定
- 3.1. 🏳「ドリームアーティスト埋め込み作成」
4. 🏳Embeddingを作成
5. 🏳「ドリームアーティストのトレーニングを行う」
- 5.1. 推奨されている使用モデル
6. モデルリンク
7. 学習結果
8. Att-Mapの処理を行う

「DreamArtist」とは？

DreamArtistはたった1つのトレーニング画像で、コンテンツとスタイルを学習し、高い制御性を備えた多様で高品質の画像を生成します。 DreamArtistの基本的な操作方法を紹介します。

この記事の見方

設定変更個所に🏳マークを立てています、一応、各項目の説明を入れていますが飛ばしていただいても問題は有りません。

「DreamArtist」のインストール

「DreamArtist」はStable Diffusion WebUIの拡張機能ですので拡張機能タブからインストールができます。
「拡張機能タブ」を開き、「拡張機能リスト」タブの「読み込みボタン」を押してリストを表示させます、検索に「DreamArtist」と入力、又はコピペすると「DreamArtist」のみが表示されますのでインストールして下さい。

設定タブに戻り UIの再読み込みを行うと「DreamArtist」タブが表示される様になります。

「DreamArtist」の設定

「DreamArtist」タブを開くと「ドリームアーティスト埋め込み作成」・「ドリームアーティストのトレーニングを行う」・「Att-Mapの処理を行う」の３個のタブが表示されます。

🏳「ドリームアーティスト埋め込み作成」

今回学習させるキャラクターは「江戸前エルフ」のキャラクターを学習させます。
画像は１縦横1：1の画像をネットから拾ってフォルダーに保管します。

🏳名前

学習させる画像の名前を入力します、ここに記載した名前が画像生成時のトリガーワードになります。ここでは「edomae_erufu」とします。

初期設定用テキスト

ここの記載は不要です。書くとすれば「woman」や「ｇirl」などを入れます。
※プレビュー表示などは「txt2img」のプロンプトが使用されますので「＊」のままで機能します。

初期設定用テキスト（ネガティブ）

ここの記載は不要です。書くとすれば「Undressing」や「Unwanted limbs」などを入れます。
※プレビュー表示などは「txt2img」のネガティブ・プロンプトが使用されますので「＊」のままで機能します。

トークン毎のベクトル数・ネガティブベクトル数

埋め込みのサイズを表しています。この値が大きいほど、埋め込みに関する情報が多くなります、トークン毎のベクトル数は変更する必要性は有りませんが、ネガティブベクトル数は学習が上手くできない場合は少し上げても良いかもしれません。

古いEmbeddingを上書き

再設定を行う場合はチェックを入れる、通常は誤設定を避ける為、チェックを外しておきます。

🏳Embeddingを作成

Embeddingを作成ボタンを押すとファイルが作成され「txt2img」の「Textual Inversion」に保存されます。

これを使いプレビューで表示される画像用のプロンプトを書いて行きます

正プロンプト ➡️ 1 girl・1 man ・ woman などの後に Textual Inversionタブに表示された名前をクリックして「1 girl 、〇〇〇」と記載します、プロントは何でも良いが登録したトリガーワード（名前）を必ず入れる様にしてください。例：1 girl,edomae_erufu

ネガティブプロント ➡️ Textual Inversionタブからトリガーワード（名前）+「-neg」をクリックして挿入してください、後は追記が有れば追記して終了です。

🏳「ドリームアーティストのトレーニングを行う」

トレーニングを開始する前に使用モデルを選んでいただきます、推奨されているモデルは5つ、それぞれのリンクを準備しましたので学習素材に有ったモデルを選んでダウンロードしてください。
ダウンロードファイルは「stable-diffusion-webui➡️models➡️Stable-diffusion」の中に入れて使用します。

推奨されている使用モデル

各モデルを「1 girl」で生成した参考画像になります、アニメ風の画像は animefull-latest ・momoko-e 。ドール・リアルよりの画像は Anything v3.0。実写画像はSD v1.4・ SD v1.5を使用します。

モデルリンク

アニメ画像 ➡️ animefull-latest ・momoko-e

肖像画 ➡️ Anything v3.0

写真 ➡️ SD v1.4・ SD v1.5

animefull-latest
- 「animefull-latest.ckpt ·コーデリヤ/アニメフル最新 (huggingface.co)」
Anything v3.0
- 「AnythingMIX3D.ckpt ·コーデリヤ/アニメフル最新 (huggingface.co)」
momoko-e
- 「momoko-e·xiaolxl/安定拡散モデル(メイン) (huggingface.co)」
SD v1.4
- [DS-v-1-4-オリジナル ·抱きしめる顔 (huggingface.co)]
SD v1.5
- 「DS-V1-5 ·抱きしめる顔 (huggingface.co)」

これらのモデルを「Stable Diffusion checkpoint」に指定してから各設定を行っていきます。

Embedding

更新ボタンを押して、ダウンリストから埋め込みの制作した名前「edomae_erufu」を選択します。「edomae_erufu-neg」ファイルはネガティブ学習ファイルですのでここで選択するとエラーになるので選択出来ません。

Embeddingの学習率(Learning rate)

「Embedding Learning rate」とは、学習の深度を決める数字で、高くすると埋め込みファイルが機能しなくなったり、プロンプトに従いにくくなったりする可能性がありますので、このままの設定0.003で行います。

DreamArtist

「ドリームアーティストでトレーニング」・「再構築でトレーニング」・「アテンションマップ」のチェックリストの中で「再構築でトレーニング」だけはデフォルトでチェックが外されています。
「再構築でトレーニング」は入力データを再構築するためにモデルをトレーニングするプロセスを指しますので、デフォルト設定のままにしておきます。

CFGスケール (動的 cfg: low,high:type 例: 1.0-3.5:cos)

Stable Diffusionの画像生成時のデフォルト設定は（7）ですが「DreamArtist」のデフォルト設定は（3.0）と低く設定してあります、設定値3.0はプロントが無視されないギリギリの値でも有り、最も処理速度が速い設定でもあります。
8000回以上繰り返される学習の工程では処理速度の違いで数時間のロスが生じてしまいますのでここでは欲張らず3.0～5.0までに留める様にします。

動的 CFG

動的 CFG とは、特にデータ・セットが大きい (>20) 場合に、パフォーマンスを向上させます。たとえば、1.5 から 3.0 (1.5-3.0) までの直線的な場合、またはコサインの 0-π/2 サイクル (1.5-3.0:cos)、コサインの -π/2-0 サイクル (1.5-3.0:cos2) などです。または、2.5-3.5:torch.sqrt(rate) のように、rate が 0-1 の変数である非線形関数をカスタマイズすることもできます。