Stable Diffusion

up::

安定拡散モデル。
ノイズを取り払っていくことで画像を生成する。
本当はこのタグの上にt2iみたいなのを入れるべきなんだけど、sdが圧倒してるので。
hunyuanとかpixArtが台頭したら考える。

1.5とXL

1.5モデル（の有名な奴）はDanbooruタグによって調整されている。そのためDanbooruタグを使えば狙った絵が出せる。いわゆる呪文。
ControlNetなどの効きもいい。

512x512を元に学習されており、それより大きいものを作ろうとすると不具合が出る。
i2iで描き直す場合は割と平気。

XLは完全に描き直されている。自然言語での指定をサポートするCheckpointもある。
PonyDiffusionのようにe621タグを使用するものもある。

1024x1024で学習されている。逆にそれより小さい画像を作ろうとするとおかしくなりがち。

絵がうまくなる

これは表現の本を読んだからでは？

ひたすらAI絵をやってたら絵が描けるようになってた話｜賢木イオ @studiomasakaki

Nagative Embedding

よく使うネガティブプロンプトを一つの言葉にまとめて適用させる。
プロンプトではなく埋め込みとして読み込ませるので75トークン制限に引っかからない。
SDXLかSD1.5かで使うモデルが違う。留意。

Stable Diffusion よく使われる Embeddings / Negative Embeddings / Negative TI | iPentec

step数の仕組み

Increasing sampling steps to a high number decreases quality per step drastically. · Issue 1113 · AUTOMATIC1111/stable-diffusion-webui · GitHub
Allow saving intermediate Steps to separate image files during generation · Issue 1026 · AUTOMATIC1111/stable-diffusion-webui · GitHub
Hyper-SD and Hyper-SDXL fast models - Stable Diffusion Art

完成体までのノイズ除去をいくつ分割して適用するかというもの。
乱暴に言うと、100stepなら完成体までの1%分だけ適用する。

この仕組み上、40stepの10と100stepの10は別物。

sdwebui resize

HuggingFace - fatal: could not read Username for ‘https://huggingface.co’: No such device or address

git clone https://<user_name>:<token>@huggingface.co/<repo_path>。あとからremoteとset-url originで変えることもできる。

クラウドGPU

【完全無料】低スペックPCでもStableDiffusionWebUIを動かす方法【SageMaker】｜これすご-AIクリエイティブ-

kaggleとSagemaker Studio Labで何とかなる。
Kaggleは一応NSFW禁止みたいなので注意。

ノイズ法、カムカム法

SDはノイズを潰して絵にするため、のっぺりになりがち。
そこでノイズを追加しまくることで書き込みを増やす。

色彩感覚の破壊と書き込みの増加で出来ている。
プロンプトも大事。

書き込みの増加の方向は読ませるノイズによって大体決まる。
なので欲しいものが大体決まっているなら、それっぽいテクスチャをプリプロかけて通常通りLineartに入れ書き込みを増やし、同じ画像で色彩を破壊するといい。

サンプラーはDDIM系以外。CFGは低め。ステップは気持ち多め。
CN強度は書き込み側(Lineart、Anime)は強度0.5、startendは0.10.6
色彩(tile)は強度1.0、startend0.00.1

【イラストAI】ノイズやテクスチャを使って描き込み量をめちゃくちゃに増やそう！1/4｜御月望未（みつきのぞみ）

テクスチャを作る。
プロンプト使うなり、Scribble使うなり。
フォトバッシュっぽくまとめ、カムカム法とtiling機能を掛けるとテクスチャを作れる。

【イラストAI】テクスチャを作って使おう！【テクスチャ法】｜御月望未（みつきのぞみ）

黒で塗りつぶして暗い画像を作ることもできる。

ControlNetを使ってめちゃくちゃダークな絵を描いてもらおう！｜御月望未（みつきのぞみ）

SDXLでやってみたが、llliteのLineartとtileでは上手くいかなかった。
先駆者によるとt2i-adapterの奴がいいっぽい。

【ComfyUI+SDXL】描き込み強化を重視したHires.fixを組み込んだワークフロー｜mogami

SD3

Have you really been far even as decided to use even go want to do look more like. Have you ever had a dream that you, um, you had, your, you, you could, you’ll do, you, you wants, you, you could do so, you , you’ll do, you could, you, you want, you want them, to do you so much, you could do anything

Reddit - Dive into anything

ちょっと前にライセンスが更新され、1億円売上までは無料になった。

Community License — Stability AI

SD以外のモデル

TerDiT
- GitHub - Lucky-Lance/TerDiT: TerDiT: Ternary Diffusion Models with Transformers
PixArt
- GitHub - PixArt-alpha/PixArt-sigma: PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation
- PixArt-alpha/PixArt-Sigma · Hugging Face
- イラストとしてはこれが有望かも
- αが1.5、ΣがXLに当たる
- プロンプト遵守なものの、その為にT5テキストエンコーダを実行する必要がありかなり重いらしい。
- 使用するのはCPUのRAMなので、要件自体は軽い
- Reddit - Dive into anything
- なお同じくらいの遵守を実現するだけならELLAで可能
- Reddit - Dive into anything
- トレーニング代が1.5の10%くらいらしい
- 唯一画質が微妙
Lumina
- 詳細不明
kwai-kolors
- 文字が綺麗に出るフォトリアリスティック
- 中国語もサポート
Hunyuan

書き込み増加

sd-webui-supermerger/README_ja.md at main · hako-mikan/sd-webui-supermerger · GitHub

マージすることなく結果を出力するsupermerger。
実はCDTunerのような書き込み増加機能が付いており、直接書き込みの多いモデルへの変更を行うことができる。

制作者ははこみかん。またお前か。

AI Reviewer

AI Reviewers
裏でClaude Sonnetを使用しているらしい。なのでNSFWはNG。

CyberHarem

データセット付でLoRAを上げているユーザー。
LoRAの学習用。

Waifuc

画像を学習用にダウンロードできる奴。
GitHub - deepghs/waifuc: Efficient Train Data Collector for Anime Waifu

その先のパイプラインもある。
GitHub - deepghs/cyberharem: Cyber Harem of All the Waifus in Games, Mua~

B-LoRA

コンテンツとスタイルを分離できるLoRA。
GitHub - yardenfren1996/B-LoRA: Implicit Style-Content Separation using B-LoRA

StableDelight

光の反射を消せる。
IC-Lightなどと合わせるといい。
GitHub - Stable-X/StableDelight: StableDelight: Revealing Hidden Textures by Removing Specular Reflections
StableDelight - work4ai

DiLightNet

ライティング。
HDRI画像が使えるっぽい。
また、Stable Diffusion2.1を使う。
DiLightNet - work4ai
GitHub - iamNCJ/DiLightNet: Official Code Release for [SIGGRAPH 2024] DilightNet: Fine-grained Lighting Control for Diffusion-based Image Generation
GitHub - logtd/ComfyUI-DiLightNet: ComfyUI nodes to use DiLightNet

Concept Sliders

概念をスライダーで変えられるスライダーLoRAを作る。
LECOとは違い視点も終点も自由に決められるらしい。
Fixing Handsに使う。
Concept Sliders - work4ai

DiT

次世代の画像生成モデルアーキテクチャ。
密結合だったu-netから単純なtransformerに移行。

https://qiita.com/sasgawy/items/8546c784bc94d94ef0b2

Sonolart

エクスプローラー