README.md · shirayu/sd-tohoku-v2 at b37957ae7d265ffcdbe31e4e60207c842fe8d68c

metadata

license: creativeml-openrail-m
language:
  - en
tags:
  - stable-diffusion
  - stable-diffusion-diffusers
  - text-to-image

東北ずん子プロジェクトのキャラクターイラストを用いてDreamBoothで学習したモデルです．

itako: 東北イタコ
zunko: 東北ずん子
kiritan: 東北きりたん
zundamon: ずんだもん (人間形態)
metan: 四国めたん
usagi: 中国うさぎ
awamo: 沖縄あわも
shinobi: 関西しのび
hokamel: 北海道めろん
sora: 九州そら
chanko: 大江戸ちゃんこ

学習画像はなるべく衣装にバリエーションをもたせているので，「公式衣装」は出にくいです．

shirayu/sd-tohoku-v1と比べてキャラクターが増え，学習元モデルも変更しています．ただし，全てが改善されているとはいえません．（例えばitakoの画像が非常に出力しにくいです．）

その理由として

1キャラクターあたりの学習枚数を16枚に絞った
同時に学習したキャラクターが11名と多い
学習元モデルがまだEpoch 1での学習結果である

など様々な理由が考えられます．

shirayu/sd-tohoku-v1と比較して，その時々によって使い分けをされることをおすすめします．

ファイル形式

AUTOMATIC1111/stable-diffusion-webuiなどckptファイルを読み込むツールの場合

sd-tohoku-v2.model.ckpt(約2.5GB)とsd-tohoku-v2.yamlをダウンロードして読み込んでください

diffusersから利用する場合

from diffusers import DiffusionPipeline
pipeline = DiffusionPipeline.from_pretrained("shirayu/sd-tohoku-v2")

紹介動画

ライセンス

CreativeML Open RAIL-M license 1.0

また，各種法令・各種ガイドラインにご留意ください．例えば，生成された画像が東北ずん子プロジェクトのキャラクターを含む場合，「東北ずん子プロジェクトキャラクター利用の手引き」に基づいて利用してください．

学習設定

元モデル: Waifu Diffusion 1.4 Anime Epoch 1 (wd-1-4-anime_e1.ckpt)
学習画像
- 11キャラクター計111枚
- アルファチャンネルは削除 + 白背景 + センタリング + 448x640にリサイズ
- 正則化画像なし
学習元コード: ShivamShrirao/diffusers (85d8b49)
学習設定
- Instance ID: itako, zunko, kiritan, zundamon, metan, usagi, awamo, shinobi, hokamel, sora, chanko (11種)
- Instance prompt: <ID>, 1girl
- NVIDIA A100で約160分, 600エポック

学習用コマンド

accelerate launch \
    --num_cpu_threads_per_process 12 \
    train_db.py \
    --pretrained_model_name_or_path="wd-1-4-anime_e1.ckpt" \
    --train_data_dir="/content/data/img_train" \
    --reg_data_dir="/content/data/img_reg"  \
    --output_dir="/content/data/output_models" \
    --prior_loss_weight=1.0  \
    --resolution="448,640"  \
    --train_batch_size="4" \
    --learning_rate="1e-6"  \
    --max_train_steps="8400"  \
    --use_8bit_adam  \
    --cache_latents \
    --v2 \
    --logging_dir="/content/data/logs" \
    --save_every_n_epochs "10" \
    --save_last_n_epochs "1" \
    --save_state \
    --mixed_precision='fp16'

後半300エポックは--output_dirを変え，--resume /content/data/output_models/last-stateで再開．

学習に使った画像

生成例

masterpiece, best quality, chanko, 1girl, white dress, sing on a stage, hold a microphone
Negative prompt: out of frame, armature drawing, mutated hands and fingers, poor drawing, amateur, bad painting, bad painting of arms, bad anatomy, mutation, extra limbs, ugly, fat
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7.5, Seed: 4103437300, Size: 512x704, Model hash: c6343649