sd-tohoku-v2 / README.md
shirayu's picture
Add an example
b37957a
|
raw
history blame
4.94 kB
metadata
license: creativeml-openrail-m
language:
  - en
tags:
  - stable-diffusion
  - stable-diffusion-diffusers
  - text-to-image

東北ずん子プロジェクトのキャラクターイラストを用いてDreamBoothで学習したモデルです.

  • itako: 東北イタコ
  • zunko: 東北ずん子
  • kiritan: 東北きりたん
  • zundamon: ずんだもん (人間形態)
  • metan: 四国めたん
  • usagi: 中国うさぎ
  • awamo: 沖縄あわも
  • shinobi: 関西しのび
  • hokamel: 北海道めろん
  • sora: 九州そら
  • chanko: 大江戸ちゃんこ

学習画像はなるべく衣装にバリエーションをもたせているので,「公式衣装」は出にくいです.

shirayu/sd-tohoku-v1と比べてキャラクターが増え, 学習元モデルも変更しています. ただし,全てが改善されているとはいえません. (例えばitakoの画像が非常に出力しにくいです.)

その理由として

  • 1キャラクターあたりの学習枚数を16枚に絞った
  • 同時に学習したキャラクターが11名と多い
  • 学習元モデルがまだEpoch 1での学習結果である

など様々な理由が考えられます.

shirayu/sd-tohoku-v1と比較して, その時々によって使い分けをされることをおすすめします.

ファイル形式

  1. AUTOMATIC1111/stable-diffusion-webuiなどckptファイルを読み込むツールの場合

    sd-tohoku-v2.model.ckpt(約2.5GB)とsd-tohoku-v2.yamlをダウンロードして読み込んでください

  2. diffusersから利用する場合

    from diffusers import DiffusionPipeline
    pipeline = DiffusionPipeline.from_pretrained("shirayu/sd-tohoku-v2")
    

紹介動画

ライセンス

CreativeML Open RAIL-M license 1.0

また,各種法令・各種ガイドラインにご留意ください. 例えば,生成された画像が東北ずん子プロジェクトのキャラクターを含む場合, 「東北ずん子プロジェクト キャラクター利用の手引き」に基づいて利用してください.

学習設定

  • 元モデル: Waifu Diffusion 1.4 Anime Epoch 1 (wd-1-4-anime_e1.ckpt)

  • 学習画像

    • 11キャラクター計111枚
    • アルファチャンネルは削除 + 白背景 + センタリング + 448x640にリサイズ
    • 正則化画像なし
  • 学習元コード: ShivamShrirao/diffusers (85d8b49)

  • 学習設定

    • Instance ID: itako, zunko, kiritan, zundamon, metan, usagi, awamo, shinobi, hokamel, sora, chanko (11種)
    • Instance prompt: <ID>, 1girl
    • NVIDIA A100で約160分, 600エポック
  • 学習用コマンド

    accelerate launch \
        --num_cpu_threads_per_process 12 \
        train_db.py \
        --pretrained_model_name_or_path="wd-1-4-anime_e1.ckpt" \
        --train_data_dir="/content/data/img_train" \
        --reg_data_dir="/content/data/img_reg"  \
        --output_dir="/content/data/output_models" \
        --prior_loss_weight=1.0  \
        --resolution="448,640"  \
        --train_batch_size="4" \
        --learning_rate="1e-6"  \
        --max_train_steps="8400"  \
        --use_8bit_adam  \
        --cache_latents \
        --v2 \
        --logging_dir="/content/data/logs" \
        --save_every_n_epochs "10" \
        --save_last_n_epochs "1" \
        --save_state \
        --mixed_precision='fp16'
    

    後半300エポックは--output_dirを変え,--resume /content/data/output_models/last-stateで再開.

学習に使った画像

学習に使った画像

生成例

生成例(大江戸ちゃんこ)
masterpiece, best quality, chanko, 1girl, white dress, sing on a stage, hold a microphone
Negative prompt: out of frame, armature drawing, mutated hands and fingers, poor drawing, amateur, bad painting, bad painting of arms, bad anatomy, mutation, extra limbs, ugly, fat
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7.5, Seed: 4103437300, Size: 512x704, Model hash: c6343649