File size: 6,958 Bytes
58e64f8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
ec1f161
 
58e64f8
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
d84aa55
58e64f8
 
 
b37957a
 
 
 
 
 
 
ec1f161
 
 
 
 
 
 
 
3036150
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
---
license: creativeml-openrail-m
language:
- en
tags:
- stable-diffusion
- stable-diffusion-diffusers
- text-to-image

---

[東北ずん子プロジェクト](https://zunko.jp/)のキャラクターイラストを用いてDreamBoothで学習したモデルです.

- ``itako``: 東北イタコ
- ``zunko``: 東北ずん子
- ``kiritan``: 東北きりたん
- ``zundamon``: ずんだもん (人間形態)
- ``metan``: 四国めたん
- ``usagi``: 中国うさぎ
- ``awamo``: 沖縄あわも
- ``shinobi``: 関西しのび
- ``hokamel``: 北海道めろん
- ``sora``: 九州そら
- ``chanko``: 大江戸ちゃんこ

学習画像はなるべく衣装にバリエーションをもたせているので,「公式衣装」は出にくいです.

[shirayu/sd-tohoku-v1](https://huggingface.co/shirayu/sd-tohoku-v1)と比べてキャラクターが増え,
学習元モデルも変更しています.
ただし,全てが改善されているとはいえません.
(例えば``itako``の画像が非常に出力しにくいです.)

その理由として

- 1キャラクターあたりの学習枚数を16枚に絞った
- 同時に学習したキャラクターが11名と多い
- 学習元モデルがまだEpoch 1での学習結果である

など様々な理由が考えられます.

[shirayu/sd-tohoku-v1](https://huggingface.co/shirayu/sd-tohoku-v1)と比較して,
その時々によって使い分けをされることをおすすめします.

また,元モデルのリリースノートの[Waifu Diffusion 1.4 Anime Release Notes](https://gist.github.com/harubaru/8581e780a1cf61352a739f2ec2eef09b)も参考にしてください.

## ファイル形式

1. [AUTOMATIC1111/stable-diffusion-webui](https://github.com/AUTOMATIC1111/stable-diffusion-webui)などckptファイルを読み込むツールの場合

    [sd-tohoku-v2.model.ckpt](https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/ckpt/sd-tohoku-v2.model.ckpt)(約2.5GB)と[sd-tohoku-v2.yaml](https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/ckpt/sd-tohoku-v2.model.yaml)をダウンロードして読み込んでください

2. [diffusers](https://github.com/huggingface/diffusers)から利用する場合

    ```python
    from diffusers import DiffusionPipeline
    pipeline = DiffusionPipeline.from_pretrained("shirayu/sd-tohoku-v2")
    ```

## 紹介動画

## ライセンス

[CreativeML Open RAIL-M license 1.0](https://hf.space/static/bigscience/license/index.html)

また,各種法令・各種ガイドラインにご留意ください.
例えば,生成された画像が東北ずん子プロジェクトのキャラクターを含む場合,
[「東北ずん子プロジェクト キャラクター利用の手引き」](https://zunko.jp/guideline.html)に基づいて利用してください.

## 学習設定

- 元モデル: [Waifu Diffusion 1.4 Anime Epoch 1](https://huggingface.co/hakurei/waifu-diffusion-v1-4) (``wd-1-4-anime_e1.ckpt``)
- 学習画像
    - 11キャラクター計111枚
    - アルファチャンネルは削除 + 白背景 + センタリング + 448x640にリサイズ
    - 正則化画像なし
- 学習元コード: [ShivamShrirao/diffusers](https://github.com/ShivamShrirao/diffusers) (``85d8b49``)
- 学習設定
    - Instance ID: ``itako``, ``zunko``, ``kiritan``, ``zundamon``, ``metan``, ``usagi``, ``awamo``, ``shinobi``, ``hokamel``, ``sora``, ``chanko`` (11種)
    - Instance prompt: ``<ID>, 1girl``
    - NVIDIA A100で約160分, 600エポック
- 学習用コマンド

    ```bash
    accelerate launch \
        --num_cpu_threads_per_process 12 \
        train_db.py \
        --pretrained_model_name_or_path="wd-1-4-anime_e1.ckpt" \
        --train_data_dir="/content/data/img_train" \
        --reg_data_dir="/content/data/img_reg"  \
        --output_dir="/content/data/output_models" \
        --prior_loss_weight=1.0  \
        --resolution="448,640"  \
        --train_batch_size="4" \
        --learning_rate="1e-6"  \
        --max_train_steps="8400"  \
        --use_8bit_adam  \
        --cache_latents \
        --v2 \
        --logging_dir="/content/data/logs" \
        --save_every_n_epochs "10" \
        --save_last_n_epochs "1" \
        --save_state \
        --mixed_precision='fp16'
    ```

    後半300エポックは``--output_dir``を変え,``--resume /content/data/output_models/last-state``で再開.

## 学習に使った画像

<img src="https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/images/train_input.png" width="500" alt="学習に使った画像">

## 生成例

<img src="https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/images/example_chanko.png" width="500" alt="生成例(大江戸ちゃんこ)">

```txt
masterpiece, best quality, chanko, 1girl, white dress, sing on a stage, hold a microphone
Negative prompt: out of frame, armature drawing, mutated hands and fingers, poor drawing, amateur, bad painting, bad painting of arms, bad anatomy, mutation, extra limbs, ugly, fat
Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7.5, Seed: 4103437300, Size: 512x704, Model hash: c6343649
```

<img src="https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/images/example_sora.png" width="500" alt="生成例(九州そら)">

```txt
sora, skirt, reading a book in room, smile, masterpiece, best quality, high quality, absurdres, Anime key visual
Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry
Steps: 55, Sampler: Euler a, CFG scale: 7.5, Seed: 4198993211, Size: 512x640, Model hash: c6343649
```

<img src="https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/images/example_usagi.png" width="500" alt="生成例(中国うさぎ)">

```txt
usagi,  1girl, miko in shrine, cleaning by holding a broom, standing, masterpiece, best quality, high quality, absurdres, Anime key visual
Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry
Steps: 20, Sampler: DPM++ SDE Karras, CFG scale: 7.5, Seed: 347036291, Size: 896x704, Model hash: c6343649
```

<img src="https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/images/example_awamo.png" width="500" alt="生成例(沖縄あわも)">

```txt
awamo, 1girl, summer, mountain, jumping, masterpiece, best quality, high quality, absurdres, Anime key visual, blue hair
Negative prompt: worst quality, low quality, medium quality, deleted, lowres, comic, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, jpeg artifacts, signature, watermark, username, blurry
Steps: 38, Sampler: DPM++ SDE Karras, CFG scale: 7.5, Seed: 1779198846, Size: 640x896, Model hash: c6343649
```