--- license: creativeml-openrail-m language: - en tags: - stable-diffusion - stable-diffusion-diffusers - text-to-image --- [東北ずん子プロジェクト](https://zunko.jp/)のキャラクターイラストを用いてDreamBoothで学習したモデルです. - ``itako``: 東北イタコ - ``zunko``: 東北ずん子 - ``kiritan``: 東北きりたん - ``zundamon``: ずんだもん (人間形態) - ``metan``: 四国めたん - ``usagi``: 中国うさぎ - ``awamo``: 沖縄あわも - ``shinobi``: 関西しのび - ``hokamel``: 北海道めろん - ``sora``: 九州そら - ``chanko``: 大江戸ちゃんこ 学習画像はなるべく衣装にバリエーションをもたせているので,「公式衣装」は出にくいです. [shirayu/sd-tohoku-v1](https://huggingface.co/shirayu/sd-tohoku-v1)と比べてキャラクターが増え, 学習元モデルも変更しています. ただし,全てが改善されているとはいえません. (例えば``itako``の画像が非常に出力しにくいです.) その理由として - 1キャラクターあたりの学習枚数を16枚に絞った - 同時に学習したキャラクターが11名と多い - 学習元モデルがまだEpoch 1での学習結果である など様々な理由が考えられます. [shirayu/sd-tohoku-v1](https://huggingface.co/shirayu/sd-tohoku-v1)と比較して, その時々によって使い分けをされることをおすすめします. ## ファイル形式 1. [AUTOMATIC1111/stable-diffusion-webui](https://github.com/AUTOMATIC1111/stable-diffusion-webui)などckptファイルを読み込むツールの場合 [sd-tohoku-v2.model.ckpt](https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/ckpt/sd-tohoku-v2.model.ckpt)(約2.5GB)と[sd-tohoku-v2.yaml](https://huggingface.co/shirayu/sd-tohoku-v2/resolve/main/ckpt/sd-tohoku-v2.model.yaml)をダウンロードして読み込んでください 2. [diffusers](https://github.com/huggingface/diffusers)から利用する場合 ```python from diffusers import DiffusionPipeline pipeline = DiffusionPipeline.from_pretrained("shirayu/sd-tohoku-v2") ``` ## 紹介動画 ## ライセンス [CreativeML Open RAIL-M license 1.0](https://hf.space/static/bigscience/license/index.html) また,各種法令・各種ガイドラインにご留意ください. 例えば,生成された画像が東北ずん子プロジェクトのキャラクターを含む場合, [「東北ずん子プロジェクト キャラクター利用の手引き」](https://zunko.jp/guideline.html)に基づいて利用してください. ## 学習設定 - 元モデル: [Waifu Diffusion 1.4 Anime Epoch 1](https://huggingface.co/hakurei/waifu-diffusion-v1-4) (``wd-1-4-anime_e1.ckpt``) - 学習画像 - 11キャラクター計111枚 - アルファチャンネルは削除 + 白背景 + センタリング + 448x640にリサイズ - 正則化画像なし - 学習元コード: [ShivamShrirao/diffusers](https://github.com/ShivamShrirao/diffusers) (``85d8b49``) - 学習設定 - Instance ID: ``itako``, ``zunko``, ``kiritan``, ``zundamon``, ``metan``, ``usagi``, ``awamo``, ``shinobi``, ``hokamel``, ``sora``, ``chanko`` (11種) - Instance prompt: ``, 1girl`` - NVIDIA A100で約160分, 600エポック - 学習用コマンド ```bash accelerate launch \ --num_cpu_threads_per_process 12 \ train_db.py \ --pretrained_model_name_or_path="wd-1-4-anime_e1.ckpt" \ --train_data_dir="/content/data/img_train" \ --reg_data_dir="/content/data/img_reg" \ --output_dir="/content/data/output_models" \ --prior_loss_weight=1.0 \ --resolution="448,640" \ --train_batch_size="4" \ --learning_rate="1e-6" \ --max_train_steps="8400" \ --use_8bit_adam \ --cache_latents \ --v2 \ --logging_dir="/content/data/logs" \ --save_every_n_epochs "10" \ --save_last_n_epochs "1" \ --save_state \ --mixed_precision='fp16' ``` 後半300エポックは``--output_dir``を変え,``--resume /content/data/output_models/last-state``で再開. ## 学習に使った画像 学習に使った画像 ## 生成例 生成例(大江戸ちゃんこ) ```txt masterpiece, best quality, chanko, 1girl, white dress, sing on a stage, hold a microphone Negative prompt: out of frame, armature drawing, mutated hands and fingers, poor drawing, amateur, bad painting, bad painting of arms, bad anatomy, mutation, extra limbs, ugly, fat Steps: 20, Sampler: DPM++ 2M Karras, CFG scale: 7.5, Seed: 4103437300, Size: 512x704, Model hash: c6343649 ```