Prepare AniPlus v1 release

Files changed (17) hide show

.gitattributes +5 -0
README.md +64 -0
aniplus-v1-f16.ckpt +3 -0
aniplus-v1-f32.ckpt +3 -0
model_index.json +24 -0
scheduler/scheduler_config.json +12 -0
text_encoder/config.json +25 -0
text_encoder/pytorch_model.bin +3 -0
tokenizer/merges.txt +0 -0
tokenizer/special_tokens_map.json +1 -0
tokenizer/tokenizer_config.json +1 -0
tokenizer/vocab.json +0 -0
unet/config.json +36 -0
unet/diffusion_pytorch_model.bin +3 -0
v1-inference.yaml +70 -0
vae/config.json +29 -0
vae/diffusion_pytorch_model.bin +3 -0

.gitattributes CHANGED Viewed

@@ -31,3 +31,8 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+aniplus-v1-f16.ckpt filter=lfs diff=lfs merge=lfs -text
+aniplus-v1-f32.ckpt filter=lfs diff=lfs merge=lfs -text
+text_encoder/pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+unet/diffusion_pytorch_model.bin filter=lfs diff=lfs merge=lfs -text
+vae/diffusion_pytorch_model.bin filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -12,3 +12,67 @@ Currently there is no AniPlus-specific VAE to enhance output, but you should rec
 AniPlus v1, from the leading provider* of non-infringing, anime-oriented Stable Diffusion models.
 \* Statement not verified by anyone.

 AniPlus v1, from the leading provider* of non-infringing, anime-oriented Stable Diffusion models.
 \* Statement not verified by anyone.
+## Samples
+*All samples were produced using the AUTOMATIC1111 Stable Diffusion Web UI @ commit ac085628540d0ec6a988fad93f5b8f2154209571.*
+```
+1girl, school uniform, smiling, looking at viewer, portrait
+Negative prompt: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
+Steps: 15, Sampler: DPM++ 2S a, CFG scale: 11, Seed: 1036725987, Size: 512x512, Model hash: 29bc1e6e, Batch size: 2, Batch pos: 0, Eta: 0.69
+```
+![AniPlus v1 Sample](_assets/sample01.png)
+```
+1girl, miko, sitting on a park bench
+Negative prompt: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
+Steps: 15, Sampler: DPM++ 2S a, CFG scale: 11, Seed: 3863997491, Size: 768x512, Model hash: 29bc1e6e, Eta: 0.69
+```
+![AniPlus v1 Sample](_assets/sample02.png)
+```
+fantasy landscape, moon, night, galaxy, mountains
+Negative prompt: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
+Steps: 15, Sampler: DPM++ 2S a, CFG scale: 11, Seed: 2653170208, Size: 768x512, Model hash: 29bc1e6e, Eta: 0.69
+```
+![AniPlus v1 Sample](_assets/sample03.png)
+```
+semirealistic, a girl giving a thumbs up
+Negative prompt: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
+Steps: 15, Sampler: DPM++ 2S a, CFG scale: 11, Seed: 2500414341, Size: 512x768, Model hash: 29bc1e6e, Eta: 0.69
+```
+![AniPlus v1 Sample](_assets/sample04.png)
+*What? Polydactyly isn't normal?*
+```
+[semirealistic:3d cgi cartoon:0.6], 1girl, pink hair, blue eyes, smile, portrait
+Negative prompt: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
+Steps: 15, Sampler: DPM++ 2S a, CFG scale: 11, Seed: 487376122, Size: 512x512, Model hash: 29bc1e6e, Batch size: 2, Batch pos: 0, Eta: 0.69
+```
+![AniPlus v1 Sample](_assets/sample05.png)
+```
+1boy, suit, smirk
+Negative prompt: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
+Steps: 15, Sampler: DPM++ 2S a, CFG scale: 11, Seed: 4122323677, Size: 512x768, Model hash: 29bc1e6e, Batch size: 2, Batch pos: 0, Eta: 0.69
+```
+![AniPlus v1 Sample](_assets/sample06.png)
+```
+absurdres, semirealistic, a bunch of girls running in a marathon
+Negative prompt: nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
+Steps: 15, Sampler: DPM++ 2S a, CFG scale: 11, Seed: 2811740076, Size: 960x640, Model hash: 29bc1e6e, Eta: 0.69
+```
+![AniPlus v1 Sample](_assets/sample07.png)
+*The marathon test.*

aniplus-v1-f16.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d32972cf12ef9be710c6748977a6a6840cd064660a8c95e313adbd2b4049ad6
+size 2132856622

aniplus-v1-f32.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fd7bb4562ad51032f326df974488b39702e3ee6b6eade0e50a38b0cfcabc820
+size 4265327726

model_index.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "_class_name": "StableDiffusionPipeline",
+  "_diffusers_version": "0.8.0.dev0",
+  "scheduler": [
+    "diffusers",
+    "PNDMScheduler"
+  ],
+  "text_encoder": [
+    "transformers",
+    "CLIPTextModel"
+  ],
+  "tokenizer": [
+    "transformers",
+    "CLIPTokenizer"
+  ],
+  "unet": [
+    "diffusers",
+    "UNet2DConditionModel"
+  ],
+  "vae": [
+    "diffusers",
+    "AutoencoderKL"
+  ]
+}

scheduler/scheduler_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "_class_name": "PNDMScheduler",
+  "_diffusers_version": "0.8.0.dev0",
+  "beta_end": 0.012,
+  "beta_schedule": "scaled_linear",
+  "beta_start": 0.00085,
+  "num_train_timesteps": 1000,
+  "set_alpha_to_one": false,
+  "skip_prk_steps": true,
+  "steps_offset": 1,
+  "trained_betas": null
+}

text_encoder/config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "openai/clip-vit-large-patch14",
+  "architectures": [
+    "CLIPTextModel"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 0,
+  "dropout": 0.0,
+  "eos_token_id": 2,
+  "hidden_act": "quick_gelu",
+  "hidden_size": 768,
+  "initializer_factor": 1.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 77,
+  "model_type": "clip_text_model",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "projection_dim": 768,
+  "torch_dtype": "float32",
+  "transformers_version": "4.19.2",
+  "vocab_size": 49408
+}

text_encoder/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c4aa95ff526e8b2750631192fff2a56012b7ffe30fd733abeb15366e6dc2a5e
+size 492305335

tokenizer/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": {"content": "<\|startoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "eos_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "unk_token": {"content": "<\|endoftext\|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true}, "pad_token": "<\|endoftext\|>"}

tokenizer/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"errors": "replace", "unk_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<|startoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "<|endoftext|>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "pad_token": "<|endoftext|>", "add_prefix_space": false, "do_lower_case": true, "name_or_path": "openai/clip-vit-large-patch14", "model_max_length": 77, "special_tokens_map_file": "./special_tokens_map.json", "tokenizer_class": "CLIPTokenizer"}

tokenizer/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

unet/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_class_name": "UNet2DConditionModel",
+  "_diffusers_version": "0.8.0.dev0",
+  "act_fn": "silu",
+  "attention_head_dim": 8,
+  "block_out_channels": [
+    320,
+    640,
+    1280,
+    1280
+  ],
+  "center_input_sample": false,
+  "cross_attention_dim": 768,
+  "down_block_types": [
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "CrossAttnDownBlock2D",
+    "DownBlock2D"
+  ],
+  "downsample_padding": 1,
+  "flip_sin_to_cos": true,
+  "freq_shift": 0,
+  "in_channels": 4,
+  "layers_per_block": 2,
+  "mid_block_scale_factor": 1,
+  "norm_eps": 1e-05,
+  "norm_num_groups": 32,
+  "out_channels": 4,
+  "sample_size": 32,
+  "up_block_types": [
+    "UpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D",
+    "CrossAttnUpBlock2D"
+  ]
+}

unet/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c502a3da8cc110820df9c3d6944a2e5dc9536e12d8848008eb91e06b64112c88
+size 3438354725

v1-inference.yaml ADDED Viewed

	@@ -0,0 +1,70 @@

+model:
+  base_learning_rate: 1.0e-04
+  target: ldm.models.diffusion.ddpm.LatentDiffusion
+  params:
+    linear_start: 0.00085
+    linear_end: 0.0120
+    num_timesteps_cond: 1
+    log_every_t: 200
+    timesteps: 1000
+    first_stage_key: "jpg"
+    cond_stage_key: "txt"
+    image_size: 64
+    channels: 4
+    cond_stage_trainable: false   # Note: different from the one we trained before
+    conditioning_key: crossattn
+    monitor: val/loss_simple_ema
+    scale_factor: 0.18215
+    use_ema: False
+    scheduler_config: # 10000 warmup steps
+      target: ldm.lr_scheduler.LambdaLinearScheduler
+      params:
+        warm_up_steps: [ 10000 ]
+        cycle_lengths: [ 10000000000000 ] # incredibly large number to prevent corner cases
+        f_start: [ 1.e-6 ]
+        f_max: [ 1. ]
+        f_min: [ 1. ]
+    unet_config:
+      target: ldm.modules.diffusionmodules.openaimodel.UNetModel
+      params:
+        image_size: 32 # unused
+        in_channels: 4
+        out_channels: 4
+        model_channels: 320
+        attention_resolutions: [ 4, 2, 1 ]
+        num_res_blocks: 2
+        channel_mult: [ 1, 2, 4, 4 ]
+        num_heads: 8
+        use_spatial_transformer: True
+        transformer_depth: 1
+        context_dim: 768
+        use_checkpoint: True
+        legacy: False
+    first_stage_config:
+      target: ldm.models.autoencoder.AutoencoderKL
+      params:
+        embed_dim: 4
+        monitor: val/rec_loss
+        ddconfig:
+          double_z: true
+          z_channels: 4
+          resolution: 256
+          in_channels: 3
+          out_ch: 3
+          ch: 128
+          ch_mult:
+          - 1
+          - 2
+          - 4
+          - 4
+          num_res_blocks: 2
+          attn_resolutions: []
+          dropout: 0.0
+        lossconfig:
+          target: torch.nn.Identity
+    cond_stage_config:
+      target: ldm.modules.encoders.modules.FrozenCLIPEmbedder

vae/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_class_name": "AutoencoderKL",
+  "_diffusers_version": "0.8.0.dev0",
+  "act_fn": "silu",
+  "block_out_channels": [
+    128,
+    256,
+    512,
+    512
+  ],
+  "down_block_types": [
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D",
+    "DownEncoderBlock2D"
+  ],
+  "in_channels": 3,
+  "latent_channels": 4,
+  "layers_per_block": 2,
+  "norm_num_groups": 32,
+  "out_channels": 3,
+  "sample_size": 256,
+  "up_block_types": [
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D",
+    "UpDecoderBlock2D"
+  ]
+}

vae/diffusion_pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe59326ab5d04c72922593249e6e07026aaf0e3be71696e541a8a56c5a15c088
+size 334707217