Upload HunyuanVideoPipeline

Browse files

Files changed (15) hide show

model_index.json +1 -2
scheduler/scheduler_config.json +7 -2
text_encoder/config.json +1 -2
text_encoder/generation_config.json +1 -1
text_encoder_2/config.json +3 -3
text_encoder_2/model.safetensors +2 -2
tokenizer/tokenizer.json +2 -2
tokenizer/tokenizer_config.json +0 -1
transformer/config.json +14 -22
transformer/diffusion_pytorch_model-00001-of-00003.safetensors +2 -2
transformer/diffusion_pytorch_model-00002-of-00003.safetensors +2 -2
transformer/diffusion_pytorch_model-00003-of-00003.safetensors +2 -2
transformer/diffusion_pytorch_model.safetensors.index.json +0 -0
vae/config.json +11 -15
vae/diffusion_pytorch_model.safetensors +2 -2

model_index.json CHANGED Viewed

@@ -1,7 +1,6 @@
 {
   "_class_name": "HunyuanVideoPipeline",
-  "_diffusers_version": "0.31.0",
-  "_name_or_path": "magespace/hyvideo-diffusers-dev",
   "scheduler": [
     "diffusers",
     "FlowMatchEulerDiscreteScheduler"

 {
   "_class_name": "HunyuanVideoPipeline",
+  "_diffusers_version": "0.32.0.dev0",
   "scheduler": [
     "diffusers",
     "FlowMatchEulerDiscreteScheduler"

scheduler/scheduler_config.json CHANGED Viewed

@@ -1,11 +1,16 @@
 {
   "_class_name": "FlowMatchEulerDiscreteScheduler",
-  "_diffusers_version": "0.31.0",
   "base_image_seq_len": 256,
   "base_shift": 0.5,
   "max_image_seq_len": 4096,
   "max_shift": 1.15,
   "num_train_timesteps": 1000,
   "shift": 7.0,
-  "use_dynamic_shifting": false
 }

 {
   "_class_name": "FlowMatchEulerDiscreteScheduler",
+  "_diffusers_version": "0.32.0.dev0",
   "base_image_seq_len": 256,
   "base_shift": 0.5,
+  "invert_sigmas": false,
   "max_image_seq_len": 4096,
   "max_shift": 1.15,
   "num_train_timesteps": 1000,
   "shift": 7.0,
+  "shift_terminal": null,
+  "use_beta_sigmas": false,
+  "use_dynamic_shifting": false,
+  "use_exponential_sigmas": false,
+  "use_karras_sigmas": false
 }

text_encoder/config.json CHANGED Viewed

@@ -1,5 +1,4 @@
 {
-  "_name_or_path": "/root/.cache/huggingface/hub/models--magespace--hyvideo-diffusers/snapshots/ae09a3d1e5306c922f86a6aaf8db5b691947d204/text_encoder",
   "architectures": [
     "LlamaForCausalLM"
   ],
@@ -24,7 +23,7 @@
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
-  "transformers_version": "4.47.0",
   "use_cache": true,
   "vocab_size": 128320
 }

 {
   "architectures": [
     "LlamaForCausalLM"
   ],
   "rope_theta": 500000.0,
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.3",
   "use_cache": true,
   "vocab_size": 128320
 }

text_encoder/generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 128000,
   "eos_token_id": 128001,
-  "transformers_version": "4.47.0"
 }

   "_from_model_config": true,
   "bos_token_id": 128000,
   "eos_token_id": 128001,
+  "transformers_version": "4.46.3"
 }

text_encoder_2/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/root/.cache/huggingface/hub/models--magespace--hyvideo-diffusers/snapshots/ae09a3d1e5306c922f86a6aaf8db5b691947d204/text_encoder_2",
   "architectures": [
     "CLIPTextModel"
   ],
@@ -19,7 +19,7 @@
   "num_hidden_layers": 12,
   "pad_token_id": 1,
   "projection_dim": 768,
-  "torch_dtype": "bfloat16",
-  "transformers_version": "4.47.0",
   "vocab_size": 49408
 }

 {
+  "_name_or_path": "openai/clip-vit-large-patch14",
   "architectures": [
     "CLIPTextModel"
   ],
   "num_hidden_layers": 12,
   "pad_token_id": 1,
   "projection_dim": 768,
+  "torch_dtype": "float16",
+  "transformers_version": "4.46.3",
   "vocab_size": 49408
 }

text_encoder_2/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03532a1b8bb2f02b16b9b290273caf9c8793a0a268517c104eee30f7d1829120
-size 246144352

 version https://git-lfs.github.com/spec/v1
+oid sha256:660c6f5b1abae9dc498ac2d21e1347d2abdb0cf6c0c0c8576cd796491d9a6cdd
+size 246144152

tokenizer/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1cb63338521d084aba234e273e56a3a0bb0e41f6438e205a2cbc1db8f02fd1f
-size 17210368

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2c593db4aa75b17a42c1f74d7cc38e257eaeed222e6a52674c65544165dcbaa
+size 17210098

tokenizer/tokenizer_config.json CHANGED Viewed

@@ -2080,7 +2080,6 @@
   "chat_template": "{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|end_of_text|>",
-  "extra_special_tokens": {},
   "legacy": true,
   "model_input_names": [
     "input_ids",

   "chat_template": "{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|end_of_text|>",
   "legacy": true,
   "model_input_names": [
     "input_ids",

transformer/config.json CHANGED Viewed

@@ -1,31 +1,23 @@
 {
-  "_class_name": "HYVideoDiffusionTransformer",
-  "_diffusers_version": "0.31.0",
-  "_name_or_path": "/root/.cache/huggingface/hub/models--magespace--hyvideo-diffusers/snapshots/ae09a3d1e5306c922f86a6aaf8db5b691947d204/transformer",
-  "guidance_embed": true,
-  "heads_num": 24,
-  "hidden_size": 3072,
   "in_channels": 16,
-  "mlp_act_type": "gelu_tanh",
-  "mlp_width_ratio": 4,
-  "mm_double_blocks_depth": 20,
-  "mm_single_blocks_depth": 40,
   "out_channels": 16,
-  "patch_size": [
-    1,
-    2,
-    2
-  ],
-  "qk_norm": true,
-  "qk_norm_type": "rms",
-  "qkv_bias": true,
   "rope_dim_list": [
     16,
     56,
     56
   ],
-  "text_projection": "single_refiner",
-  "text_states_dim": 4096,
-  "text_states_dim_2": 768,
-  "use_attention_mask": true
 }

 {
+  "_class_name": "HunyuanVideoTransformer3DModel",
+  "_diffusers_version": "0.32.0.dev0",
+  "attention_head_dim": 128,
+  "guidance_embeds": true,
   "in_channels": 16,
+  "mlp_ratio": 4.0,
+  "num_attention_heads": 24,
+  "num_layers": 20,
+  "num_refiner_layers": 2,
+  "num_single_layers": 40,
   "out_channels": 16,
+  "patch_size": 2,
+  "patch_size_t": 1,
+  "qk_norm": "rms_norm",
   "rope_dim_list": [
     16,
     56,
     56
   ],
+  "text_embed_dim": 4096,
+  "text_embed_dim_2": 768
 }

transformer/diffusion_pytorch_model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf69a571f0a78e0f04ff429152525ff4082db7c9aa4496d345c53fb599b0f9c1
-size 9972044720

 version https://git-lfs.github.com/spec/v1
+oid sha256:260147e5816e920928beedf5bafddb308a3a9c943f560feffe41b6ae44380704
+size 9972080096

transformer/diffusion_pytorch_model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:895efacc0127c19f4d187d9a6f6c5d23d253231982487375eb8ecf64244ceaa2
-size 9968230568

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c02025893773faf82d16904f6ef23cbfeb7c693079d0f0bd890e97948fce51a
+size 9968234824

transformer/diffusion_pytorch_model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10d0e43a39b9cb6b9ed411bad5c878aca15d14678a17586565fc2e84898b534c
-size 5701844424

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d27b9eed23d493090216922836e48e4bf143b7e5e7a6cb000647523ee298020
+size 5701859992

transformer/diffusion_pytorch_model.safetensors.index.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

vae/config.json CHANGED Viewed

@@ -1,7 +1,6 @@
 {
-  "_class_name": "AutoencoderKLCausal3D",
-  "_diffusers_version": "0.31.0",
-  "_name_or_path": "/root/.cache/huggingface/hub/models--magespace--hyvideo-diffusers/snapshots/ae09a3d1e5306c922f86a6aaf8db5b691947d204/vae",
   "act_fn": "silu",
   "block_out_channels": [
     128,
@@ -10,27 +9,24 @@
     512
   ],
   "down_block_types": [
-    "DownEncoderBlockCausal3D",
-    "DownEncoderBlockCausal3D",
-    "DownEncoderBlockCausal3D",
-    "DownEncoderBlockCausal3D"
   ],
-  "force_upcast": true,
   "in_channels": 3,
   "latent_channels": 16,
   "layers_per_block": 2,
   "mid_block_add_attention": true,
   "norm_num_groups": 32,
   "out_channels": 3,
-  "sample_size": 256,
-  "sample_tsize": 64,
   "scaling_factor": 0.476986,
   "spatial_compression_ratio": 8,
-  "time_compression_ratio": 4,
   "up_block_types": [
-    "UpDecoderBlockCausal3D",
-    "UpDecoderBlockCausal3D",
-    "UpDecoderBlockCausal3D",
-    "UpDecoderBlockCausal3D"
   ]
 }

 {
+  "_class_name": "AutoencoderKLHunyuanVideo",
+  "_diffusers_version": "0.32.0.dev0",
   "act_fn": "silu",
   "block_out_channels": [
     128,
     512
   ],
   "down_block_types": [
+    "HunyuanVideoDownBlock3D",
+    "HunyuanVideoDownBlock3D",
+    "HunyuanVideoDownBlock3D",
+    "HunyuanVideoDownBlock3D"
   ],
   "in_channels": 3,
   "latent_channels": 16,
   "layers_per_block": 2,
   "mid_block_add_attention": true,
   "norm_num_groups": 32,
   "out_channels": 3,
   "scaling_factor": 0.476986,
   "spatial_compression_ratio": 8,
+  "temporal_compression_ratio": 4,
   "up_block_types": [
+    "HunyuanVideoUpBlock3D",
+    "HunyuanVideoUpBlock3D",
+    "HunyuanVideoUpBlock3D",
+    "HunyuanVideoUpBlock3D"
   ]
 }

vae/diffusion_pytorch_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4ffef191d47b661d48f356ed9ed7cf391509af5f4c000ba07a75dcdc4c03c501
-size 492986478

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c68a6295f9034a88225fbafb1f3258291a08d57a1fdb938233fa57b1b8f4883
+size 985943868