ACE-Plus

Running on Zero

App Files Files Community

chaojiemao commited on Dec 7, 2024

Commit

ec43f9b

verified ·

1 Parent(s): 87e4b76

Rename config/models/ace_0.6b_1024.yaml to config/models/ace_flux_dev.yaml

Browse files

Files changed (2) hide show

config/models/ace_0.6b_1024.yaml +0 -132
config/models/ace_flux_dev.yaml +203 -0

config/models/ace_0.6b_1024.yaml DELETED Viewed

@@ -1,132 +0,0 @@
-NAME: ACE_0.6B_1024_REFINER
-IS_DEFAULT: True
-USE_DYNAMIC_MODEL: False
-DEFAULT_PARAS:
-  PARAS:
-  #
-  INPUT:
-    INPUT_IMAGE:
-    INPUT_MASK:
-    TASK:
-    PROMPT: ""
-    NEGATIVE_PROMPT: ""
-    OUTPUT_HEIGHT: 1024
-    OUTPUT_WIDTH: 1024
-    SAMPLER: ddim
-    SAMPLE_STEPS: 50
-    GUIDE_SCALE: 4.5
-    GUIDE_RESCALE: 0.5
-    SEED: -1
-    TAR_INDEX: 0
-    REFINER_SCALE: 0.2
-    USE_ACE: True
-    #REFINER_PROMPT: "High Resolution, Sharpness, Clarity, Detail Enhancement, Noise Reduction, HD, 4k, Image Restoration, HDR"
-    REFINER_PROMPT: "High Resolution, Sharpness, Clarity, Detail Enhancement, Noise Reduction, HD, 4k, Image Restoration, HDR"
-  OUTPUT:
-    LATENT:
-    IMAGES:
-    SEED:
-  MODULES_PARAS:
-    FIRST_STAGE_MODEL:
-      FUNCTION:
-        - NAME: encode
-          DTYPE: float16
-          INPUT: ["IMAGE"]
-        - NAME: decode
-          DTYPE: float16
-          INPUT: ["LATENT"]
-    #
-    DIFFUSION_MODEL:
-      FUNCTION:
-        - NAME: forward
-          DTYPE: float16
-          INPUT: ["SAMPLE_STEPS", "SAMPLE", "GUIDE_SCALE"]
-    #
-    COND_STAGE_MODEL:
-      FUNCTION:
-        - NAME: encode_list_of_list
-          DTYPE: bfloat16
-          INPUT: ["PROMPT"]
-#
-MODEL:
-  NAME: LatentDiffusionACE
-  PRETRAINED_MODEL:
-  IGNORE_KEYS: [ ]
-  SCALE_FACTOR: 0.18215
-  SIZE_FACTOR: 8
-  DECODER_BIAS: 0.5
-  DEFAULT_N_PROMPT: ""
-  TEXT_IDENTIFIER: [ '{image}', '{image1}', '{image2}', '{image3}', '{image4}', '{image5}', '{image6}', '{image7}', '{image8}', '{image9}' ]
-  USE_TEXT_POS_EMBEDDINGS: True
-  #
-  DIFFUSION:
-    NAME: BaseDiffusion
-    PREDICTION_TYPE: eps
-    MIN_SNR_GAMMA:
-    NOISE_SCHEDULER:
-      NAME: LinearScheduler
-      NUM_TIMESTEPS: 1000
-      BETA_MIN: 0.0001
-      BETA_MAX: 0.02
-  #
-  DIFFUSION_MODEL:
-    NAME: ACE
-    PRETRAINED_MODEL: hf://scepter-studio/ACE-0.6B-1024px@models/dit/ace_0.6b_1024px.pth
-    IGNORE_KEYS: [ ]
-    PATCH_SIZE: 2
-    IN_CHANNELS: 4
-    HIDDEN_SIZE: 1152
-    DEPTH: 28
-    NUM_HEADS: 16
-    MLP_RATIO: 4.0
-    PRED_SIGMA: True
-    DROP_PATH: 0.0
-    WINDOW_DIZE: 0
-    Y_CHANNELS: 4096
-    MAX_SEQ_LEN: 4096
-    QK_NORM: True
-    USE_GRAD_CHECKPOINT: True
-    ATTENTION_BACKEND: flash_attn
-  #
-  FIRST_STAGE_MODEL:
-    NAME: AutoencoderKL
-    EMBED_DIM: 4
-    PRETRAINED_MODEL: hf://scepter-studio/ACE-0.6B-1024px@models/vae/vae.bin
-    IGNORE_KEYS: []
-    #
-    ENCODER:
-      NAME: Encoder
-      CH: 128
-      OUT_CH: 3
-      NUM_RES_BLOCKS: 2
-      IN_CHANNELS: 3
-      ATTN_RESOLUTIONS: [ ]
-      CH_MULT: [ 1, 2, 4, 4 ]
-      Z_CHANNELS: 4
-      DOUBLE_Z: True
-      DROPOUT: 0.0
-      RESAMP_WITH_CONV: True
-    #
-    DECODER:
-      NAME: Decoder
-      CH: 128
-      OUT_CH: 3
-      NUM_RES_BLOCKS: 2
-      IN_CHANNELS: 3
-      ATTN_RESOLUTIONS: [ ]
-      CH_MULT: [ 1, 2, 4, 4 ]
-      Z_CHANNELS: 4
-      DROPOUT: 0.0
-      RESAMP_WITH_CONV: True
-      GIVE_PRE_END: False
-      TANH_OUT: False
-  #
-  COND_STAGE_MODEL:
-    NAME: T5EmbedderHF
-    PRETRAINED_MODEL: hf://scepter-studio/ACE-0.6B-1024px@models/text_encoder/t5-v1_1-xxl/
-    TOKENIZER_PATH: hf://scepter-studio/ACE-0.6B-1024px@models/tokenizer/t5-v1_1-xxl
-    LENGTH: 120
-    T5_DTYPE: bfloat16
-    ADDED_IDENTIFIER: [ '{image}', '{caption}', '{mask}', '{ref_image}', '{image1}', '{image2}', '{image3}', '{image4}', '{image5}', '{image6}', '{image7}', '{image8}', '{image9}' ]
-    CLEAN: whitespace
-    USE_GRAD: False

config/models/ace_flux_dev.yaml ADDED Viewed

	@@ -0,0 +1,203 @@

+NAME: ACE_FLUX.1_dev
+IS_DEFAULT: True
+USE_DYNAMIC_MODEL: False
+INFERENCE_TYPE: ACE_FLUX
+MAX_SEQ_LENGTH: 4096
+SRC_MAX_SEQ_LENGTH: 4096
+DEFAULT_PARAS:
+  PARAS:
+  #
+  INPUT:
+    INPUT_IMAGE:
+    INPUT_MASK:
+    TASK:
+    PROMPT: ""
+    OUTPUT_HEIGHT: 1024
+    OUTPUT_WIDTH: 1024
+    SAMPLER: flow_euler
+    SAMPLE_STEPS: 50
+    GUIDE_SCALE: 3.5
+    SEED: -1
+    TAR_INDEX: 0
+    ALIGN: False
+  OUTPUT:
+    LATENT:
+    IMAGES:
+    SEED:
+  MODULES_PARAS:
+    FIRST_STAGE_MODEL:
+      FUNCTION:
+        - NAME: encode
+          DTYPE: bfloat16
+          INPUT: [ "IMAGE" ]
+        - NAME: decode
+          DTYPE: bfloat16
+          INPUT: [ "LATENT" ]
+      PARAS:
+        SCALE_FACTOR: 1.5305
+        SHIFT_FACTOR: 0.0609
+        SIZE_FACTOR: 8
+    DIFFUSION_MODEL:
+      FUNCTION:
+        - NAME: forward
+          DTYPE: bfloat16
+          INPUT: [ "SAMPLE_STEPS", "SAMPLE", "GUIDE_SCALE" ]
+    COND_STAGE_MODEL:
+      FUNCTION:
+        - NAME: encode_list_of_list
+          DTYPE: bfloat16
+          INPUT: [ "PROMPT" ]
+    REF_COND_STAGE_MODEL:
+      FUNCTION:
+        - NAME: encode_list_of_list
+          DTYPE: bfloat16
+          INPUT: [ "IMAGE" ]
+#
+MODEL:
+  NAME: LatentDiffusionFluxEdit
+  PARAMETERIZATION: rf
+  PRETRAINED_MODEL:
+  IGNORE_KEYS: [ ]
+  SIZE_FACTOR: 8
+  TEXT_IDENTIFIER: [ '{image}', '{image1}', '{image2}', '{image3}', '{image4}', '{image5}', '{image6}', '{image7}', '{image8}', '{image9}' ]
+  IMAGE_TOKEN: '<img>'
+  USE_TEXT_POS_EMBEDDINGS: True
+  DIFFUSION:
+    # NAME DESCRIPTION:  TYPE:  default: 'DiffusionFluxRF'
+    NAME: DiffusionFluxRF
+    PREDICTION_TYPE: raw
+    # NOISE_SCHEDULER DESCRIPTION:  TYPE:  default: ''
+    NOISE_SCHEDULER:
+      # NAME DESCRIPTION:  TYPE:  default: 'FlowMatchSigmaScheduler'
+      NAME: FlowMatchFluxShiftScheduler
+      # SHIFT DESCRIPTION: Use timestamp shift or not, default is True. TYPE: bool default: True
+      SHIFT: True
+      # SIGMOID_SCALE DESCRIPTION: The scale of sigmoid function for sampling timesteps. TYPE: int default: 1
+      SIGMOID_SCALE: 1
+      # BASE_SHIFT DESCRIPTION: The base shift factor for the timestamp. TYPE: float default: 0.5
+      BASE_SHIFT: 0.5
+      # MAX_SHIFT DESCRIPTION: The max shift factor for the timestamp. TYPE: float default: 1.15
+      MAX_SHIFT: 1.15
+      #
+  DIFFUSION_MODEL:
+    # NAME DESCRIPTION:  TYPE:  default: 'Flux'
+    NAME: FluxEdit
+    PRETRAINED_MODEL:
+    DIFFUSERS_LORA_MODEL:
+    PRETRAIN_ADAPTER:
+    # IN_CHANNELS DESCRIPTION: model's input channels. TYPE: int default: 64
+    IN_CHANNELS: 64
+    # OUT_CHANNELS DESCRIPTION: model's input channels. TYPE: int default: 64
+    OUT_CHANNELS: 64
+    # HIDDEN_SIZE DESCRIPTION: model's hidden size. TYPE: int default: 1024
+    HIDDEN_SIZE: 3072
+    REDUX_DIM: 1152
+    # NUM_HEADS DESCRIPTION: number of heads in the transformer. TYPE: int default: 16
+    NUM_HEADS: 24
+    # AXES_DIM DESCRIPTION: dimensions of the axes of the positional encoding. TYPE: list default: [16, 56, 56]
+    AXES_DIM: [ 16, 56, 56 ]
+    # THETA DESCRIPTION: theta for positional encoding. TYPE: int default: 10000
+    THETA: 10000
+    # VEC_IN_DIM DESCRIPTION: dimension of the vector input. TYPE: int default: 768
+    VEC_IN_DIM: 768
+    # GUIDANCE_EMBED DESCRIPTION: whether to use guidance embedding. TYPE: bool default: False
+    GUIDANCE_EMBED: True
+    # CONTEXT_IN_DIM DESCRIPTION: dimension of the context input. TYPE: int default: 4096
+    CONTEXT_IN_DIM: 4096
+    # MLP_RATIO DESCRIPTION: ratio of mlp hidden size to hidden size. TYPE: float default: 4.0
+    MLP_RATIO: 4.0
+    # QKV_BIAS DESCRIPTION: whether to use bias in qkv projection. TYPE: bool default: True
+    QKV_BIAS: True
+    # DEPTH DESCRIPTION: number of transformer blocks. TYPE: int default: 19
+    DEPTH: 19
+    # DEPTH_SINGLE_BLOCKS DESCRIPTION: number of transformer blocks in the single stream block. TYPE: int default: 38
+    DEPTH_SINGLE_BLOCKS: 38
+    ATTN_BACKEND: flash_attn
+  #
+  FIRST_STAGE_MODEL:
+    NAME: AutoencoderKLFlux
+    EMBED_DIM: 16
+    PRETRAINED_MODEL:
+    IGNORE_KEYS: [ ]
+    BATCH_SIZE: 8
+    USE_CONV: False
+    SCALE_FACTOR: 0.3611
+    SHIFT_FACTOR: 0.1159
+    #
+    ENCODER:
+      NAME: Encoder
+      USE_CHECKPOINT: True
+      CH: 128
+      OUT_CH: 3
+      NUM_RES_BLOCKS: 2
+      IN_CHANNELS: 3
+      ATTN_RESOLUTIONS: [ ]
+      CH_MULT: [ 1, 2, 4, 4 ]
+      Z_CHANNELS: 16
+      DOUBLE_Z: True
+      DROPOUT: 0.0
+      RESAMP_WITH_CONV: True
+    #
+    DECODER:
+      NAME: Decoder
+      USE_CHECKPOINT: True
+      CH: 128
+      OUT_CH: 3
+      NUM_RES_BLOCKS: 2
+      IN_CHANNELS: 3
+      ATTN_RESOLUTIONS: [ ]
+      CH_MULT: [ 1, 2, 4, 4 ]
+      Z_CHANNELS: 16
+      DROPOUT: 0.0
+      RESAMP_WITH_CONV: True
+      GIVE_PRE_END: False
+      TANH_OUT: False
+  #
+  COND_STAGE_MODEL:
+    # NAME DESCRIPTION:  TYPE:  default: 'T5PlusClipFluxEmbedder'
+    NAME: T5PlusClipFluxEmbedder
+    # T5_MODEL DESCRIPTION:  TYPE:  default: ''
+    T5_MODEL:
+      # NAME DESCRIPTION:  TYPE:  default: 'HFEmbedder'
+      NAME: HFEmbedder
+      # HF_MODEL_CLS DESCRIPTION: huggingface cls in transfomer TYPE: NoneType default: None
+      HF_MODEL_CLS: T5EncoderModel
+      # MODEL_PATH DESCRIPTION: model folder path TYPE: NoneType default: None
+      MODEL_PATH:
+      # HF_TOKENIZER_CLS DESCRIPTION: huggingface cls in transfomer TYPE: NoneType default: None
+      HF_TOKENIZER_CLS: T5Tokenizer
+      # TOKENIZER_PATH DESCRIPTION: tokenizer folder path TYPE: NoneType default: None
+      TOKENIZER_PATH:
+      ADDED_IDENTIFIER: [ '<img>','{image}', '{caption}', '{mask}', '{ref_image}', '{image1}', '{image2}', '{image3}', '{image4}', '{image5}', '{image6}', '{image7}', '{image8}', '{image9}' ]
+      # MAX_LENGTH DESCRIPTION: max length of input TYPE: int default: 77
+      MAX_LENGTH: 512
+      # OUTPUT_KEY DESCRIPTION: output key TYPE: str default: 'last_hidden_state'
+      OUTPUT_KEY: last_hidden_state
+      # D_TYPE DESCRIPTION: dtype TYPE: str default: 'bfloat16'
+      D_TYPE: bfloat16
+      # BATCH_INFER DESCRIPTION: batch infer TYPE: bool default: False
+      BATCH_INFER: False
+      CLEAN: whitespace
+    # CLIP_MODEL DESCRIPTION:  TYPE:  default: ''
+    CLIP_MODEL:
+      # NAME DESCRIPTION:  TYPE:  default: 'HFEmbedder'
+      NAME: HFEmbedder
+      # HF_MODEL_CLS DESCRIPTION: huggingface cls in transfomer TYPE: NoneType default: None
+      HF_MODEL_CLS: CLIPTextModel
+      # MODEL_PATH DESCRIPTION: model folder path TYPE: NoneType default: None
+      MODEL_PATH:
+      # HF_TOKENIZER_CLS DESCRIPTION: huggingface cls in transfomer TYPE: NoneType default: None
+      HF_TOKENIZER_CLS: CLIPTokenizer
+      # TOKENIZER_PATH DESCRIPTION: tokenizer folder path TYPE: NoneType default: None
+      TOKENIZER_PATH:
+      # MAX_LENGTH DESCRIPTION: max length of input TYPE: int default: 77
+      MAX_LENGTH: 77
+      # OUTPUT_KEY DESCRIPTION: output key TYPE: str default: 'last_hidden_state'
+      OUTPUT_KEY: pooler_output
+      # D_TYPE DESCRIPTION: dtype TYPE: str default: 'bfloat16'
+      D_TYPE: bfloat16
+      # BATCH_INFER DESCRIPTION: batch infer TYPE: bool default: False
+      BATCH_INFER: True
+      CLEAN: whitespace