E2-F5-TTS

Running on Zero

ThreadAbort commited on Oct 26, 2024

Commit

ca02c10

1 Parent(s): 29d19bd

repo. change

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,8 +49,8 @@ speed = 1.0
 # fix_duration = 27  # None or float (duration in seconds)
 fix_duration = None
-def load_model(exp_name, model_cls, model_cfg, ckpt_step):
-    checkpoint = torch.load(str(cached_path(f"hf://SWivid/{exp_name}/model_{ckpt_step}.pt")), map_location=device)
     vocab_char_map, vocab_size = get_tokenizer("Emilia_ZH_EN", "pinyin")
     model = CFM(
         transformer=model_cls(
@@ -79,13 +79,13 @@ def load_model(exp_name, model_cls, model_cfg, ckpt_step):
 F5TTS_model_cfg = dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)
 E2TTS_model_cfg = dict(dim=1024, depth=24, heads=16, ff_mult=4)
-F5TTS_ema_model, F5TTS_base_model = load_model("F5TTS", DiT, F5TTS_model_cfg, 1200000)
-E2TTS_ema_model, E2TTS_base_model = load_model("E2TTS", UNetT, E2TTS_model_cfg, 1200000)
 @spaces.GPU
 def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, progress = gr.Progress()):
     print(gen_text)
-    if model.predict(gen_text)['toxicity'] > 0.8:
         print("Flagged for toxicity:", gen_text)
         raise gr.Error("Your text was flagged for toxicity, please try again with a different text.")
     gr.Info("Converting audio...")

 # fix_duration = 27  # None or float (duration in seconds)
 fix_duration = None
+def load_model(exp_name, model_cls, model_cfg, ckpt_step,repoid):
+    checkpoint = torch.load(str(cached_path(f"hf://SWivid/{repoid}/{exp_name}/model_{ckpt_step}.pt")), map_location=device)
     vocab_char_map, vocab_size = get_tokenizer("Emilia_ZH_EN", "pinyin")
     model = CFM(
         transformer=model_cls(
 F5TTS_model_cfg = dict(dim=1024, depth=22, heads=16, ff_mult=2, text_dim=512, conv_layers=4)
 E2TTS_model_cfg = dict(dim=1024, depth=24, heads=16, ff_mult=4)
+F5TTS_ema_model, F5TTS_base_model = load_model("F5TTS_Base", DiT, F5TTS_model_cfg, 1200000, "F5-TTS")
+E2TTS_ema_model, E2TTS_base_model = load_model("E2TTS_Base", UNetT, E2TTS_model_cfg, 1200000, "E2-TTS")
 @spaces.GPU
 def infer(ref_audio_orig, ref_text, gen_text, exp_name, remove_silence, progress = gr.Progress()):
     print(gen_text)
+    if model.predict(gen_text)['toxicity'] > 0.8:
         print("Flagged for toxicity:", gen_text)
         raise gr.Error("Your text was flagged for toxicity, please try again with a different text.")
     gr.Info("Converting audio...")