Spaces:

lalalic
/

xtts

Sleeping

lalalic commited on Mar 27, 2024

Commit

0c13c69

verified ·

1 Parent(s): dac86f1

Update xtts.py

Files changed (1) hide show

xtts.py CHANGED Viewed

@@ -34,30 +34,29 @@ if not os.path.exists(sample_root):
 default_sample=f'{os.path.dirname(os.path.abspath(__file__))}/sample.wav', f'{sample_root}/sample.pt'
 ffmpeg=f'{os.path.dirname(os.path.abspath(__file__))}/ffmpeg'
-if tts is None:
-    # model_dir=os.environ.get("MODEL_DIR")
-    # model_path=model_dir
-    # config_path=f'{model_dir}/config.json'
-    # vocoder_config_path=f'{model_dir}/vocab.json'
-    model_name="tts_models/multilingual/multi-dataset/xtts_v2"
-    logging.info(f"loading model {model_name} ...")
-    tts = TTS(
-        model_name,
-        # model_path=model_path,
-        # config_path=config_path,
-        # vocoder_config_path=vocoder_config_path,
-        progress_bar=False
-    )
-    model=tts.synthesizer.tts_model
-    #hack to use cache
-    model.__get_conditioning_latents=model.get_conditioning_latents
-    model.get_conditioning_latents=get_conditioning_latents
-    logging.info("model is ready")
 def predict(text, sample=None, language="zh"):
     global tts
     global model
     try:
         text= re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)",r"\1 \2\2",text)
         wav = tts.tts(
             text,
@@ -158,5 +157,5 @@ def trim_sample_audio(speaker_wav):
 logging.info("xtts is ready")
-import gradio as gr
-gr.Interface(predict, inputs=["text", "text"], outputs=gr.Audio()).launch()

 default_sample=f'{os.path.dirname(os.path.abspath(__file__))}/sample.wav', f'{sample_root}/sample.pt'
 ffmpeg=f'{os.path.dirname(os.path.abspath(__file__))}/ffmpeg'
 def predict(text, sample=None, language="zh"):
     global tts
     global model
     try:
+        if tts is None:
+            # model_dir=os.environ.get("MODEL_DIR")
+            # model_path=model_dir
+            # config_path=f'{model_dir}/config.json'
+            # vocoder_config_path=f'{model_dir}/vocab.json'
+            model_name="tts_models/multilingual/multi-dataset/xtts_v2"
+            logging.info(f"loading model {model_name} ...")
+            tts = TTS(
+                model_name,
+                # model_path=model_path,
+                # config_path=config_path,
+                # vocoder_config_path=vocoder_config_path,
+                progress_bar=False
+            )
+            model=tts.synthesizer.tts_model
+            #hack to use cache
+            model.__get_conditioning_latents=model.get_conditioning_latents
+            model.get_conditioning_latents=get_conditioning_latents
+            logging.info("model is ready")
         text= re.sub("([^\x00-\x7F]|\w)(\.|\。|\?)",r"\1 \2\2",text)
         wav = tts.tts(
             text,
 logging.info("xtts is ready")
+# import gradio as gr
+# gr.Interface(predict, inputs=["text", "text"], outputs=gr.Audio()).launch()