Spaces:

Laronix
/

Laronix_ASR_TTS_VC

Sleeping

App Files Files Community

KevinGeng commited on Sep 18, 2023

Commit

e224a36

•

1 Parent(s): 7f97911

tab-lization and fix bugs

Browse files

Files changed (1) hide show

app.py +3 -21

app.py CHANGED Viewed

@@ -16,29 +16,12 @@ import pdb
 # local import
 import sys
 from espnet2.bin.tts_inference import Text2Speech
-from transformers import AutoTokenizer, AutoFeatureExtractor, AutoModelForCTC# pdb.set_trace()
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 sys.path.append("src")
 import gradio as gr
-# ASR part
-audio_files = [
-    str(x)
-    for x in sorted(
-        Path(
-            "/home/kevingeng/Disk2/laronix/laronix_automos/data/20230103_video"
-        ).glob("**/*wav")
-    )
-]
-# audio_files = [str(x) for x in sorted(Path("./data/Patient_sil_trim_16k_normed_5_snr_40/Rainbow").glob("**/*wav"))]
-# transcriber = pipeline(
-#     "automatic-speech-recognition",
-#     model="KevinGeng/PAL_John_128_train_dev_test_seed_1",
-# )
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 processor = AutoProcessor.from_pretrained("KevinGeng/whipser_medium_en_PAL300_step25")
@@ -51,8 +34,7 @@ transcriber = pipeline("automatic-speech-recognition", model="KevinGeng/whipser_
 # @title English multi-speaker pretrained model { run: "auto" }
 lang = "English"
 vits_tag = "kan-bayashi/libritts_xvector_vits"
-ft2_tag = "kan-bayashi/libritts_xvector_vits" #@param ["kan-bayashi/vctk_gst_tacotron2", "kan-bayashi/vctk_gst_transformer", "kan-bayashi/vctk_xvector_tacotron2", "kan-bayashi/vctk_xvector_transformer", "kan-bayashi/vctk_xvector_conformer_fastspeech2", "kan-bayashi/vctk_gst+xvector_tacotron2", "kan-bayashi/vctk_gst+xvector_transformer", "kan-bayashi/vctk_gst+xvector_conformer_fastspeech2", "kan-bayashi/vctk_multi_spk_vits", "kan-bayashi/vctk_full_band_multi_spk_vits", "kan-bayashi/libritts_xvector_transformer"
-# ft2_tag = "kan-bayashi/libritts_xvector_conformer_fastspeech2"
 transformer_tag = "kan-bayashi/libritts_xvector_transformer"
 # !!! vits needs no vocoder !!!
@@ -378,7 +360,7 @@ with gr.Blocks(
     analytics_enabled=False,
     css=".gradio-container {background-color: #78BD91}",
 ) as demo:
-    # Open Version
     with gr.Tab("Open Version"):
         with gr.Column(elem_id="Column"):
             input_format = gr.Radio(

 # local import
 import sys
 from espnet2.bin.tts_inference import Text2Speech
+from transformers import AutoTokenizer, AutoFeatureExtractor, AutoModelForCTC
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 sys.path.append("src")
 import gradio as gr
 from transformers import AutoProcessor, AutoModelForSpeechSeq2Seq
 processor = AutoProcessor.from_pretrained("KevinGeng/whipser_medium_en_PAL300_step25")
 # @title English multi-speaker pretrained model { run: "auto" }
 lang = "English"
 vits_tag = "kan-bayashi/libritts_xvector_vits"
+ft2_tag = "kan-bayashi/libritts_xvector_conformer_fastspeech2"
 transformer_tag = "kan-bayashi/libritts_xvector_transformer"
 # !!! vits needs no vocoder !!!
     analytics_enabled=False,
     css=".gradio-container {background-color: #78BD91}",
 ) as demo:
+    # Public Version
     with gr.Tab("Open Version"):
         with gr.Column(elem_id="Column"):
             input_format = gr.Radio(