Spaces:

akthangdz
/

tts-ngngan

Running

App Files Files Community

Nông Văn Thắng commited on Oct 17, 2024

Commit

f03d2e3

1 Parent(s): 69448e7

main

Browse files

Files changed (2) hide show

app.py +1 -27
colab-notebook.ipynb +0 -66

app.py CHANGED Viewed

@@ -38,13 +38,6 @@ def synthesise_mel(text, text_length, n_timesteps, temperature, length_scale):
 	return (22050, waveform), plot_tensor(output["mel"].squeeze().cpu().numpy())
 	# sample rate 22.05 kHz
-def example_cacher(text, n_timesteps, mel_temp, length_scale):
-	phones, text, text_lengths = process_text_gradio(text)
-	audio, mel_spectrogram = synthesise_mel(text, text_lengths, n_timesteps, mel_temp, length_scale)
-	return phones, audio, mel_spectrogram
 with gr.Blocks(title=TITLE, theme="soft") as demo:
 	processed_text = gr.State(value=None)
 	processed_text_len = gr.State(value=None)
@@ -71,30 +64,11 @@ with gr.Blocks(title=TITLE, theme="soft") as demo:
 				phonetised_text = gr.Textbox(label="Văn bản dưới dạng mẫu tự biểu âm quốc tế (IPA)", info="khẩu âm Hà Nội", interactive=False, lines=3)
 				mel_spectrogram = gr.Image(label="mel spectrogram", interactive=False)
-	with gr.Row():
-		examples = gr.Examples(
-			label="ví dụ văn bản đầu vào",
-			examples=[
-				[DEMO_TEXT_0,  2, 0.677, 0.95],
-				[DEMO_TEXT_0,  4, 0.677, 0.95],
-				[DEMO_TEXT_0, 10, 0.677, 0.95],
-				[DEMO_TEXT_0, 50, 0.677, 0.95],
-				[DEMO_TEXT_1, 50, 0.677, 0.95],
-			],
-			fn=example_cacher,
-			inputs=[text, n_timesteps, mel_temp, length_scale],
-			outputs=[phonetised_text, audio, mel_spectrogram],
-			cache_examples=True,
-		)
-	with gr.Row():
-		gr.Markdown("[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/#fileId=https://huggingface.co/spaces/doof-ferb/MatchaTTS_ngngngan/blob/main/colab-notebook.ipynb)")
 	synth_btn.click(
 		fn=process_text_gradio,
 		inputs=[text],
 		outputs=[phonetised_text, processed_text, processed_text_len],
-		api_name="phonemize",
 		queue=True,
 	).then(
 		fn=synthesise_mel,

 	return (22050, waveform), plot_tensor(output["mel"].squeeze().cpu().numpy())
 	# sample rate 22.05 kHz
 with gr.Blocks(title=TITLE, theme="soft") as demo:
 	processed_text = gr.State(value=None)
 	processed_text_len = gr.State(value=None)
 				phonetised_text = gr.Textbox(label="Văn bản dưới dạng mẫu tự biểu âm quốc tế (IPA)", info="khẩu âm Hà Nội", interactive=False, lines=3)
 				mel_spectrogram = gr.Image(label="mel spectrogram", interactive=False)
 	synth_btn.click(
 		fn=process_text_gradio,
 		inputs=[text],
 		outputs=[phonetised_text, processed_text, processed_text_len],
+		api_name="process",
 		queue=True,
 	).then(
 		fn=synthesise_mel,

colab-notebook.ipynb DELETED Viewed

@@ -1,66 +0,0 @@
-{
-	"cells": [
-		{
-			"cell_type": "code",
-			"execution_count": null,
-			"metadata": {},
-			"outputs": [],
-			"source": [
-				"!apt-get install espeak-ng\n",
-				"%pip install -q git+https://github.com/phineas-pta/MatchaTTS_ngngngan.git\n",
-				"\n",
-				"import IPython.display as ipd\n",
-				"import torch\n",
-				"from huggingface_hub import hf_hub_download\n",
-				"from matcha.cli import get_torch_device, load_matcha, load_vocoder, process_text, to_waveform\n",
-				"\n",
-				"MODEL_PATH = hf_hub_download(repo_id=\"doof-ferb/matcha_ngngngan\", filename=\"ckpt/checkpoint_epoch420_slim.pt\")\n",
-				"VOCODER_PATH = hf_hub_download(repo_id=\"doof-ferb/matcha_ngngngan\", filename=\"hifigan/g_02500000\")\n",
-				"DEVICE = get_torch_device()\n",
-				"MODEL = load_matcha(MODEL_PATH, DEVICE)\n",
-				"VOCODER, DENOISER = load_vocoder(VOCODER_PATH, DEVICE)\n",
-				"\n",
-				"@torch.inference_mode()\n",
-				"def tts(text, n_timesteps, temperature, length_scale, denoiser_strength):\n",
-				"\ttmp0 = process_text(text, DEVICE)\n",
-				"\tphones, txt, txt_len = tmp0[\"x_phones\"][1::2], tmp0[\"x\"], tmp0[\"x_lengths\"]\n",
-				"\toutput = MODEL.synthesise(txt, txt_len, n_timesteps=n_timesteps, temperature=temperature, spks=None, length_scale=length_scale)\n",
-				"\twaveform = to_waveform(output[\"mel\"], VOCODER, DENOISER, denoiser_strength=denoiser_strength).numpy()\n",
-				"\tipd.display(ipd.Audio(waveform, rate=22050))\n",
-				"\tipd.display(ipd.Markdown(\"Văn bản dưới dạng mẫu tự biểu âm quốc tế (IPA), khẩu âm Hà Nội\\n\\n\" + phones))"
-			]
-		},
-		{
-			"cell_type": "code",
-			"execution_count": null,
-			"metadata": {},
-			"outputs": [],
-			"source": [
-				"tts(\n",
-				"\"\"\"Kính thưa quý vị, xin quý vị ghé vào thăm kênh Youtube Nguyễn Ngọc Ngạn,\n",
-				"quý vị sẽ gặp lại tất cả các băng đọc truyện của Nguyễn Ngọc Ngạn do Trung tâm Thúy Nga thực hiện\n",
-				"và những truyện mới cùng những buổi nói chuyện về nhiều đề tài phổ biến khác nhau.\n",
-				"Xin chân thành cảm ơn và chờ đón quý vị.\"\"\",\n",
-				"n_timesteps=50, temperature=0.667, length_scale=.95, denoiser_strength=2.5e-4\n",
-				")"
-			]
-		}
-	],
-	"metadata": {
-		"colab": {
-			"private_outputs": true,
-			"provenance": [],
-			"gpuType": "T4"
-		},
-		"kernelspec": {
-			"name": "python3",
-			"display_name": "Python 3"
-		},
-		"language_info": {
-			"name": "python"
-		},
-		"accelerator": "GPU"
-	},
-	"nbformat": 4,
-	"nbformat_minor": 0
-}