Upload 5 files

Browse files

Files changed (5) hide show

README.md +69 -3
config.json +5 -0
gitattributes +34 -0
hyperparams.yaml +64 -0
model.ckpt +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,69 @@
----
-license: mit
----

+---
+language: "lg"
+tags:
+- text-to-speech
+- TTS
+- speech-synthesis
+- Tacotron2
+- speechbrain
+license: "apache-2.0"
+datasets:
+- SALT-TTS
+metrics:
+- mos
+---
+# Sunbird AI Text-to-Speech (TTS) model trained on Luganda text
+### Text-to-Speech (TTS) with Tacotron2 trained on Professional Studio Recordings
+This repository provides all the necessary tools for Text-to-Speech (TTS)  with SpeechBrain.
+The pre-trained model takes in input a short text and produces a spectrogram in output. One can get the final waveform by applying a vocoder (e.g., HiFIGAN) on top of the generated spectrogram.
+### Install SpeechBrain
+```
+pip install speechbrain
+```
+### Perform Text-to-Speech (TTS)
+```
+import torchaudio
+from speechbrain.pretrained import Tacotron2
+from speechbrain.pretrained import HIFIGAN
+# Intialize TTS (tacotron2) and Vocoder (HiFIGAN)
+tacotron2 = Tacotron2.from_hparams(source="/Sunbird/sunbird-lug-tts", savedir="tmpdir_tts")
+hifi_gan = HIFIGAN.from_hparams(source="speechbrain/tts-hifigan-ljspeech", savedir="tmpdir_vocoder")
+# Running the TTS
+mel_output, mel_length, alignment = tacotron2.encode_text("Mbagaliza Christmass Enungi Nomwaka Omugya Gubaberere Gwamirembe")
+# Running Vocoder (spectrogram-to-waveform)
+waveforms = hifi_gan.decode_batch(mel_output)
+# Save the waverform
+torchaudio.save('example_TTS.wav',waveforms.squeeze(1), 22050)
+```
+If you want to generate multiple sentences in one-shot, you can do in this way:
+```
+from speechbrain.pretrained import Tacotron2
+tacotron2 = Tacotron2.from_hparams(source="speechbrain/TTS_Tacotron2", savedir="tmpdir")
+items = [
+       "Nsanyuse okukulaba",
+       "Erinnya lyo ggwe ani?",
+       "Mbagaliza Christmass Enungi Nomwaka Omugya Gubaberere Gwamirembe"
+     ]
+mel_outputs, mel_lengths, alignments = tacotron2.encode_batch(items)
+```
+### Inference on GPU
+To perform inference on the GPU, add  `run_opts={"device":"cuda"}`  when calling the `from_hparams` method.

config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "speechbrain_interface": "Tacotron2",
+  "vocoder_interface": "HiFIGAN",
+  "vocoder_model_id": "speechbrain/tts-hifigan-ljspeech"
+}

gitattributes ADDED Viewed

	@@ -0,0 +1,34 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+model.ckpt filter=lfs diff=lfs merge=lfs -text
+optimizer.ckpt filter=lfs diff=lfs merge=lfs -text

hyperparams.yaml ADDED Viewed

	@@ -0,0 +1,64 @@

+mask_padding: True
+n_mel_channels: 80
+n_symbols: 148
+symbols_embedding_dim: 512
+encoder_kernel_size: 5
+encoder_n_convolutions: 3
+encoder_embedding_dim: 512
+attention_rnn_dim: 1024
+attention_dim: 128
+attention_location_n_filters: 32
+attention_location_kernel_size: 31
+n_frames_per_step: 1
+decoder_rnn_dim: 1024
+prenet_dim: 256
+max_decoder_steps: 1000
+gate_threshold: 0.5
+p_attention_dropout: 0.1
+p_decoder_dropout: 0.1
+postnet_embedding_dim: 512
+postnet_kernel_size: 5
+postnet_n_convolutions: 5
+decoder_no_early_stopping: False
+sample_rate: 22050
+# Model
+model: !new:speechbrain.lobes.models.Tacotron2.Tacotron2
+  mask_padding: !ref <mask_padding>
+  n_mel_channels: !ref <n_mel_channels>
+  # symbols
+  n_symbols: !ref <n_symbols>
+  symbols_embedding_dim: !ref <symbols_embedding_dim>
+  # encoder
+  encoder_kernel_size: !ref <encoder_kernel_size>
+  encoder_n_convolutions: !ref <encoder_n_convolutions>
+  encoder_embedding_dim: !ref <encoder_embedding_dim>
+  # attention
+  attention_rnn_dim: !ref <attention_rnn_dim>
+  attention_dim: !ref <attention_dim>
+  # attention location
+  attention_location_n_filters: !ref <attention_location_n_filters>
+  attention_location_kernel_size: !ref <attention_location_kernel_size>
+  # decoder
+  n_frames_per_step: !ref <n_frames_per_step>
+  decoder_rnn_dim: !ref <decoder_rnn_dim>
+  prenet_dim: !ref <prenet_dim>
+  max_decoder_steps: !ref <max_decoder_steps>
+  gate_threshold: !ref <gate_threshold>
+  p_attention_dropout: !ref <p_attention_dropout>
+  p_decoder_dropout: !ref <p_decoder_dropout>
+  # postnet
+  postnet_embedding_dim: !ref <postnet_embedding_dim>
+  postnet_kernel_size: !ref <postnet_kernel_size>
+  postnet_n_convolutions: !ref <postnet_n_convolutions>
+  decoder_no_early_stopping: !ref <decoder_no_early_stopping>
+# Function that converts the text into a sequence of valid characters.
+text_to_sequence: !name:speechbrain.utils.text_to_sequence.text_to_sequence
+modules:
+    model: !ref <model>
+pretrainer: !new:speechbrain.utils.parameter_transfer.Pretrainer
+    loadables:
+        model: !ref <model>

model.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d974eb14aed03438e608ed80f7c9418b333a2d17c4f02f510ed9e4d74c75f214
+size 112830206