import gradio as gr import librosa import numpy as np import torch import pyewts import noisereduce as nr from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan def remove_repeated_words(text): # Tokenize the input text into words words = text.split() # Create a dictionary to count word occurrences word_count = {} # Create a list to store the final words new_words = [] for word in words: # Check if the word is in the dictionary if word in word_count: # If it has occurred once before, add it to the list with a count of 2 if word_count[word] == 1: new_words.append(word) word_count[word] = 2 else: # If it has not occurred before, add it to the dictionary with a count of 1 word_count[word] = 1 new_words.append(word) # Join the modified words back into a string result = ' '.join(new_words) return result converter = pyewts.pyewts() checkpoint = "TenzinGayche/TTS_run3_ep20_174k_b" processor = SpeechT5Processor.from_pretrained(checkpoint) model = SpeechT5ForTextToSpeech.from_pretrained(checkpoint)'cuda') vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan") speaker_embeddings = { "Lhasa(female)": "female_2.npy", } replacements = [ ('_', '_'), ('*', 'v'), ('`', ';'), ('~', ','), ('+', ','), ('\\', ';'), ('|', ';'), ('╚',''), ('╗','') ] def cleanup_text(inputs): for src, dst in replacements: inputs = inputs.replace(src, dst) return inputs def predict(text, speaker): if len(text.strip()) == 0: return (16000, np.zeros(0).astype(np.int16)) text = converter.toWylie(text) text=cleanup_text(text) inputs = processor(text=text, return_tensors="pt") # limit input length input_ids = inputs["input_ids"] input_ids = input_ids[..., :model.config.max_text_positions] speaker_embedding = np.load(speaker_embeddings[speaker]) speaker_embedding = torch.tensor(speaker_embedding) speech = model.generate_speech('cuda'),'cuda'),'cuda')) speech = nr.reduce_noise('cpu'), sr=16000) return (16000, speech) title = "Tibetan TTS" description = """ Feedbacks: """ article = """

References: SpeechT5 paper | original GitHub | original weights

Speaker embeddings were generated from CMU ARCTIC using this script.

""" examples = [ ["ད་དེ་ཚོ་འདི་བྱེད་དགོས་རེད་ ན་ཚ་ མ་ཡོང་སྔོན་ལ་ཁོ་རང་ལ་ཡང་ཁྱི་ཁོ་རང་ཁོ་ལ་ཡང་ཁབ་རྒྱག་ཡ་ཡོད་རེད། ཨུན་སྔོན་འགོག་དང་རཱབྷིསས་ཁབ་རྒྱག་ཡ་ཡོད་རེད་ད།", "Lhasa(female)"], ["སྟོབས་ཆེན་རྒྱལ་ཁབ་ཉི་ཤུའི་ལྷན་ཚོགས་ཐོག་ལ་རྒྱ་ནག་གཞུང་གིས་བོད་ནང་རིག་གཞུང་རྩ་གཏོར་ཀྱི་སྲིད་བྱུས་ཁག་དཔར་རིས་ཐོག་ནས་ལས་འགུལ་སྤེལ་བའི་སྐོར འཇམ་དབྱངས་རྒྱ་མཚོ་ལགས་ཀྱིས་སྙན་སྒྲོན་གནང་གི་རེད།", "Lhasa(female)"], ["དངོས་གནས་ལབ་དགོས་རཱ་ད། མི་དབུལ་པོ་དེ་ཚོ་ལ་ག་རེ་ལབ་དགོས་རེད། སྦྱིན་པ་གཏང་ཡ་ཡོད་རཱ། ཨུན། དེ་འདྲ་གི་ལས་འགུལ་དེ་འདྲའི་མང་པོ་བརྩམས་ཀི་འདུག་བ། དེ་ཚོ་ཡང་ངས་ཚད་ལས་བརྒལ་བའི་ཡག་པོ་རེད་དྲན་གི་འདུག། ", "Lhasa(female)"], ["ཁོང་རྣམ་པ་ནི་སྤྱིར་བཏང་གི་གང་ཟག་ཅིག་མ་ཡིན་པར་མི་རབས་ནས་མི་རབས་རྒྱུད་པ་འཛིན་པའི་ནོར་བུ་ཡིན་ཞིང་། ", "Lhasa(female)"], ["ཨ་ལེ། ཨེ་ནས་སྤྱིར་བཏང་ད་ང་ཚོ་ད་ལྟ་ཁྱེད་རང་གིས་དམིགས་ཡུལ་ད་གལ་ཆེན་པོ་བརྩིས་ནས།", "Lhasa(female)"], ["འཕགས་པ་ཐུགས་རྗེ་ཆེན་པོ་སྤྲུལ་པའི་རྒྱལ་པོའི་ཚུལ་བཟུང།།", "Lhasa(female)"], ] gr.Interface( fn=predict, inputs=[ gr.Text(label="Input Text"), gr.Radio(label="Speaker", choices=[ "Lhasa(female)", ], value="Lhasa(female)"), ], outputs=[ gr.Audio(label="Generated Speech", type="numpy"), ], title=title, description=description, article=article, examples=examples, ).launch()